Philological research: language, literature, education filologik tadqiqotlar


Тилшунослик • Языкознание • Linguistics Bu muammoni hal qilish uchun  qoidaga asoslangan soʻzlarni tokenizatsiya qilish


Download 1.82 Mb.
Pdf ko'rish
bet80/118
Sana19.01.2023
Hajmi1.82 Mb.
#1102433
TuriЛитература
1   ...   76   77   78   79   80   81   82   83   ...   118
Bog'liq
Filologik tadqiqotlar 2022 (5 son) 05.12.22.

74
Тилшунослик • Языкознание • Linguistics
Bu muammoni hal qilish uchun 
qoidaga asoslangan soʻzlarni tokenizatsiya qilish lozim. ToshDOʻTAU 
ilmiy tadqiqotchilari tomonidan
 ishlab chiqilgan NLP paketida semantik jihatdan boy tokenlarni yaratish uchun 
tilga xos qoidalarga asoslangan tokenizatorni taqdim etadi.
Otam gapni shartta kesdilar: “Bugungi ishni ertaga qo‘yma!»
Otam
gapni
shartta
kesdilar
: “
“Bugungi
ishni
ertaga
qo‘yma
!

3-rasm. 
UzTokenizator paketi vositasida tokenizatsiya
Ushbu yondashuv juda oddiy boʻlib, matnni ishlov berish vaqti va quvvatiga bardosh bera oladigan texnika 
talab qilinadi. Bu usuldan foydalanishda oʻquv ma’lumotlari hajmi oshgani sayin lugʻat hajmi ham oshadi. 
Soʻzlarga asoslangan tokenizatsiyaga ega modelni ulkan til korpusida oʻrgatish juda katta resurslar talabiga 
ega boʻlgan ogʻir modelni yaratadi
Faqat belgilar toʻplamini token sifatida ishlatib, lugʻat hajmini kamaytirish mumkinmi?
Belgilarga asoslangan tokenizatsiya
Belgilarga asoslangan tokenizatsiya jarayonida barcha asosiy belgilarni token sifatida koʻrib chiqiladi. NLP 
masalasi shartiga koʻra 
UNICODE, ASCII va boshqa turdagi kodlashtirish usullaridan foydalanish mumkin. 
Yuqoridagi misolga ushbu usulni qoʻllash natijasi quyidagicha: 
Otam gapni shartta kesdilar: “Bugungi ishni ertaga qo‘yma!»
O t a m g a p n i s h a r t t a k e s d i l a r : “ B u g u n g i i s h n i e r t a g a q o ‘ y m a ! ”
4-rasm. 
Belgilarga asoslangan tokenizatsiya
Bu usulda modelning murakkabligi va hajmi keskin kamayadi, chunki lugʻat 
~ 200 ta token bilan cheklangan. 
Biroq, tokenlar endi mazmunli semantikani anglatmaydi. Shu sababli belgilarga asoslangan tokenlarga mos 
til modellari past koʻrsatkichli natija qaytaradi.
Agar qoʻyilgan NLP masalasida samaradorlik talabi muhim boʻlmasa, yuqori tezlik va kamroq hisoblashlar 
orqali belgilarga asoslangan tokenizatsiyadan foydalanish tavsiya qilinadi.

Download 1.82 Mb.

Do'stlaringiz bilan baham:
1   ...   76   77   78   79   80   81   82   83   ...   118




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling