Philological research: language, literature, education filologik tadqiqotlar


Soʻz ostilarni aniqlashga asoslangan tokenizatsiya


Download 1.82 Mb.
Pdf ko'rish
bet81/118
Sana19.01.2023
Hajmi1.82 Mb.
#1102433
TuriЛитература
1   ...   77   78   79   80   81   82   83   84   ...   118
Bog'liq
Filologik tadqiqotlar 2022 (5 son) 05.12.22.

Soʻz ostilarni aniqlashga asoslangan tokenizatsiya
Agar NLP masalasini hal qilishda belgi va soʻzlarga asoslangan tokenizatsiya kerakli natijani bermasa, 
ushbu usuldan foydalanish tavsiya etiladi. Soʻz ostilarni aniqlashga asoslangan tokenizatsiya qilish usullari 
ma’lumotlar toʻplamidagi barcha soʻzlarni faqat 
N tokendan foydalangan holda ifodalashga asoslangan. 
Bunda 
N giperparametr boʻlib, masala talabiga mos qiymat hisoblanadi. Amalga oshirilgan sinov tajribalar 
nattijasiga koʻra asosiy modellar uchun 
~ 30000 tokendan foydalaniladi. Ushbu usullar tufayli cheksiz 
lugʻatlardan foydalanmasdan, kontekstdan mustaqil semantik jihatdan boy token tasvirlarini olish mumkin. 
Keyingi qadamda soʻz ostilar tokenizatsiyasini amalga oshiruvchi eng yaxshi va keng qoʻllaniladigan 
algoritmlar muhokama qilinadi.
Juft baytlarni kodlash algoritmi
Juft baytlarni kodlash 
(Byte-Pair Encoding, BPE), avvalo, berilgan matnni oldindan tokenizatsiya qilishni 
talab qiladi. Bu boʻsh joy tokenizatsiyasi kabi oddiy boʻlishi mumkin. Ba’zi hollarda NLP masalasidan kelib 
chiqqqan holda SpaCy kabi qoidaga asoslangan tokenizatordan foydalanishingiz mumkin. Endi korpusda 
mavjud boʻlgan barcha noyob (unikal) belgilar toʻplamidan iborat boʻlgan asosiy lugʻatni shakllantirish 
mumkin. Shuningdek, har bir tokenning chastotasini hisoblab chiqish va har bir tokenni asosiy lugʻatdagi 
alohida belgilar roʻyxati sifatida shakllantirish lozim. 
Soʻngra birlashish jarayoni boshlanadi. 
Asosiy lugʻatga koʻp marta uchraydigan tokenlar juftligi birlashtirilib yangi token sifatida kiritiladi va ushbu 
qadam berilgan maksimal lugʻat hajmiga yetgunicha takrorlanadi.


75
Тилшунослик • Языкознание • Linguistics
5-rasm. 
Juft baytlarni kodlashga asoslangan tokenizatsiya

Download 1.82 Mb.

Do'stlaringiz bilan baham:
1   ...   77   78   79   80   81   82   83   84   ...   118




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling