Philological research: language, literature, education filologik tadqiqotlar


Download 1.82 Mb.
Pdf ko'rish
bet82/118
Sana19.01.2023
Hajmi1.82 Mb.
#1102433
TuriЛитература
1   ...   78   79   80   81   82   83   84   85   ...   118
Bog'liq
Filologik tadqiqotlar 2022 (5 son) 05.12.22.

Word Piece algoritmi
Word Piece va BPE algortimlari soʻz ostilarni aniqlashga asoslangan tokenizatsiyasini aniqlash 
yondashuvlarida juda oʻxshash. BPEning asosiy mezonlari maksimal chastotaga ega nomzod juftligini 
tanlash ekanligini ta’kidlash mumkin. Word Piece, chastotani koʻpaytirish oʻrniga, nomzodlar juftligi ehtimolini 
maksimal darajada oshirishga qaratilgan. Bu quyidagi formula bilan qisqacha umumlashtiriladi:
6-rasm. 
Word Piece algoritmi formulasi
Unigram algoritmi 
BPE algoritmining kamchiliklaridan biri, u so’zni tokenizatsiya qilishda noaniqlik yuzaga kelganda 
tokenlarni tanlash uchun reyting (ranjirovka) mexanizmini ta’minlay olmaydi. Bu jarayonni quyidagi misolda 
koʻrib chiqamiz. Bizning asosiy lugʻatimiz quyidagi tokenlardan iborat boʻlsin – qu, uy, yo, osh, yosh, quy va 
agar bizdan quyosh soʻzini tokenizatsiya qilishni soʻrashsa, bizga ikkita variant taqdim etiladi, ularning hech 
biri ikkinchisidan afzal (muhim) emas - 
(yosh, uy, qu) yoki (yo, quy, osh)
BPE algoritmi har bir qadamda mumkin boʻlgan eng yaxshi bashoratga e’tibor qaratadi. Shu sababli bu 
usulni koʻp hollarda “ochkoʻz” yechim deb atashadi va shuning uchun ba’zi hollarda kutilmagan natijalarga olib 
kelishi mumkin. Unigram algoritmi mashgʻulot paytida oʻrganilgan ehtimollikni hisobga olgan holda mumkin 
boʻlgan tokenini bashorat qilishga asoslanadi.
Treningning har bir bosqichida har bir kichik soʻz tokenining ehtimoli hisoblanadi va agar har bir soʻz 
ostilarni tushib qolsa, yoʻqotish qiymatini aniqlaymiz. Keyingi qadamda eng kam umumiy yoʻqotishga olib 
keladigan tokenlarni aniqlaymiz.
Sentence Piece algoritmi
NLP masalalaridagi tokenizatsiya jarayonida eng koʻp foydalaniladigan usullardan biri Sentence 
Piece hisoblanadi. Sentence Piece ushbu maqolada tasvirlangan soʻz ostilarni aniqlashga asoslangan 
tokenizatsiyasini aniqlash barcha usullarining umumiysidir. Ushbu usul biror tabiiy tilga bogʻliq emas. Chunki 


76
Тилшунослик • Языкознание • Linguistics
u tilning oʻziga xos atributlarini boshqarish uchun oldindan tokenizerni talab qilmaydi. U boʻshliqlarni alohida 
belgi sifatida koʻrib chiqadi va shu bilan dekodlash masalalarini butunlay hal qiladi. Sentence Piece boshqa 
tokenizatsiya usullaridan koʻra tez ishlashi bilan ajralib turadi
1

Ushbu maqolada biz NLP tizimlarini ishlab chiqishda matnni tahlil qilishda boshlangi’ch bosqich boʻlgan eng 
yaxshi va keng qoʻllaniladigan tokenizatsiya algoritmlarini koʻrib chiqdik va ularning afzalliklari, kamchiliklarini 
keltirdik. Shiningdek, NLP vazifasiga mos toʻgʻri tanlovni amalga oshirish vaziyatlarni muhokama qildik.

Download 1.82 Mb.

Do'stlaringiz bilan baham:
1   ...   78   79   80   81   82   83   84   85   ...   118




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling