Philological research: language, literature, education filologik tadqiqotlar
Download 1.82 Mb. Pdf ko'rish
|
Filologik tadqiqotlar 2022 (5 son) 05.12.22.
- Bu sahifa navigatsiya:
- Word Piece algoritmi formulasi Unigram algoritmi
- Sentence Piece algoritmi
Word Piece algoritmi
Word Piece va BPE algortimlari soʻz ostilarni aniqlashga asoslangan tokenizatsiyasini aniqlash yondashuvlarida juda oʻxshash. BPEning asosiy mezonlari maksimal chastotaga ega nomzod juftligini tanlash ekanligini ta’kidlash mumkin. Word Piece, chastotani koʻpaytirish oʻrniga, nomzodlar juftligi ehtimolini maksimal darajada oshirishga qaratilgan. Bu quyidagi formula bilan qisqacha umumlashtiriladi: 6-rasm. Word Piece algoritmi formulasi Unigram algoritmi BPE algoritmining kamchiliklaridan biri, u so’zni tokenizatsiya qilishda noaniqlik yuzaga kelganda tokenlarni tanlash uchun reyting (ranjirovka) mexanizmini ta’minlay olmaydi. Bu jarayonni quyidagi misolda koʻrib chiqamiz. Bizning asosiy lugʻatimiz quyidagi tokenlardan iborat boʻlsin – qu, uy, yo, osh, yosh, quy va agar bizdan quyosh soʻzini tokenizatsiya qilishni soʻrashsa, bizga ikkita variant taqdim etiladi, ularning hech biri ikkinchisidan afzal (muhim) emas - (yosh, uy, qu) yoki (yo, quy, osh). BPE algoritmi har bir qadamda mumkin boʻlgan eng yaxshi bashoratga e’tibor qaratadi. Shu sababli bu usulni koʻp hollarda “ochkoʻz” yechim deb atashadi va shuning uchun ba’zi hollarda kutilmagan natijalarga olib kelishi mumkin. Unigram algoritmi mashgʻulot paytida oʻrganilgan ehtimollikni hisobga olgan holda mumkin boʻlgan tokenini bashorat qilishga asoslanadi. Treningning har bir bosqichida har bir kichik soʻz tokenining ehtimoli hisoblanadi va agar har bir soʻz ostilarni tushib qolsa, yoʻqotish qiymatini aniqlaymiz. Keyingi qadamda eng kam umumiy yoʻqotishga olib keladigan tokenlarni aniqlaymiz. Sentence Piece algoritmi NLP masalalaridagi tokenizatsiya jarayonida eng koʻp foydalaniladigan usullardan biri Sentence Piece hisoblanadi. Sentence Piece ushbu maqolada tasvirlangan soʻz ostilarni aniqlashga asoslangan tokenizatsiyasini aniqlash barcha usullarining umumiysidir. Ushbu usul biror tabiiy tilga bogʻliq emas. Chunki 76 Тилшунослик • Языкознание • Linguistics u tilning oʻziga xos atributlarini boshqarish uchun oldindan tokenizerni talab qilmaydi. U boʻshliqlarni alohida belgi sifatida koʻrib chiqadi va shu bilan dekodlash masalalarini butunlay hal qiladi. Sentence Piece boshqa tokenizatsiya usullaridan koʻra tez ishlashi bilan ajralib turadi 1 . Ushbu maqolada biz NLP tizimlarini ishlab chiqishda matnni tahlil qilishda boshlangi’ch bosqich boʻlgan eng yaxshi va keng qoʻllaniladigan tokenizatsiya algoritmlarini koʻrib chiqdik va ularning afzalliklari, kamchiliklarini keltirdik. Shiningdek, NLP vazifasiga mos toʻgʻri tanlovni amalga oshirish vaziyatlarni muhokama qildik. Download 1.82 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling