Qabul qilingan sana: 18.11.2022
Nashr etilgan sana: 28.11.2022
ISNN: 2181-1741 (Print); ISNN: 2181-1725
TOKENIZATSIYA ALGORITMLARI
Xusainova Zilola Yuldashevna,
Alisher Navoiy nomidagi Toshkent davlat O‘zbek tili va adabiyoti universiteti
Kompyuter lingvistikasi va raqamli texnologiyalar kafedrasi stajor-oʻqituvchisi
Tokenizatsiya – berilgan matn ma’lumotlarini mashinalar tomonidan tushunarli va qayta ishlanishi mumkin
boʻlgan alohida mazmunli tokenlarga ajratish usulidir.
Tokenlar qanday ajratish algoritmi qoʻllanilishiga qarab
soʻzlar, belgilar yoki hatto soʻz ostilar boʻlishi mumkin. Ushbu maqolada tokenlarning uchta asosiy toifasini
– soʻzlar, belgilar va soʻz ostilarni aniqlash usullari muhokama qilinadi. Shuningdek, hozirgi kunda keng
miqyosida foydalaniladigan SOTA modellarida foydalaniladigan soʻz ostilarni tokenizatsiya qilish algoritmlari
(
BPE
1
, Word Piece
2
, Unigram
3
va Sentence Piece
4
) haqida ma’lumot beriladi. Shungdek, yuqorida keltirilgan
algortimlarning oʻzbek tilidagi matnlarga qoʻllash usullari keltiriladi.
Soʻz asosidagi tokenizatsiya (Word Based Tokenization)
Nomidan koʻrinib turibdiki, soʻz asosidagi tokenizatsiya usullarida tinish belgilari, boʻshliqlar, chegaralovchilar
va boshqalar bilan ajratilgan soʻzlar token sifatida qabul qilinadi. Ajratish chegarasi qoʻyilgan NLP vazifasiga
mos qoʻyiladi va ba’zan qayta ishlanayotgan ma’lumotlarning xususiyatiga bogʻliq boʻlishi mumkin. Twitter
ijtimoiy tarmogʻidagi tvitlarini tokenizatsiya qilish uchun moʻljallangan tokenizator yangiliklardan iborat
maqolalarini tokenizatsiya qilish jarayonidan biroz farq qiladi. Quyida, faqat boʻsh joy belgilariga asoslangan
tokenizatsiya jarayoni keltirilgan:
Do'stlaringiz bilan baham: |