Otam gapni shartta kesdilar: “Bugungi ishni ertaga qo‘yma!»
Otam
gapni
shartta
kesdilar:
“Bugungi
ishni
ertaga
qo‘yma!”
1-rasm.
Boʻsh joy belgilariga asoslangan tokenizatsiya
Ushbu yondashuv asosida hosil qilingan natijada,
“kesdilar:”, “Bugungi” va “qoʻyma!” belgilar toʻplami
yagona token sifatida qaraladi. Agar kattaroq ma’lumotlar toʻplami (BigData)da ushbu usul qoʻllanilishi katta
hajmli lugʻat hosil qilinishiga olib keladi. Chunki bu usulda soʻzlarning son-sanoqsiz guruhlari va tinish belgilari
asosiy soʻzdan farqli belgilar sifatida koʻrib chiqiladi. Ushbu muammoni hal qilish uchun, tinish belgilari va
boʻshliqlarni belgilab olamiz.
Otam gapni shartta kesdilar: “Bugungi ishni ertaga qo‘yma!»
Otam
gapni
shartta
kesdilar
: “
“Bugungi
ishni
ertaga
qo‘
‘
yma
!
”
2-rasm.
Boʻshliqlar, tinish belgilariga asoslangan tokenizatsiya
Hosil qilingan natija oldingidan koʻra biroz yaxshiroq koʻrinadi. Oʻzbek tilidagi barcha tinish belgilarini ular
qatnashgan kontekstni tushunmasdan belgi chegarasi sifatida koʻrib chiqish mumkin emasligini inobatga
olish kerak. Buni kontekstga amalga oshirish uchun stsenariylarda
apostrof va tutuq belgisini inobatga
olgan tarzda amalga oshirish lozim. Yuqoridagi misolda
“qoʻyma” soʻzi [“qo”,”‘“, “yma”] kabi 3 ta tokenga
ajratilgan. Biroq ushbu soʻzni
“qoʻyma”kabi tokenga ajratish ma’noliroq semantikani ta’minlaydi.
1
https://towardsdatascience.com/byte-pair-encoding-the-dark-horse-of-modern-nlp-eb36c7df4f10
2
https://towardsdatascience.com/wordpiece-subword-based-tokenization-algorithm-1fbd14394ed7
3
https://medium.com/mti-technology/n-gram-language-model-b7c2fc322799
4
https://jacky2wong.medium.com/understanding-sentencepiece-under-standing-sentence-piece-ac8da59f6b08
Do'stlaringiz bilan baham: |