74
Тилшунослик • Языкознание • Linguistics
Bu muammoni hal qilish uchun
qoidaga asoslangan soʻzlarni tokenizatsiya qilish lozim. ToshDOʻTAU
ilmiy tadqiqotchilari tomonidan
ishlab chiqilgan NLP paketida semantik jihatdan boy tokenlarni yaratish uchun
tilga xos qoidalarga asoslangan tokenizatorni taqdim etadi.
Otam gapni shartta kesdilar: “Bugungi ishni ertaga qo‘yma!»
Otam
gapni
shartta
kesdilar
: “
“Bugungi
ishni
ertaga
qo‘yma
!
”
3-rasm.
UzTokenizator paketi vositasida tokenizatsiya
Ushbu yondashuv juda oddiy boʻlib, matnni ishlov berish vaqti va quvvatiga bardosh bera oladigan texnika
talab qilinadi. Bu usuldan foydalanishda oʻquv ma’lumotlari hajmi oshgani sayin lugʻat hajmi ham oshadi.
Soʻzlarga asoslangan tokenizatsiyaga ega modelni ulkan til korpusida oʻrgatish juda katta resurslar talabiga
ega boʻlgan ogʻir modelni yaratadi.
Faqat belgilar toʻplamini token sifatida ishlatib, lugʻat hajmini kamaytirish mumkinmi?
Belgilarga asoslangan tokenizatsiya
Belgilarga asoslangan tokenizatsiya jarayonida barcha asosiy belgilarni token sifatida koʻrib chiqiladi. NLP
masalasi shartiga koʻra
UNICODE, ASCII va boshqa turdagi kodlashtirish usullaridan foydalanish mumkin.
Yuqoridagi misolga ushbu usulni qoʻllash natijasi quyidagicha:
Otam gapni shartta kesdilar: “Bugungi ishni ertaga qo‘yma!»
O t a m g a p n i s h a r t t a k e s d i l a r : “ B u g u n g i i s h n i e r t a g a q o ‘ y m a ! ”
4-rasm.
Belgilarga asoslangan tokenizatsiya
Bu usulda modelning murakkabligi va hajmi keskin kamayadi, chunki lugʻat
~ 200 ta token bilan cheklangan.
Biroq, tokenlar endi mazmunli semantikani anglatmaydi. Shu sababli belgilarga asoslangan tokenlarga mos
til modellari past koʻrsatkichli natija qaytaradi.
Agar qoʻyilgan NLP masalasida samaradorlik talabi muhim boʻlmasa, yuqori tezlik va kamroq hisoblashlar
orqali belgilarga asoslangan tokenizatsiyadan foydalanish tavsiya qilinadi.
Do'stlaringiz bilan baham: |