Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“KOMPYUTER LINGVISTIKASI:
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2022)
http://compling.navoiy-uni.uz/
274
tinish belgilarini hammasini ham olib tashlash to‘g‘ri hisoblanavermaydi. Buni
malum bir qoidalarga asoslani bajariladi.
Odatda, tokenizatsiya so‘z darajasida sodir bo‘ladi. Biroq, ba’zida "so‘z"
nimani anglatishini aniqlash qiyin. Ko‘pincha tokenizator
oddiy evristikaga
tayanadi, masalan:
• Tinish belgilari va bo‘sh joy, natijada olingan belgilar qatoriga kiritilishi yoki
kiritilmasligi mumkin.
• Alifbo belgilarining barcha tutashgan satrlari bitta belgining bir qismidir;
xuddi shunday raqamlar bilan.
• Jetonlar ajratilgan bo‘sh joy belgilar, masalan, bo‘sh joy yoki chiziq oralig‘i
yoki tinish belgilari bilan.
So‘zlararo bo‘shliqlardan foydalanadigan tillarda (masalan, lotin alifbosidan
foydalanadigan ko‘pchilik va dasturlash tillarining aksariyati)
bu yondashuv juda
sodda. Murakkab muammolarni hal qilishning ba‘zi usullari orasida murakkab
evristikani
rivojlantirish, keng tarqalgan maxsus holatlar jadvalini so‘rash yoki
nishonlarni moslashtirish kiradi.
Quyida bu dasturiy ta’minot ishlash tizimi haqida qisqacha tanishib o‘tamiz.
Biz ushbu dasturni ishga tushirganimizda berilgan matnimiz qaysi tilga tegishli
bo‘lsa, shu tilni tanlab olishimiz kerak bo‘ladi(2-rasm). Ya’ni bu tokenizator faqat
o‘zbek tili uchun emas balki rus tili va ingliz tilidagi
matnlarni ham tartiblash
imkoniyatiga ega hisoblanadi.