"kompyuter lingvistikasi: muammolar, yechim, istiqbollar"


Alisher Navoiy nomidagi Toshkent


Download 0.9 Mb.
Pdf ko'rish
bet4/6
Sana02.04.2023
Hajmi0.9 Mb.
#1319526
1   2   3   4   5   6
Bog'liq
rashidov-h.a.-ozbekcha-matnlardagi-leksik-birliklarni-tartiblovchi-tokenizator-yaratish

Alisher Navoiy nomidagi Toshkent 
davlat o‘zbek tili va adabiyoti 
universiteti 
“KOMPYUTER LINGVISTIKASI: 
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Xalqaro ilmiy-amaliy konferensiya  
Vol. 1
№. 01 (2022) 
http://compling.navoiy-uni.uz/
 
273 
Tokenizator odatda matnni qayta ishlashning dastlabki bosqichi bo‘lib, 
keyingi NLP operatsiyalari uchun kirish, masalan, stemming, lemmatizatsiya, matn 
tasnifi va boshqalar uchun kirish qismi bo‘lib xizmat qiladi. 
Quyida ingliz tilidagi matnni kichik bo‘laklarga bo‘lish uchun 
tokenizatsiyadan foydalanilganini ko‘rishimiz mumkin. 
1-rasm. Tokenizatsiya amali 
Yuqoridagi rasmda so‘zlarni 3 xil holatda bo‘laklarga ajratish ko‘rsatib 
o‘tilgan. Ularning hammasi ham to‘g‘ri emas. Demak matnni bo‘laklarga ajratishda 


Alisher Navoiy nomidagi Toshkent 
davlat o‘zbek tili va adabiyoti 
universiteti 
“KOMPYUTER LINGVISTIKASI: 
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Xalqaro ilmiy-amaliy konferensiya  
Vol. 1
№. 01 (2022) 
http://compling.navoiy-uni.uz/
 
274 
tinish belgilarini hammasini ham olib tashlash to‘g‘ri hisoblanavermaydi. Buni 
malum bir qoidalarga asoslani bajariladi. 
Odatda, tokenizatsiya so‘z darajasida sodir bo‘ladi. Biroq, ba’zida "so‘z" 
nimani anglatishini aniqlash qiyin. Ko‘pincha tokenizator oddiy evristikaga 
tayanadi, masalan: 
• Tinish belgilari va bo‘sh joy, natijada olingan belgilar qatoriga kiritilishi yoki 
kiritilmasligi mumkin. 
• Alifbo belgilarining barcha tutashgan satrlari bitta belgining bir qismidir; 
xuddi shunday raqamlar bilan. 
• Jetonlar ajratilgan bo‘sh joy belgilar, masalan, bo‘sh joy yoki chiziq oralig‘i 
yoki tinish belgilari bilan. 
So‘zlararo bo‘shliqlardan foydalanadigan tillarda (masalan, lotin alifbosidan 
foydalanadigan ko‘pchilik va dasturlash tillarining aksariyati) bu yondashuv juda 
sodda. Murakkab muammolarni hal qilishning ba‘zi usullari orasida murakkab 
evristikani rivojlantirish, keng tarqalgan maxsus holatlar jadvalini so‘rash yoki 
nishonlarni moslashtirish kiradi.
Quyida bu dasturiy ta’minot ishlash tizimi haqida qisqacha tanishib o‘tamiz. 
Biz ushbu dasturni ishga tushirganimizda berilgan matnimiz qaysi tilga tegishli 
bo‘lsa, shu tilni tanlab olishimiz kerak bo‘ladi(2-rasm). Ya’ni bu tokenizator faqat 
o‘zbek tili uchun emas balki rus tili va ingliz tilidagi matnlarni ham tartiblash 
imkoniyatiga ega hisoblanadi.



Download 0.9 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling