"kompyuter lingvistikasi: muammolar, yechim, istiqbollar"


Alisher Navoiy nomidagi Toshkent


Download 0.9 Mb.
Pdf ko'rish
bet3/6
Sana02.04.2023
Hajmi0.9 Mb.
#1319526
1   2   3   4   5   6
Bog'liq
rashidov-h.a.-ozbekcha-matnlardagi-leksik-birliklarni-tartiblovchi-tokenizator-yaratish

Alisher Navoiy nomidagi Toshkent 
davlat o‘zbek tili va adabiyoti 
universiteti 
“KOMPYUTER LINGVISTIKASI: 
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Xalqaro ilmiy-amaliy konferensiya  
Vol. 1
№. 01 (2022) 
http://compling.navoiy-uni.uz/
 
272 
Token - bu asosiy matndan ajratilgan ma’lum bir satr yoki boshqacha qilib 
aytganda, u tokenizatsiya natijasi hisoblanadi. Tokenlar so‘zlar, raqamlar yoki tinish 
belgilari bo‘lishi mumkin. Tokenizatsiyada soʻz chegaralarini aniqlash orqali 
kichikroq birliklar yaratiladi. So‘z chegaralari nima? Bular so‘zning tugash nuqtasi 
va keyingi so‘zning boshlanishi. Ushbu tokenlar stemming va lemmatizatsiya uchun 
birinchi qadam sifatida ko‘rib chiqiladi. 
Tokenizatsiya nima? Tokenizatsiya yoki so‘z segmentatsiyasi - bu jumlalar 
yoki so‘zlarni korpusdan kichik birliklarga, ya’ni tokenlarga bo‘lishning oddiy 
jarayoni. Biz jumlani so‘zlarga bo‘lish uchun word_tokenize() kalit so‘zidan
foydalanamiz . Dastur matnni yaxshiroq tushunish uchun so‘z tokenizatsiyasi 
natijasi Data Framega aylantirib olinadi. Bundan tashqari, u tinish belgilarini olib 
tashlash, raqamli belgilarni o‘chirish yoki satrlarni ajratish kabi amallarni bajaradi. 
So‘z tokenizatsiyasiga quyidagicha misol keltirishimiz mumkin: 
Dastlabki ma’lumot: Inson qilgan amallari orqali o‘zidan yaxshi yoki nom 
qoldiradi 
Natija (tokenga ajratilgan holati): | Inson | qilgan | amallari | orqali| o‘zidan | | 
yaxshi | yoki | yomon | nom | qoldiradi | 
Bu yerda asosiy gap so‘zlar orasidagi bo‘shliqlar asosida belgilanadi. 
Shuningdek, bir xil so‘zdagi belgilarni ajratishimiz mumkin (masalan, olmadan 
olma) yoki bir xil matndan jumlalarni ajratishimiz mumkin. Tokenizatsiya tilni qayta 
ishlashning asosiy va hal qiluvchi bosqichlaridan biridir. U tuzilmagan matn 
materialini ma’lumotlarga aylantiradi. Bu keyinchalik turli xil mashina tarjimasi 
modellarini ishlab chiqishda, qidiruv tizimini optimallashtirishda yoki turli xil 
so‘rovlarda foydalanish mumkin. 



Download 0.9 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling