"kompyuter lingvistikasi: muammolar, yechim, istiqbollar"
Alisher Navoiy nomidagi Toshkent
Download 0.9 Mb. Pdf ko'rish
|
rashidov-h.a.-ozbekcha-matnlardagi-leksik-birliklarni-tartiblovchi-tokenizator-yaratish
Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti universiteti “KOMPYUTER LINGVISTIKASI: MUAMMOLAR, YECHIM, ISTIQBOLLAR” Xalqaro ilmiy-amaliy konferensiya Vol. 1 №. 01 (2022) http://compling.navoiy-uni.uz/ 272 Token - bu asosiy matndan ajratilgan ma’lum bir satr yoki boshqacha qilib aytganda, u tokenizatsiya natijasi hisoblanadi. Tokenlar so‘zlar, raqamlar yoki tinish belgilari bo‘lishi mumkin. Tokenizatsiyada soʻz chegaralarini aniqlash orqali kichikroq birliklar yaratiladi. So‘z chegaralari nima? Bular so‘zning tugash nuqtasi va keyingi so‘zning boshlanishi. Ushbu tokenlar stemming va lemmatizatsiya uchun birinchi qadam sifatida ko‘rib chiqiladi. Tokenizatsiya nima? Tokenizatsiya yoki so‘z segmentatsiyasi - bu jumlalar yoki so‘zlarni korpusdan kichik birliklarga, ya’ni tokenlarga bo‘lishning oddiy jarayoni. Biz jumlani so‘zlarga bo‘lish uchun word_tokenize() kalit so‘zidan foydalanamiz . Dastur matnni yaxshiroq tushunish uchun so‘z tokenizatsiyasi natijasi Data Framega aylantirib olinadi. Bundan tashqari, u tinish belgilarini olib tashlash, raqamli belgilarni o‘chirish yoki satrlarni ajratish kabi amallarni bajaradi. So‘z tokenizatsiyasiga quyidagicha misol keltirishimiz mumkin: Dastlabki ma’lumot: Inson qilgan amallari orqali o‘zidan yaxshi yoki nom qoldiradi Natija (tokenga ajratilgan holati): | Inson | qilgan | amallari | orqali| o‘zidan | | yaxshi | yoki | yomon | nom | qoldiradi | Bu yerda asosiy gap so‘zlar orasidagi bo‘shliqlar asosida belgilanadi. Shuningdek, bir xil so‘zdagi belgilarni ajratishimiz mumkin (masalan, olmadan olma) yoki bir xil matndan jumlalarni ajratishimiz mumkin. Tokenizatsiya tilni qayta ishlashning asosiy va hal qiluvchi bosqichlaridan biridir. U tuzilmagan matn materialini ma’lumotlarga aylantiradi. Bu keyinchalik turli xil mashina tarjimasi modellarini ishlab chiqishda, qidiruv tizimini optimallashtirishda yoki turli xil so‘rovlarda foydalanish mumkin. |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling