Muhammad al-xorazmiy nomidagi tatu urganch filiali


Download 254.32 Kb.
bet3/16
Sana17.06.2023
Hajmi254.32 Kb.
#1542059
1   2   3   4   5   6   7   8   9   ...   16
Bog'liq
Dissertation Rustambek

Tadqiqotning obyekti. O‘zbek tilidagi so‘zlari. O‘zbek tili lug‘atlari.
Tadqiqotning predmeti. Python dasturlash tilining NLP uchun kutubxonalri. XML tili.
Tadqiqotning usullari. Stemming algoritmini yaratish usullari, Tabiiy tillarni qayta ishlash usullari.
Tadqiqotning natijalarining ilmiy jihatdan yangilik darajasi. O‘zbek tili uchun qoidaga asoslangan Stemming algoritmini va das
Korpus yaratsih usullarini o‘zbek tili uchun qo‘llash, o‘zbek tili matnlarnini sinflarga ajratib chiqish, korpusdagi so‘zlarni qatnashishlari bo‘yicha lug‘at yaratsih.
Tadqiqotning natijalarining amaliy ahamiyati va tatbiqi. Yaratilgan algoritm va dasturlar korpusga yangi matnlarni qo‘shish imkoniyatini yratadi. Yaratilgan korpusdan juda ko‘p turli yo‘nalishdagi tilshunos tadqiqotchilar foydalanadilar.
Ish tuzilishi va tarkibi. Dissertatsiya ishi kirish, uchta bob, xulosa hamda adabiyotlar ro‘yxatidan iborat. Har bir bob bo‘limlardan tuzilgan.
Bajarilgan ishning asosiy natijalari. 10 ta kategoriyadan va 3 887 913 so‘zdan hamda 292304 gapdan iborat o‘zbek tili korpusi yaratildi. Korpusga qo‘shiladigan matnlarni qayta ishlovchi algoritm va dastur yaratildi.
Xulosa va takliflarning qisqacha umumlashtirilgan ifodasi. Ushbu magistrlik dissertatsiya ishida “O‘zbek tilining milliy korpusi” dasturiy ta’minotini yaratish bayon qilingan. O‘zbek tili korpusi uchun tuzilma yaratilgan, matnlarni korpusga qo‘shish uchun algortim va dsatur yaratilgan.
I BOB. TEGLANGAN KORPUS YARATISH USULLARINI O‘RGANISH.


I.1-§. Korpus lingvistikasi haqida

Korpus tilshunosligi haqida gapirishdan oldin, lingvistik korpus tushunchasini aniqlash kerak. Ingliz tilida “linguistic corpus” yoki “text corpus”, ko‘plikda “linguistic corpora” (corpuses kamroq ishlatiladi) bo‘lib ishlatiladi.


Bu yerda biz korpusning bir nechta ta’riflarini keltiramiz:
● Korpus-muayyan tarzda tashkil etilgan matnlar to‘plami, uning elementlari matnlar yoki matnlardan maxsus tanlangan qismlar;
● Korpus, tahlil qilish uchun mavjud bo‘lgan yozma so‘zlar yoki yozma matnlar shaklidagi ma’lum bir tildan olingan lingvistik ma’lumotlar to’plamidir;
● Korpus - har qanday tilda, og‘zaki yoki yozma ravishda elektron shaklda saqlanadigan va kompyuterlashtirilgan qidiruvni tashkil etishga imkon beruvchi tabiiy matnlar to‘plamidir;
● Korpus - tilni yoki tilning o‘zgarishini to‘liq ifodalash uchun tashqi mezonlarga muvofiq tanlangan elektron shaklda matn qismlari to‘plamidir. U lingvistik tadqiqotlar uchun ma’lumot bazasi sifatida ishlatiladi. (John Sinclair)
Korpuslar quyidagicha bo‘lishi mumkin:
● Muayyan yozuvchi yoki yozuvchilarning asarlaridan olingan matnlar;
● Biror bir davrni o‘z ichiga olgan matnlar( o‘n yil yoki asr uchun) ;
● Muayyan mavzudagi zamonaviy matnlar;
● Til yoki jamiyatni yetarlicha ifodalovchi zamonaviy matnlar to‘plami.
Ta’riflardan birida korpus og‘zaki va yozma bo‘lishi mumkinligi haqida aytilgan. Umuman olganda, lingvistik korpuslar og‘zaki yoki yozma bo‘lshi mumkin.
Korpus - bu siz biron bir narsa qilishingiz mumkin bo‘lgan matnlar to‘plami ekanligi aniq. Ammo korpus nima qilishi mumkin? Javob hayratlanarli bo‘lib tuyulishi mumkin: korpus o‘zi hech narsa qila olmaydi. Biz korpusda biror narsani qidirish va ba’zi izlanishlarni bajarish uchun maxsus dasturlardan foydalanishimiz mumkin. Korpusdan foydalanib NLP usullari bilan turli xil modellar qurish va tahlillar o‘tkazish mumkin. Biz korpusdan lingvistik ahamiyatga ega bo‘lgan so‘zlar va iboralarni qidirishimiz mumkin. Bundan tashqari, qidirishda teglardan foydalanishimiz mumkin.
Korpusdan ma’lumot qidirgada nimalarni natija sifadida olishimiz mumkin:
● Tanlangan so‘zning bevosita matnda ishlatilishi;
● So‘z boyligidan foydalanishning xilma-xilligi;
● Tanlangan so‘zning yonida ko‘pincha uchraydigan so‘zlar;
● Ikkita matn orasidagi eng muhim farqlar;
● Ma’lum bir yozuvchi tomonidan so‘zlar va iboralarning qanday ishlatishi;
● So‘z birikmalaridan foydalanishning yashirin model;
● Tillarni taqqoslash.
Matnlarni tarjima qilishda bir nechta tarjima ekvivalenti bo‘lgan so‘zlarning kontekstlarini izlash, shuningdek, parallel korpuslardagi terminologik va frazeologik iboralarning ekvivalentlarini tanlash imkoniyatlari eng dolzarb masala hisoblanadi[4].
Korpusning eng muhim xususiyati bu uning hajmidir, ya’ni lingvistik muammoli vaziyatlarni yechish uchun undagi so‘zlarning soni yetarlicha ko‘p bo‘lishi lozim. Korpusning oddiy matnlar to‘plamidan ajralib turadigan xususiyati bu undagi matlar bazasi ko‘pligidadir. So‘nggi paytlarda korpus tadqiqotlariga bo‘lgan qiziqishning ortishining sababi juda katta miqdordagi matnlarni qayta ishlashga imkon bergan kompyuterlarning paydo bo‘lishidir
Korpus tilshunosligi fan sifatida 70-yillarning oxirlarida paydo bo‘lgan, ammo uning asosidagi usullar 13-asrdan beri ma’lum bo‘lgan. Shunday qilib, korpuslarning rivojlanishida matnni tanlash hajmi va printsiplariga qarab, bir necha davrlarga ajratiladi [5, 6] Elektron korpuslar davrigacha boʻlgan davr 13-asrda boshlangan va 1960-yillarning boshlarida tugadi.



Download 254.32 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling