Muhammad al-xorazmiy nomidagi tatu urganch filiali


Download 254.32 Kb.
bet15/16
Sana17.06.2023
Hajmi254.32 Kb.
#1542059
1   ...   8   9   10   11   12   13   14   15   16
Bog'liq
Dissertation Rustambek

UzbekCorporaAnalysis.py







  • def file_writer(raw,path)

raw matnni analysis_article metodi yordamida tahlil qiladi va path da berilgan txt fayl adresiga olingan tahlil natijalarini yozadi.

  • def ganre_file_writer(general_raw,path,ganre,article_count)

har bir categoriya uchun umumiy tahlil natijalarini yozish uchun mo‘ljallangan

  • Categoriyalar(darakchi(),badiiy(),qonun(),diniy(),darslik(),tibbiyot(),qishloq(),sanat())

Har bir categoriya shu nomdagi katalogda joylashgan xml fayllarni sikl yordamida raw o‘zgaruvchisiga o‘qib oladi, raw satrini file_writer() metodiga yuboradi va raw satrini genelal_raw o‘zgaruvchisiga qo‘shib qo‘yadi. Sikl yakunlangach general_raw da yig‘ilgan joriy categoriyaning jami matnlar jamlanmasini ganre_file_writer() metodiga jo‘natadi. Ya’ni categoriya uchun ham Categoriyadagi har bir xml fayl uchun ham tahlil o‘tkaziladi.

  • def all()

Corporadagi barcha categoriyalardagi xml fayllarni raw o‘zgaruvchisiga o‘qib oladi va raw o‘zgaruvchisini file_writer() metodiga jo‘natadi.


Umumiy struktura

III bob bo‘yicha xulosa


Ushbu bobda matnlarni qayta ishlash algoritmi va korpus tarkibini tshkil qilishni koʻririb chiqigan. Yaratilayotgan oʻzbek tili korpusining strukturasi va undagi soʻzlar hamda gaplar sonini tog‘risidagi ma’lumotlar aniqlangan.


So‘zlar sumkasi modelini oʻrganib chiqildi. Korpusni tahlil qilish va yaratish uchun Python tilida dasturiy ta’minot yaratildi. Bu dasturiy ta’minot quyidagi ishlarni bajaradi:

  • web sahifadan materiallarni o‘qib olish va XML fayllarga yozish uchun ishlatiladi;

  • berilgan matnni statistik tahlil qilish (gaplar, so‘zlar , takrorlanmaydigan so‘zlar soni, so‘zlar chastotasi) uchun;

Local corpora (XML fayllar)dan ma`lumotlarni o‘qib olish hamda ServiceUzbekWords.py dan olingan natijalarni TXT fayllarga yozish uchun foydalaniladi.

XULOSA
Mazkur magistrlik dissertatsiyasi O‘zbek tilining Milliy korpusi dasturiy ta’minotini yaratishga bag‘ishlangan bo‘lib, u kirish, uchta bob va foydalanilgan adabiyotlar ro‘yxatidan iborat.
Birinchi bobning birinchi paragrafida korpus tilshunosligi haqida ma’lumotlarni tahlil qilish va oʻrganish masalasi qoʻyilgan va shu maqsadda hozirgcha yaratilgan boshqa tillarning korpuslari o‘rganib chiqilgan, zamonaviy korpuslarning turlari va avlodlari haqidagi ma’lumotlar ham oʻrganib chiqilgan. Oʻrganilgan materiallar asoaida oʻzbek tili uchun korpus yaratish metodi shakllantirilgan va shu asosda oʻzbek tili uchun korpus yaratsih masalasi qoʻyilgan.
Ikkinchi bob uchta paragrafdan iborat bo‘lib, tabiiy tillar jarayonini qayta ishlash vositalarini o‘rganib chiqilgan. Masalan SpaCy, Stenford CoreNLP, NLTK kutubxonalari shular jumlasidandir. XML tili tilshunoslikka doir ma’lumotlarni saqlash va uzatish uchun qulay vosita hisoblanadi. Korpuslarni yaratsihda XML ma’lumotlardan foydalanaish koʻririb chiqilgan. Oʻzbek tili korpusi tuzilishini XML formati yaratilgan.
Korpusga matnlarni yigʻishni tashkil qilish uchun korpus strukturasi ishlab chiqildi.
Uchinchi bob uchta paragrafdan iborat bo‘lib, ushbu bobda matnlarni qayta ishlash algoritmi va korpus tarkibini tashkil qilish koʻririb chiqilgan. Yaratilayotgan oʻzbek tili korpusining strukturasi va undagi soʻzlar hamda gaplar soni to‘g‘risidagi ma’lumotlar aniqlangan.
So‘zlar sumkasi modelini oʻrganib chiqilgan. Korpusni tahlil qilish va yaratish uchun Python dasturlash tilida dasturiy ta’minot yaratilgan. Bu dasturiy ta’minot quyidagi ishlarni bajaradi:

  • web sahifadan materiallarni o‘qib olish va XML fayllarga yozish uchun ishlatiladi;

  • berilgan matnni statistik tahlil qilish (gaplar, so‘zlar , takrorlanmaydigan so‘zlar soni, so‘zlar chastotasi) uchun;

Local corpora (XML fayllar)dan ma‘lumotlarni o‘qib olish hamda ServiceUzbekWords.py dan olingan natijalarni TXT fayllarga yozish uchun foydalanilgan.
Korpusni yaratish uchun turli xil janrlarga tegishli matnlarni yigʻish maqsadida darakchi.uz sayti materiallaridan foydalanaish uchun ruxsat olingan va shu asosda korpus matnlari yigʻilgan.


Download 254.32 Kb.

Do'stlaringiz bilan baham:
1   ...   8   9   10   11   12   13   14   15   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling