Muhammad al-xorazmiy nomidagi tatu urganch filiali


import os, os.path mypath=os.path.expanduser('~/nltk_data'


Download 254.32 Kb.
bet12/16
Sana17.06.2023
Hajmi254.32 Kb.
#1542059
1   ...   8   9   10   11   12   13   14   15   16
Bog'liq
Dissertation Rustambek

import os, os.path
mypath=os.path.expanduser('~/nltk_data')
print(mypath);
if not os.path.exists(mypath):
os.mkdir(mypath)
print('folder has been created')
else:
print('folder alredy exist')

import nltk.data
varbool = mypath in nltk.data.path
print(varbool)
newfile=nltk.data.load('corpora/tom.txt')
from nltk.tokenize import sent_tokenize, word_tokenize
sent_arr=sent_tokenize(newfile)
arr_word=word_tokenize(newfile)

def find1(sen,f):
for i in len(sen):
return sen[i:i+len(f)]==f

q=input("Matn kiriting:")


for k in range(len(sent_arr)):
print(sent_arr[k])
if find1(sent_arr[k],q):
print(sent_arr[k])

O‘zbek tilining axborot-kommunikatsiya texnalogiyalari, xususan Internet jahon axborot tarmog‘ida munosib o‘rin egallashini ta’minlash, o‘zbek tilining kompyuter dasturlarini, yaratish maqsadida O‘zbek tili korpusi talab qilinadi. Shuning uchun biz ushbu ishda o‘zbek tili korpusini yartish uchun zarur bo`lgan masalalrni ko‘rib chiqamiz. O‘zbek tili turkiy tillar guruhiga mansub bo‘lgan aglutinativ til hisoblanadi. Bu til O`zbekistonning rasmiy davlat tili va butun dunyo bo‘ylab 35 milliondan ortiq odam muloqat qiladi. Biz O‘zbek tili korpusini yaratish maqsadida ko‘plab korpuslarni ko‘rib chiqdik. Brown Universitetining korpusi 1964 yilda Frensis va Kuersa tomonidan birinchi yaratilgan korpus hisoblanadi (1979), korpus tilshunosligi rivojlangan sohaga aylandi. So'nggi yilllar davomida butun dunyo bo'ylab tadqiqotchilar ko‘plab korpuslarni, shu jumladan 1991-1994 yillarda ishlab chiqilgan va 100 milliondan ortiq yozma va og‘zaki tillarning so‘zlarini o‘z ichiga olgan taniqli Britaniya milliy korpusi (Burnard, 2007) ni yaratdilar. Barcha materiallar uchta mustaqil mezon (o‘rtachalik, qamrab olish sohasi, va vaqt) asosida tanlanilgan, BNC, Lancaster Universitetida ishlab chiqilgan va so‘z turkumlari bo‘yicha teglash uchun CLAWS4 (Constituent Likelihood Automatic Wordtagging System) (Leech va boshq., 1994) tizimidan foydalangan holda ishlab chiqilgan korpus hisoblanadi. BNC odatda muvozanatli korpus sifatida qabul qilinadi va ko‘plab tadqiqotchilar, masalan, turk milliy korpusi (Aksan va boshq., 2012), koreys milliy korpusi (Kim, 2006) va boshqa korpus yaratuvchilari, uni o‘zlarining korpusilari uchun namuna sifatida qabul qilishdi. Rossiya milliy korpusi (RNC) Rossiya Fanlar Akademiyasi rus tili instituti boshchiligidagi turli tashkilotlarning mutaxassislari guruhi tomonidan ishlab chiqildi(Ruscorpora, 2003). Korpus XVIII asr o‘rtalaridan XXI asrning boshlariga qadar bo‘lgan davrni qamrab olagan. U yozma matnlarni (badiiy adabiyotlar, xotiralar, ilmiy, diniy adabiyotlar va boshqalarni) va yozib olingan og‘zaki ma’lumotlarni (jamoat nutqlari va shaxsiy suhbatlar) o‘z ichiga oladi. Hozirgi vaqtda Rossiya milliy korpusi (RNC) 350 milliondan ortiq so‘z shakllarini o‘z ichiga oladi, ular avtomatik ravishda so‘z turkumlari bo‘yicha (POS) teglanadi va lemmatizatsiya qilinadi. Korpus tarkibiga shuningdek so‘zlar va matnlar uchun semantik teglar kiradi (Apresjan va boshq., 2006). RNC o‘zining asosiy qismi bilan bir qatorda quyidagilarni o‘z ichiga oladi: Chuqur izohlangan(teglangan) korpus, tarkibida to‘liq morfologik va sintaksis tuzilishi teglarga(belgilariga) ega jumlalar mavjud, bu yerda sintaksis tuzilishi asosan Aleksandr Zolkovskiy va Igor Melchuk tomonidan kiritilgan ma’no-matn nazariyasiga asoslanadi. Ingliz - rus, nemis - rus, ukrain - rus, belorus - rus parallel korpuslari; Dialekt korpusi; She’riyat korpusi va boshqalar.
Afsuski, hozirgi kunga qadar O‘zbek tili korpusni rivojlantirish bo‘yicha juda ko‘p ishlar qilinmagan va korpus tuzilmagan. O‘zbek tilini ifodalashga qodir bo‘lgan mavjud korpusning yo‘qligi ko‘plab tadqiqot ishlarini susaytiradi. Bizning fikrimizcha, ochiq o‘zbek korpusini qurish katta ta’sirga ega bo‘ladi va bu o‘zbek tilini tahlil qilish va o‘rganishda juda foydali vosita bo‘ladi.
Biz yaratayotgan o‘zbek tili korpusining strukturasi quyidagi rasmda keltirilgan:

O‘zbek tili korpusining tuzilishi.


Bu erda S – korpusni tashkil qilivchi papkalar to‘plami bo‘lib u S1 dan S15 tagacha kataloglardan tashil topgan.


S₁- Texnika va texnologiya to‘g‘risidagi matnlardan tashkil topgan. Bu katalog ham dan tagacha bo‘lgan kataloglardan tashkil topgan.
S₂- Iqtisodiyot to‘g‘risidagi matnlardan tashkil topgan. Bu katalog dan tagacha bo‘lgan kataloglardan tashkil topgan.
S₃- Huquq to‘g‘risidagi matnlardan tashkil topgan. Bu katalog ham dan tagacha bo‘lgan kataloglardan tashkil topgan.
S₄- Madaniyat to‘g‘risidagi matnlardan tashkil topgan. Bu katalog ham dan tagacha bo‘lgan kataloglardan tashkil topgan.
S₅- Maqolalar va hikoyalar matnlaridan tashkil topgan. Bu katalog ham dan tagacha bo‘lgan kataloglardan tashkil topgan.
S- Salomatlik matnlaridan tashkil topgan. Bu katalog ham dan tagacha bo‘lgan kataloglardan tashkil topgan.
S- Shou-biznes matnlardan tashkil topgan. Bu katalog ham dan tagacha bo‘lgan kataloglardan tashkil topgan.
S- Siyosat doir xujjatlar matnlardan tashkil topgan. Bu katalog ham dan tagacha bo‘lgan kataloglardan tashkil topgan.
S- Sport matnlardan tashkil topgan. Bu katalog ham dan tagacha bo‘lgan kataloglardan tashkil topgan.
S₁₀- Boshqa janrlar matnlaridan tashkil topgan. Bu katalog ham dan tagacha bo‘lgan kataloglardan tashkil topgan.

II bob bo‘yicha xulosa

Ushbu bobda biz tabiiy tillar jarayonini qayta ishlash vositalarini o‘rganib chiqik. Masalan SpaCy, Stenford CoreNLP, NLTK kutubxonalari shular jumlasidandir. XML tili tilshunoslikka doir ma’lumotlarni saqlash va uzatish uchun qulay vosita hisoblanadi. Korpuslarni yaratsihda XML ma’lumotlardan foydalanaish koʻririb chiqilgan. Oʻzbek tili korpusi tuzilishini XML formati yaratildi
Korpusga matnlarni yigʻishni tashkil qilish uchun korpus strukturasi ishlab chiqildi.


Download 254.32 Kb.

Do'stlaringiz bilan baham:
1   ...   8   9   10   11   12   13   14   15   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling