Muhammad al-xorazmiy nomidagi tatu urganch filiali


Download 254.32 Kb.
bet10/16
Sana17.06.2023
Hajmi254.32 Kb.
#1542059
1   ...   6   7   8   9   10   11   12   13   ...   16
Bog'liq
Dissertation Rustambek

CoreNLP


Stenford CoreNLP - Dastlab Javada yozilgan hozirda Python, JavaScript va boshqa ko‘plab boshqa tillar bilan ishlaydi.


Bu kutubxona "Lemmatizatsiya", "Nutqning bir qismi va morfologik tagging", "Nomlangan shaxsni tanib olish", "Tokenization" va "Sentence Split" kabi amallarni bajaradi.
Agar bizga muntazam ravishda yangilanib turadigan va yuqori sifatli tahlillarni taklif qiladigan turli xil grammatik tahlil vositalari bilan zamonaviy va mustahkam NLP asboblar to‘plami kerak bo‘lsa CoreNLP mukammal tanlovdir.
CoreNLP-ning moslashuvchan tabiati uni boshqa tillar bilan yaxshi birlashtirishga imkon beradi.
Gensim - Pythonda yozilgan mavzuni modellashtirish, o‘xshashlikni qidirish va tabiiy tillarni qayta ishlash uchun kutubxonadir.
2009 yilda Radim Chexek tomonidan ishlab chiqilgan Gensim ikkita masalad ustun bo‘lishni maqsad qilgan, biri tabiiy tilni qayta ishlash, ikkinchisi ma’lumot olish. U ma’lum toifadagi ma’lumotlarning katta to‘plamlarida ishlaydi va ular haqida juda aniq tushuncha beradi.
Textblob - bu matnli ma’lumotlarni qayta ishlashga mo‘ljallangan yana bir ochiq manbali Python kutubxonasi va API orali boshqa dasturlash tillari bilan uzviy integratsiyani taklif etadi. Bu kutubxona NLP masalalari uchun bir qator funktsiyalarni taqdim etadi:
Nutqning bir qismini belgilash
● Tuyg‘ularni tahlil qilish
● Tasniflash
● Tokenizatsiya
n-gramm
● So‘zlarni aks ettirish
● WordNet integratsiyasi
● Google Translate yordamida ishlaydigan til tarjimasi va aniqlash
● So‘z va iboralar chastotalari
● Tahlil qilish
● Imlolarni tuzatish


II.2-§. Matnlar bazasini tuzilmasini loyihalash (XML)
XML tili tilshunoslikka doir ma’lumotlarni saqlash va uzatish uchun qulay vosita hisoblanadi. Jumladan, XML teglarining foydalanuvchi tomonidan yaratilishi, yangi ma’lumotlar qoʻshilganda alohida element sifatida qoʻshib ketilishi, qidiruv jarayonlarining tez ishlashi bilan boshqa ma’lumotlar tuzilmalaridan ajralib turadi. Shuning uchun oʻzbek tili korpusini va korpus haqidagi maʻlumotlarni saqlash uchun XML tilidan foydalanildi. Mazkur korpusni yaratish uchun Python dasturlash tili ishlatilgan, Python dasturlash tilining ElementTree moduli yordamida XML formatda saqlangan ma’lumotlarni qayta ishlash mumkin. Python dasturlash tilining NLTK (Natural Language Toolkit) kutubxonasida ham XML tilini ishlatish imkoniyati mavjud, bu esa tabiiy tillarni qayta ishlash masalalarini yechish uchun qulay hisoblanadi, shularni hisobga olgan holda XML tilidan foydalanib korpusda saqlanadigan matnlarni tasvirlash uchun quyidagi koʻrinishdagi metama’lumot teglari yaratildi:
Korpus haqidagi ma’lumotlar
- Hujjat haqida ma’lumotlar
- Hujjatning mualliflari
- Hujjat olingan manba
- Hujjat yozilgan sana
- Hujjatning qaysi janrga tegishli ekanligi
- Hujjat matnini saqlovchi teg
Bu yerda NAME=' ' atributida korpus nomi, TYPE=' ' atributida matnning turi(hikoya, she’r, qissa va h.), atributida matnning uslubi hamda TITLE=' ' atributida har bir hujjatning sarlavhasi saqlanadi.
Lingvistik tuzilmalar uchun XML dan foydalanish: Moslashuvchanligi va kengayishi tufayli XML lingvistik tuzilmalarni ifodalash uchun tabiiy tanlovdir. Bu erda oddiy leksik yozuvga misol keltirilgan.




http://darakchi.uz/oz/115586
15.03.2021, 12:12
Sport
Barchamizga ma`lumki so`ngi yillarda barcha sohada bo`lgani kabi sport sohasida ham bir qator o`zgarishlar va ezgu ishlar amalga oshirilmoqda.


Pythonning ElementTree moduli XML fayllarda saqlangan ma’lumotlarga kirish uchun qulay usulni taqdim etadi. ElementTree Python standart kutubxonasining bir qismidir (Python 2.5 dan boshlab ishlatiladi) va Python 2.4 dan foydalansak ham NLTK ning bir qismi sifatida taqdim etiladi.
Biz ElementTree-dan foydalanishni XML yordamida formatlangan korpusimiz fayllari to‘plamidan foydalanib tasvirlaymiz. XML faylini yuklaymiz va dastlabki ma’lumotlarni tekshiramiz.
Biz XML ma’lumotlariga satr sifatida murojaat qildik. Ko‘rib turganimizdek, fayl korpus nomi, matn nomeri, stili, muallif, matn yaratilgan sana, va boshqalar uchun XML teglarini o‘z ichiga oladi.



Download 254.32 Kb.

Do'stlaringiz bilan baham:
1   ...   6   7   8   9   10   11   12   13   ...   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling