Muhammad al-xorazmiy nomidagi tatu urganch filiali


III BOB. MATNLARNI TEGLASH UCHUN ALGORITM VA DASTURIY TA’MINOT ISHLAB CHIQISH


Download 254.32 Kb.
bet13/16
Sana17.06.2023
Hajmi254.32 Kb.
#1542059
1   ...   8   9   10   11   12   13   14   15   16
Bog'liq
Dissertation Rustambek

III BOB. MATNLARNI TEGLASH UCHUN ALGORITM VA DASTURIY TA’MINOT ISHLAB CHIQISH.
III.1.Yaratilgan korpus tarkibi.
NLP nima?
Har qanday til so‘zsiz va ushbu so‘zlarni boshqarish uchun javobgar grammatikasiz to‘liq emas. Odamlar suhbati bir-birlari bilan aloqa qilish uchun so‘zlar va belgilarni talab qilgani kabi, kompyuterlar bilan o‘zaro aloqalar ham xuddi shunday amalga oshiriladi.
Variantlarni bosish orqali kompyuter bilan ishlashning an’anaviy usuli suhbatlar bilan bog‘liq bo‘lgan uzluksiz yondashuv bilan asta-sekin bekor qilinadi. Ushbu zamonaviy aloqa usuli kompyuter bilan tabiiyroq gaplashishni o‘z ichiga oladi, chunki biz boshqa odamlar bilan so‘zlar yordamida gaplashishga moyil bo‘lamiz.
Sun’iy intellektning bir bo‘lagi bo‘lgan Tabiiy tilni qayta ishlash odamlarning kompyuterlar bilan intuitiv ravishda qanday aloqada bo‘lishini aniqlaydi.
Bunday domenning maqsadi odatdagi va oqilona belgilangan ko‘rsatmalar to‘plamidan tashqari, kompyuterlarga qanday qilib odamlarning umumiy og‘zaki tilini tushunishi va tushunishini tushuntirishdir.
AIning bir qismi bo‘lgan NLP asosan Machine Learningga tayanadi va NLP jarayoni quyidagicha davom etadi:

  • Matn kiritish yoki ovoz kiritish usulidan iborat bo‘lgan inson yozuvlarini yozib olish.

  • Ovozli ma’lumotlarni matnga aylantirish.

  • Ma’lumotlarning ma’nosini aniqlash uchun matnni grammatik tahlil qilish texnikasi, semantik va shunga o‘xshash usullardan foydalangan holda qayta ishlash.

  • Qayta ishlangan mahsulotni ekranda ko‘rsatish yoki uni audio orqali ijro etish orqali odamga yetkazish.

Korpus yaratishda matnlarni HTML, PDF, DOC formatlardan oʻqib olishga toʻgʻri keladi. Chunki internetdagi elektron matnlarning asosiy qismi yuqoridagi formatlarda saqlanadi. Korpus matnlarini ASCII formatda saqlashimiz kerak. Shu sababli, HTML, PDF, DOC formatdagi fayllarni ASCII formatga oʻtkazish kerak, Korpusga qoʻshiladigan matnni tayyorlash bosqichlari quyidagi algoritm boʻyicha amalga oshirildi:


Matnlarni kerakli janrlar boʻyicha teng taqsimlanish qoidasiga asoslangan holda tanlab olish;
Web sahifa yoki PDF, DOC fayllardan matnni oʻqib olish va uni TXT fayl koʻrinishiga UTF-8 kodlash tizimida oʻtkazish.
Matnni keraksiz belgilardan tozalash va oʻ, gʻ, tutuq belgisi muammolari bilan bogʻliq masalalarni yechish.
Tayyor boʻlgan matnni korpus tarkibiga qoʻshishni amalga oshirish. Bu bosqichda matn XML formatga oʻtkaziladi;
Shu algoritm asosida yaratilayotgan oʻzbek tili korpusining strukturasi va undagi soʻzlar hamda gaplar soni quyidagi jadvalda keltirilgan:



Janrlar

Maqolalar

Gaplar

Jami soʻzlar

Qatnashgan soʻzlar (Unique words)

1

Texnika va texnologiya

819

9497

124655

25331

2

Iqtisodiyot

899

10009

164558

21985

3

Huquq

900

10890

176429

22480

4

Madaniyat

900

13806

207037

35741

5

Maqolalar va hikoyalar

586

56205

496045

83667

6

Salomatlik

900

15105

184687

31871

7

Shou-biznes

918

23539

232268

43270

8

Siyosat

899

12477

222832

26498

9

Sport

899

9810

136840

22957

10

Boshqa janrlar

34

130966

1942562

159348



Download 254.32 Kb.

Do'stlaringiz bilan baham:
1   ...   8   9   10   11   12   13   14   15   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling