Muhammad al-xorazmiy nomidagi tatu urganch filiali

III BOB. MATNLARNI TEGLASH UCHUN ALGORITM VA DASTURIY TA’MINOT ISHLAB CHIQISH

bet	13/16
Sana	17.06.2023
Hajmi	254.32 Kb.
	#1542059

1 ... 8 9 10 11 12 13 14 15 16

Bog'liq
Dissertation Rustambek

III BOB. MATNLARNI TEGLASH UCHUN ALGORITM VA DASTURIY TA’MINOT ISHLAB CHIQISH.
III.1.Yaratilgan korpus tarkibi.
NLP nima?
Har qanday til so‘zsiz va ushbu so‘zlarni boshqarish uchun javobgar grammatikasiz to‘liq emas. Odamlar suhbati bir-birlari bilan aloqa qilish uchun so‘zlar va belgilarni talab qilgani kabi, kompyuterlar bilan o‘zaro aloqalar ham xuddi shunday amalga oshiriladi.
Variantlarni bosish orqali kompyuter bilan ishlashning an’anaviy usuli suhbatlar bilan bog‘liq bo‘lgan uzluksiz yondashuv bilan asta-sekin bekor qilinadi. Ushbu zamonaviy aloqa usuli kompyuter bilan tabiiyroq gaplashishni o‘z ichiga oladi, chunki biz boshqa odamlar bilan so‘zlar yordamida gaplashishga moyil bo‘lamiz.
Sun’iy intellektning bir bo‘lagi bo‘lgan Tabiiy tilni qayta ishlash odamlarning kompyuterlar bilan intuitiv ravishda qanday aloqada bo‘lishini aniqlaydi.
Bunday domenning maqsadi odatdagi va oqilona belgilangan ko‘rsatmalar to‘plamidan tashqari, kompyuterlarga qanday qilib odamlarning umumiy og‘zaki tilini tushunishi va tushunishini tushuntirishdir.
AIning bir qismi bo‘lgan NLP asosan Machine Learningga tayanadi va NLP jarayoni quyidagicha davom etadi:

Matn kiritish yoki ovoz kiritish usulidan iborat bo‘lgan inson yozuvlarini yozib olish.
Ovozli ma’lumotlarni matnga aylantirish.
Ma’lumotlarning ma’nosini aniqlash uchun matnni grammatik tahlil qilish texnikasi, semantik va shunga o‘xshash usullardan foydalangan holda qayta ishlash.
Qayta ishlangan mahsulotni ekranda ko‘rsatish yoki uni audio orqali ijro etish orqali odamga yetkazish.

Korpus yaratishda matnlarni HTML, PDF, DOC formatlardan oʻqib olishga toʻgʻri keladi. Chunki internetdagi elektron matnlarning asosiy qismi yuqoridagi formatlarda saqlanadi. Korpus matnlarini ASCII formatda saqlashimiz kerak. Shu sababli, HTML, PDF, DOC formatdagi fayllarni ASCII formatga oʻtkazish kerak, Korpusga qoʻshiladigan matnni tayyorlash bosqichlari quyidagi algoritm boʻyicha amalga oshirildi:

Matnlarni kerakli janrlar boʻyicha teng taqsimlanish qoidasiga asoslangan holda tanlab olish;
Web sahifa yoki PDF, DOC fayllardan matnni oʻqib olish va uni TXT fayl koʻrinishiga UTF-8 kodlash tizimida oʻtkazish.
Matnni keraksiz belgilardan tozalash va oʻ, gʻ, tutuq belgisi muammolari bilan bogʻliq masalalarni yechish.
Tayyor boʻlgan matnni korpus tarkibiga qoʻshishni amalga oshirish. Bu bosqichda matn XML formatga oʻtkaziladi;
Shu algoritm asosida yaratilayotgan oʻzbek tili korpusining strukturasi va undagi soʻzlar hamda gaplar soni quyidagi jadvalda keltirilgan:

№	Janrlar	Maqolalar	Gaplar	Jami soʻzlar	Qatnashgan soʻzlar (Unique words)
1	Texnika va texnologiya	819	9497	124655	25331
2	Iqtisodiyot	899	10009	164558	21985
3	Huquq	900	10890	176429	22480
4	Madaniyat	900	13806	207037	35741
5	Maqolalar va hikoyalar	586	56205	496045	83667
6	Salomatlik	900	15105	184687	31871
7	Shou-biznes	918	23539	232268	43270
8	Siyosat	899	12477	222832	26498
9	Sport	899	9810	136840	22957
10	Boshqa janrlar	34	130966	1942562	159348

Download 254.32 Kb.

Do'stlaringiz bilan baham:

1 ... 8 9 10 11 12 13 14 15 16