Muhammad al-xorazmiy nomidagi tatu urganch filiali
III BOB. MATNLARNI TEGLASH UCHUN ALGORITM VA DASTURIY TA’MINOT ISHLAB CHIQISH
Download 254.32 Kb.
|
Dissertation Rustambek
III BOB. MATNLARNI TEGLASH UCHUN ALGORITM VA DASTURIY TA’MINOT ISHLAB CHIQISH.
III.1.Yaratilgan korpus tarkibi. NLP nima? Har qanday til so‘zsiz va ushbu so‘zlarni boshqarish uchun javobgar grammatikasiz to‘liq emas. Odamlar suhbati bir-birlari bilan aloqa qilish uchun so‘zlar va belgilarni talab qilgani kabi, kompyuterlar bilan o‘zaro aloqalar ham xuddi shunday amalga oshiriladi. Variantlarni bosish orqali kompyuter bilan ishlashning an’anaviy usuli suhbatlar bilan bog‘liq bo‘lgan uzluksiz yondashuv bilan asta-sekin bekor qilinadi. Ushbu zamonaviy aloqa usuli kompyuter bilan tabiiyroq gaplashishni o‘z ichiga oladi, chunki biz boshqa odamlar bilan so‘zlar yordamida gaplashishga moyil bo‘lamiz. Sun’iy intellektning bir bo‘lagi bo‘lgan Tabiiy tilni qayta ishlash odamlarning kompyuterlar bilan intuitiv ravishda qanday aloqada bo‘lishini aniqlaydi. Bunday domenning maqsadi odatdagi va oqilona belgilangan ko‘rsatmalar to‘plamidan tashqari, kompyuterlarga qanday qilib odamlarning umumiy og‘zaki tilini tushunishi va tushunishini tushuntirishdir. AIning bir qismi bo‘lgan NLP asosan Machine Learningga tayanadi va NLP jarayoni quyidagicha davom etadi: Matn kiritish yoki ovoz kiritish usulidan iborat bo‘lgan inson yozuvlarini yozib olish. Ovozli ma’lumotlarni matnga aylantirish. Ma’lumotlarning ma’nosini aniqlash uchun matnni grammatik tahlil qilish texnikasi, semantik va shunga o‘xshash usullardan foydalangan holda qayta ishlash. Qayta ishlangan mahsulotni ekranda ko‘rsatish yoki uni audio orqali ijro etish orqali odamga yetkazish. Korpus yaratishda matnlarni HTML, PDF, DOC formatlardan oʻqib olishga toʻgʻri keladi. Chunki internetdagi elektron matnlarning asosiy qismi yuqoridagi formatlarda saqlanadi. Korpus matnlarini ASCII formatda saqlashimiz kerak. Shu sababli, HTML, PDF, DOC formatdagi fayllarni ASCII formatga oʻtkazish kerak, Korpusga qoʻshiladigan matnni tayyorlash bosqichlari quyidagi algoritm boʻyicha amalga oshirildi: Matnlarni kerakli janrlar boʻyicha teng taqsimlanish qoidasiga asoslangan holda tanlab olish; Web sahifa yoki PDF, DOC fayllardan matnni oʻqib olish va uni TXT fayl koʻrinishiga UTF-8 kodlash tizimida oʻtkazish. Matnni keraksiz belgilardan tozalash va oʻ, gʻ, tutuq belgisi muammolari bilan bogʻliq masalalarni yechish. Tayyor boʻlgan matnni korpus tarkibiga qoʻshishni amalga oshirish. Bu bosqichda matn XML formatga oʻtkaziladi; Shu algoritm asosida yaratilayotgan oʻzbek tili korpusining strukturasi va undagi soʻzlar hamda gaplar soni quyidagi jadvalda keltirilgan:
Download 254.32 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling