Тақдимот ҳужжатлари (Microsoft office Power Point) билан ишлаш


Download 468.06 Kb.
bet3/4
Sana13.01.2023
Hajmi468.06 Kb.
#1090920
1   2   3   4
Bog'liq
ma\'ruza№11

Stemming - morfologik qidiruv. Bu har bir so'zni normal shaklga aylantirishdan iborat. Normal shakl so'zning tuslanishi, ko'plik shakli, nutq xususiyatlari va boshqalarni o'z ichiga olmaydi. Masalan, “uylar" va “uylarni" so'zlarining normal shakli “uy" so’zi hisoblanadi. Morfologik tahlil qilish algoritmlari til xususiyatlarini hisobga oladi va tilga bog'liq algoritmlardir;

Ma'noga ega bo'lmagan so'zlarini olib tashlash

N-grammalar morfologik tahlil qilish va stop-so'zlarni olib tashlash uchun muqobildir. n-gramma qatorning N ta belgidan iborat qismidir. Masalan, “sana” so‘zi 4 ta gramma “_sa”, “san”, “ana”, “na_” yoki 3 ta gramma “_san”, “_ana”, “na_” bilan ifodalanishi mumkin. Tag chiziq oldingi yoki keyingi so'z bo'shlig'ining o'rnini bosadi. Stemming yoki stopword olib tashlash bilan solishtirganda, N-grammalar grammatik va tipografik xatolarga nisbatan kamroq sezgir. Bundan tashqari, N-grammalar so'zlarning lingvistik ifodasini talab qilmaydi, bu esa ushbu texnikani tilga bog’liq emas. Biroq, N-grammalar matnni mustaqil ma’noga ega bo'lmagan so'zlar sonini kamaytirish muammosini hal qilmaydi;

Harf registrini o'zgartirish. Bu usul barcha belgilarni katta yoki kichik harflarga aylantiradi. Masalan, barcha "matn", "Matn", "MATN" so'zlari kichik "matn" ga aylantiriladi.

Text Mining masalalari

Hozirgi vaqtda adabiyotlarda matnli hujjatlarni tahlil qilish yordamida hal qilinishi mumkin bo'lgan ko'plab amaliy muammolar tasvirlangan. Bular klassik Data Mining masalalari: tasniflash, klasterlash va faqat matnli hujjatlarga xos bo'lgan masalalar: avtomatik izohlash, asosiy tushunchalarni ajratib olish va boshqalar.

Tasniflash - bu Data Mining sohasidagi standart masaladir. Uning maqsadi har bir hujjatni bir yoki bir nechta oldindan belgilangan toifalarga tegishli ekanlgini aniqlashdir. Tasniflash muammosining o'ziga xos xususiyati shundagi tasniflanadigan hujjatlar to'plamida "axlat" mavjud emas va hujjatlarning har biri ma'lum bir toifaga mos keladi degan taxminga asoslanadi.


Download 468.06 Kb.

Do'stlaringiz bilan baham:
1   2   3   4




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling