Ma'lumotni qazib olish. Tanlangan hujjatlardan maʼlumot olish keyinchalik tahlil qilinadigan asosiy tushunchalarni ajratib koʼrsatishni oʼz ichiga oladi. Text Mining usullarini qoʼllash. Ushbu bosqichda matnlardagi mavjud boʼlgan shablonlar va munosabatlar olinadi. Natijalarni talqin qilish. Bilimlarni kashf qilish jarayonining oxirgi bosqichi natijalarni talqin qilishni o'z ichiga oladi. Qoidaga ko'ra, talqin qilish natijalarni tabiiy tilda taqdim etishdan yoki ularni grafik shaklda vizualizatsiya qilishdan iborat. Matn tahlilining asosiy muammolaridan biri hujjatdagi so‘zlarning ko‘pligidir. Agar ushbu so'zlarning har biri tahlil qilinsa, yangi bilimlarni qidirish vaqti keskin oshadi va foydalanuvchilarning talablariga deyarli javob bermaydi. Shu bilan birga, matndagi barcha so'zlar foydali ma'lumotni o'z ichiga olmaydi. Bundan tashqari, tabiiy tillarning moslashuvchanligi tufayli, rasmiy ravishda turli xil so'zlar (sinonimlar va boshqalar) aslida bir xil tushunchalarni anglatadi. Shunday qilib, ma’noga ega bo'lmagan so'zlarni olib tashlash, shuningdek, ma'nosi bir shaklga o'xshash so'zlarni qisqartirish matnni tahlil qilish vaqtini sezilarli darajada qisqartiradi. Ta'riflangan muammolarni bartaraf etish matnni oldindan qayta ishlash bosqichida amalga oshiriladi. Odatda, ma'noga ega bo'lmagan so'zlarni olib tashlash va matnlarning tahlil qilish uchun quyidagi usullar qo'llaniladi: ma'noga ega bo'lmagan so'zlarini olib tashlash, Stemming. Ma'noga ega bo'lmagan so'zlarini olib tashlash Mustaqil ma'noga ega bo'lmagan so’zlarni olib tashlash. Ma'noga ega bo'lmagan so’zlar- yordamchi so’zlar bo'lib, hujjat mazmuni haqida juda kam ma'lumot beruvchi so'zlar. Odatda, bunday so'zlarning ro'yxati oldindan tuziladi va dastlabki ishlov berish jarayonida ular matndan olib tashlanadi. Bunday so`zlarga misol sifatida ko`makchi, bog’lovchi, yuklamalarni keltirish mumkin, masalan: «va», «bilan», «uchun», «xuddi» va hokazo;
Do'stlaringiz bilan baham: |