22. Qidiruv algoritmlarida indekslash nima?


Izlash tizimida lingvistik metodlarning vazifalari


Download 0.92 Mb.
bet28/28
Sana22.01.2023
Hajmi0.92 Mb.
#1109479
1   ...   20   21   22   23   24   25   26   27   28
Bog'liq
22. Qidiruv algoritmlarida indekslash nima?

66. Izlash tizimida lingvistik metodlarning vazifalari
Matnning ma'nosini tahlil qiladigan qidiruv modellari mavjud, masalan, latent-semantik indeksatsiya modeli (yashirin ma'noni ochib berish). Ushbu algebraik model so'zlarni hujjatlar bilan bog'laydigan to'rtburchaklar matritsaning singular qiymat dekompozitsiyasiga asoslangan. Matritsaning elementi so'z va hujjat o'rtasidagi bog'liqlik darajasini aks ettiruvchi chastotali xarakteristikadir, masalan TF*IDF.
Lingvistik deb tasniflangan algoritmlar sinfi mavjud. Statistik va lingvistik usullar o'rtasida aniq chegarani chizish qiyin. An'anaviy ravishda lingvistik metodlarga inson tomonidan yaratilgan lug'atlarga (morfologik, sintaktik, semantik) asoslangan usullar kiradi. Ko'pgina matnlarni qayta ishlash algoritmlari kamida minimal darajada lingvistik ishlov berishni talab qiladi.
Lingvistik metodlar yordamida quyidagi vazifalar hal etiladi:
• hujjat tilini avtomatik ravishda aniqlash;
• tokenizatsiya (grafik tahlil): so'zlarni ajratib ko'rsatish, jumla chegaralari;
• ma'lumotga ega bo'lmagan so'zlarni chiqarib tashlash (to'xtash so'zlari);
• lemmatizatsiya (normallashtirish, stemming): fleksion shakllarni "lug'at" ga qisqartirish. Shu jumladan, tizim lug'atiga kiritilmagan so'zlar uchun;
• ba'zi tillar uchun murakkab so'zlarni (birikmalarni) ajratish (masalan, nemis tili);
• nominal guruhlarni taqsimlash.
Tadqiqotda va amalda kamroq bo'lsa ham, so'z yaratish, sintaktik va hatto semantik tahlil algoritmlarini topish mumkin. Shu bilan birga, semantik tahlil ko'pincha biron bir statistik algoritm (LSI, asab tarmoqlari) degan ma'noni anglatadi va agar tushuntirish-kombinatorial yoki semantik lug'atlar ishlatilsa, u holda juda tor predmet sohalarida.


67. Axborotni qidirish ko'p o'lchovli usuli va ahamiyati
Tahlil ma'lumot olishning zaruriy qismidir, chunki bu qidiruvni tugatish yoki davom ettirish to'g'risida qaror qabul qilish uchun asosdir. Axborotni qidirishning maxsus muammolari mavjud bo'lib, ularning echimi izlash jarayonini kengaytirishga imkon beradi.
Axborotni qidirish ko'p o'lchovli taqdimotga ega bo'lishi mumkin va massiv tarkibini oddiy ko'rish va tahlil qilish bilan cheklanmaydi. Masalan, auditorlik (shu jumladan, axborot auditi) bu ma'lumotni qidirishning bir turi bo'lib, uning davomida me'yoriy hujjatlarga muvofiqligi va mos kelmasligi uchun axborot izlash amalga oshiriladi. Qidiruv texnologiyasi ikkita to'plamni taqqoslashni o'z ichiga oladi. Ushbu me'yoriy hujjatlarga mos kelishi kerak bo'lgan me'yoriy hujjatlar to'plami va ma'lum bir texnologiya yoki amaliy harakatlar majmuini amalga oshirishni tavsiflovchi ma'lumotlar to'plami.
Axborot olishda modellashtirishning murakkabligi shundaki, sifat jihatidan har xil sub'ektlarni: jarayonlar, ob'ektlar va vaziyatlarni modellashtirish zarur. Axborotni qidirishda axborotni modellashtirish jarayoni ikki tomonlama xususiyatga ega. Bir tomondan, qidiruv natijasini optimallashtirish uchun naqshlarni tavsiflovchi modellar sifatida modellashtirish kerak. Boshqa tomondan, qidiruv jarayonini optimallashtirish uchun qidirish jarayonlarini simulyatsiya qilish kerak. Bu protsessual modellarni yaratish zarurligiga olib keladi. Shunday qilib, axborot olishda modellashtirish tavsiflovchi va tavsiflovchi modellardan foydalanishni talab qiladi. Sifatli va miqdoriy xususiyatlariga ko'ra turli xil modellar ularni tizimlashtirish vazifasini qo'yadi. Zamonaviy modellar va axborot tuzilmalarini barpo etishning asosini axborot birliklari tashkil etadi. Bunda axborot qidirish sohasida maxsus qidiruv axborot birliklari ishlatiladi.
Download 0.92 Mb.

Do'stlaringiz bilan baham:
1   ...   20   21   22   23   24   25   26   27   28




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling