22. Qidiruv algoritmlarida indekslash nima?
Download 0.92 Mb.
|
22. Qidiruv algoritmlarida indekslash nima?
- Bu sahifa navigatsiya:
- 34. Indeksator nima
30. Lemmatizatsiya nima?
Lemmatzatsiya (lemmatization) bu- so'zlarning leksikasi va morfologik tahlili yordamida aniq jarayon bo'lib, u faqat fleksion oxirlarni olib tashlaydi va lemma deb ataladigan so'zning asosiy yoki lug'at shaklini qaytaradi. Masalan, stemming paytida saw leksemasi s harfiga aylanishi mumkin, lemmatizatsiya esa leksemaning fe'l yoki ot bo'lishiga qarab see so'zini yoki saw so'zini qaytaradi. Muhim farq shundaki, odatda "birlashtiruvchi"lardan kelib chiqqan holda bir xil ildizdan olingan so'zlar, lemmatizatsiya esa faqat bitta Leymaning fleksion shakllarini "birlashtiradi". Stemming va lemmatizatsiya ko'pincha indeksatsiya jarayonida o'rnatilgan qo'shimcha dasturiy ta'minot komponentlari bilan amalga oshiriladi. Hozirda bunday ham tijorat, ham bepul tarqatiluvchi dasturlar juda ko'p. Stemming algoritmi o'rniga lemmatizator (lemmatizer)dan foydalanishingiz mumkin, bu tabiiy tilni qayta ishlash sohasidagi vosita (natural language processing) har bir so'z lemmasini aniq aniqlash uchun to'liq morfologik tahlilni amalga oshiradi. To'liq morfologik tahlil ma'lumot olishda juda kam imkoniyatlarni keltirib chiqaradi. Biron bir aniqroq narsa aytish qiyin, chunki normallashtirish shakllarining hech biri ingliz tilida ma'lumot olishning umumiy samaradorligini oshirmaydi, hech bo'lmaganda uni sezilarli darajada oshirishga qodir emas. Lemmatizatsiya ba'zi so'rovlar uchun juda foydali bo'lishi mumkin, boshqa so'rovlar uchun bu ish faoliyatini sezilarli darajada pasaytiradi. Stemming to'liqlikni oshiradi, ammo qidiruv aniqligini pasaytiradi. Ushbu algoritmlarning kamchiliklarini namoyish etish uchun Porter algoritmi barcha so'zlarni qisqartirganiga e'tibor bering operate operating operates operation operative operatives operational oper so'ziga. Operate so’zi barcha shakllarida keng tarqalgan fe'l bo'lgani uchun, Porter algoritmi yordamida quyidagi so'rovlarning aniqligi ancha kamayadi. 34. Indeksator nima? Tartibli indeksni yaratish o’ta mushkul va mashaqqatli ish hisoblanadi. Bu jarayonni odatda terminlar ro’yхatini yaratish yoki indeksni tuzish (index construction) yoki indekslash (indexing) deb yuritiladi [3]. Bu jarayonni amalga oshiruvchi modul yoki dasturlar indeksator (indexer) deb yuritiladi [3]. Indeksator algoritmlarini yaratish va foydalnish apparat ta’minot vositalarining imkoniyatlari bilan ham bog’liqdir. Korporativ tormoqlarda samarali indeksator insterumental vositasi va amaliy dasturlar ( MS Outlook, MS Excel, ma’lumotlar bazasi, SQL Server, Oracle, Kontentni boshqarish tizimlari, Oren Text, ... ) bilan tez va oson bog’lanish kerak. Indeksator (robot indeksatori) - bu o'rgimchaklar yuklab olgan sahifalarni tahlil qiladigan dastur. Indeksator sahifani to'liq tahlil qiladi tarkibiy elementlar va ularni algoritmlarning morfologik va leksik turlaridan foydalanib tahlil qiladi. Tahlil sahifaning turli qismlarida, masalan sarlavhalar, matn, havolalar, uslub va tuzilish xususiyatlari, html teglari va hk. Shunday qilib, indekslash moduli ma'lum miqdordagi manbalar havolalariga amal qilish, sahifalarni yuklab olish, olingan hujjatlarning yangi sahifalariga ulanish massasini ajratish va ularni batafsil tahlil qilish imkonini beradi. Download 0.92 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling