22. Qidiruv algoritmlarida indekslash nima?


Download 0.92 Mb.
bet8/28
Sana22.01.2023
Hajmi0.92 Mb.
#1109479
1   ...   4   5   6   7   8   9   10   11   ...   28
Bog'liq
22. Qidiruv algoritmlarida indekslash nima?

30. Lemmatizatsiya nima?

  • Lemmatzatsiya (lemmatization) bu- so'zlarning leksikasi va morfologik tahlili yordamida aniq jarayon bo'lib, u faqat fleksion oxirlarni olib tashlaydi va lemma deb ataladigan so'zning asosiy yoki lug'at shaklini qaytaradi. Masalan, stemming paytida saw leksemasi s harfiga aylanishi mumkin, lemmatizatsiya esa leksemaning fe'l yoki ot bo'lishiga qarab see so'zini yoki saw so'zini qaytaradi. Muhim farq shundaki, odatda "birlashtiruvchi"lardan kelib chiqqan holda bir xil ildizdan olingan so'zlar, lemmatizatsiya esa faqat bitta Leymaning fleksion shakllarini "birlashtiradi". Stemming va lemmatizatsiya ko'pincha indeksatsiya jarayonida o'rnatilgan qo'shimcha dasturiy ta'minot komponentlari bilan amalga oshiriladi. Hozirda bunday ham tijorat, ham bepul tarqatiluvchi dasturlar juda ko'p.

  • Stemming algoritmi o'rniga lemmatizator (lemmatizer)dan foydalanishingiz mumkin, bu tabiiy tilni qayta ishlash sohasidagi vosita (natural language processing) har bir so'z lemmasini aniq aniqlash uchun to'liq morfologik tahlilni amalga oshiradi. To'liq morfologik tahlil ma'lumot olishda juda kam imkoniyatlarni keltirib chiqaradi. Biron bir aniqroq narsa aytish qiyin, chunki normallashtirish shakllarining hech biri ingliz tilida ma'lumot olishning umumiy samaradorligini oshirmaydi, hech bo'lmaganda uni sezilarli darajada oshirishga qodir emas. Lemmatizatsiya ba'zi so'rovlar uchun juda foydali bo'lishi mumkin, boshqa so'rovlar uchun bu ish faoliyatini sezilarli darajada pasaytiradi. Stemming to'liqlikni oshiradi, ammo qidiruv aniqligini pasaytiradi. Ushbu algoritmlarning kamchiliklarini namoyish etish uchun Porter algoritmi barcha so'zlarni qisqartirganiga e'tibor bering

  • operate operating operates operation operative operatives operational 

  • oper so'ziga. Operate so’zi barcha shakllarida keng tarqalgan fe'l bo'lgani uchun, Porter algoritmi yordamida quyidagi so'rovlarning aniqligi ancha kamayadi.

  • 31. Matnlar leksemag (bo’laklarga) qanday aylantiriladi?

  • Belgilar ketma-ketligini aniqlab, hujjatning tarkibiy birliklarini ajratib ko'rsatgandan so'ng, matn bo’laklarga bo'linadi. Bundan tashqari, ba'zida tinish belgilari kabi ba'zi belgilar undan bir vaqtning o'zida olib tashlanadi. Keling, bir misolni ko'rib chiqaylik.



  • Ushbu bo’laklar ba'zida noto'g'ri ravishda atamalar yoki so'zlar deb ataladi, lekin ba'zida leksem (bo’lak) sinfi va leksema(bo’lak) nusxasi (type/token) aniq ajratilishi kerak. Leksema (bo’lak) (token) - bu ishlov berish uchun semantik birlikka birlashtirilgan ma'lum bir hujjatdagi belgilar ketma-ketligining nusxasi. Turi (type) - bir xil belgilar ketma-ketligidan tashkil topgan barcha leksema(bo’lak)lar sinfi. Termin (term) bu axborot qidirish tizimining so'z birikmalariga kiritilgan (ehtimol normallashtirilgan) turidir. Ko'pgina indeks atamalari leksem(bo’lak)lardan butunlay farq qilishi mumkin, masalan, ierarxiyadagi semantik identifikatorlar bo'lishi mumkin, ammo amalda zamonaviy axborot qidirish tizimlarida ular hujjatdagi belgilar bilan bevosita bog'liqdir. Biroq, atamalar hujjatdagi kabi aniq belgilar emas. Ular odatda turli xil normallashtirish jarayonlariga bo'ysunadi Masalan, agar indekslangan hujjat to sleep perchance to dream iborasi bo'lsa, unda beshta belgi bor, lekin faqat to'rtta tur (chunki bu ibora to qismini ikki marta o'z ichiga oladi). Ammo, agar to qismichasi indeksga kiritilmagan bo'lsa (masalan, to'xtov so'zi kabi;), unda faqat uchta atama qoladi: sleep, perchance va dream. Matnni belgiga ajratish bilan bog'liq asosiy savol: "Matnni leksemalarga qanday qilib to'g'ri ajratish kerak?" Bizning misolimizda javob aniq: matnni bo'shliqlar bilan ajratish va tinish belgilarini tashlash kifoya. Bu boshlang'ich nuqta, ammo ingliz tilida ham juda ko'p murakkabliklar mavjud. Masalan, egalik va qisqartirishlarni hosil qilish uchun ishlatiladigan apostrofning turli shakllari bilan nima qilish kerak.



  • Eng oddiy strategiya harfsiz belgilar bilan bo'linishga to'g'ri keladi


    Download 0.92 Mb.

    Do'stlaringiz bilan baham:
  • 1   ...   4   5   6   7   8   9   10   11   ...   28




    Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
    ma'muriyatiga murojaat qiling