22. Qidiruv algoritmlarida indekslash nima?


Download 0.92 Mb.
bet7/28
Sana22.01.2023
Hajmi0.92 Mb.
#1109479
1   2   3   4   5   6   7   8   9   10   ...   28
Bog'liq
22. Qidiruv algoritmlarida indekslash nima?

29. Stemming nima?

  • Grammatik sabablarga ko'ra hujjatlarda bitta so'zning organize, organizes va organizing kabi turli xil shakllari mavjud bo’lishi mukin. Bundan tashqari, democracy, democratic va democratization kabi o'xshash ma'nolarga ega bo'lgan lotin so'zlar oilalari mavjud. Ko'pgina hollarda, ulardan birini ushbu oiladagi boshqa so'zlarni o'z ichiga olgan hujjatlarni topish uchun ishlatish foydalidir.

  • Stemming va leymatizatsiya maqsadi so'z shakllarini va so'zning hosil bo'lgan shakllarini umumiy asosiy shaklga keltirishdir. Keling, bir nechta misollarni ko'rib chiqaylik.



  • Natijada matn quyidagicha o'zgarishi mumkin:



  • Biroq, stemming va lemmatzatsiya bir-biridan farq qiladi. Stemming (stemming) odatda taxminiy evristik jarayon deb ataladi, ko'p hollarda bu o'zini oqlaydi degan umidda, bu jarayonda so’z qo’shimchalari tashlab yuboriladi. Stemming ko‘pincha hosil qilingan affikslarni olib tashlash amalini o‘z ichiga oladi.

  • Amaliy ilovalarda samaradorligini bir necha bor namoyish etgan inglizcha so'zlarni stemmalashning eng keng tarqalgan algoritmi bu Porter algoritmi (Potter, 1980). Butun algoritm juda uzun va murakkab, chunki uni to'liq taqdim etish mumkin emas, ammo biz uning mohiyatini bayon qilamiz. Porter algoritmi ketma-ket bajariladigan so'zlarni qisqartirishning besh bosqichidan iborat. Har bir bosqichda qoidalarni tanlash uchun turli xil konventsiyalar qo'llaniladi, masalan, har bir guruh qoidalaridan eng uzun qo'shimchaga tegishli qoidalarni tanlash. Birinchi bosqichda ushbu konventsiya keyingi qoidalar guruhiga nisbatan qo'llaniladi.



  • K o'pgina zamonaviy qoidalar so'z o'lchovi kontseptsiyasidan foydalanadi (measure of a word), bu so’zlar sonini taxmin qiladi, bu so'z o'ng tomondagi so’zni emas, balki qo'shimchani qo'llash uchun etarlicha uzunligini aniqlaydi. Keling, bir misolni ko'rib chiqaylik.

  • Ushbu qoida replacement so'zini replac so'zi ko’rinishda qo’laydi, ammo coment so’zini c so'zi ko’rinishda bo’lmaydi. Porter algoritmiga bag'ishlangan rasmiy sayt (Porter Stemmer) quyidagi manzilda joylashgan.

  • www.tartarus.org/~martin/PorterStemmer


  • Download 0.92 Mb.

    Do'stlaringiz bilan baham:
  • 1   2   3   4   5   6   7   8   9   10   ...   28




    Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
    ma'muriyatiga murojaat qiling