Mavzu: tizimda axborotni izlash va ajratib olish


Download 89.5 Kb.
bet9/18
Sana05.01.2022
Hajmi89.5 Kb.
#231304
1   ...   5   6   7   8   9   10   11   12   ...   18
Bog'liq
1-mavzu axborotni izlash va ajratib olish

Kalit so'zlarni ro'yxati

  • To'g'ri kalit so'zlar to'plami ma'lumotni maqbul izlash uchun hal qiluvchi ahamiyatga ega. Masalan, qidiruv tizimini "MARP" kalit so'zi sifatida belgilab, biz ushbu qisqartirish paydo bo'lgan hujjatlar ro'yxatini olamiz (Moskva Tadbirkorlikni rivojlantirish bo'yicha agentlik). Ammo, agar biz kengroq mavzudagi hujjatlar bilan qiziqsak, masalan: tadbirkorlikni rivojlantirish va biz ushbu ikki so'zdan sodda so'rovni hosil qilsak, unda qidiruv tizimi bizga yuz minglab elementlarning ro'yxatini beradi, ularni boshqarish juda qiyin bo'ladi.

  • Shu sababli, kalit so'zlarning maqbul to'plamini tuzish uchun Zipf qonunlarini qo'llashga asoslangan protsedura qo'llaniladi, u quyidagilardan iborat: ular istalgan mavzuga yaqin bo'lgan har qanday manbali matnni olishadi, ya'ni. "namuna" va muhim so'zlarni ta'kidlab, tahlil qiling. Manba matni kitob, maqola, veb-sahifa yoki boshqa hujjat bo'lishi mumkin. Matn tahlili quyidagicha amalga oshiriladi:

  • Matndan to'xtatish so'zlarini olib tashlash.

  • Har bir so'zning paydo bo'lish chastotasini hisoblash va ularning chastotasini pasayish tartibida so'zlar joylashtirilgan ro'yxatni tuzish.

  • Ro'yxat o'rtasida joylashgan chastota diapazonini tanlash va matnning ma'nosiga to'liq mos keladigan ushbu so'zlar oralig'ini tanlash.

  • OR (OR) mantiqiy operatori bilan bog'liq ravishda shu tarzda tanlangan kalit so'zlarning ro'yxati shaklida qidiruv tizimiga so'rov yuborish. Ushbu shakldagi so'rov ro'yxatdagi so'zlarning kamida bittasi bo'lgan matnlarni aniqlashga imkon beradi.

  • Ushbu so'rovni qidirish natijasida olingan hujjatlar soni juda katta bo'lishi mumkin. Shu bilan birga, ko'pgina qidiruv tizimlarida ishlatiladigan hujjatlarning tartiblanishi (ularning so'rov so'zlarining paydo bo'lish chastotasining pasayishi tartibida tartiblanishi) tufayli, ro'yxatning birinchi sahifalarida deyarli barcha hujjatlar tegishli bo'lib, boshlang'ich hujjat boshidan uzoq bo'lishi mumkin.

  • Semantik tillar deb nomlangan tezaurusning tuzilishi yanada adekvat ko'rinadi, bunda har bir asosiy atama uchun tegishli so'zlar va shovqinli so'zlar jadvali alohida tuzilgan (manbada topilmasligi kerak) - ba'zi qidiruv tizimlari (AltaVista) bunga imkon beradi. Shunday qilib, atamalarning yagona ierarxik tuzilishi o'rniga biz alohida ravishda kengaytirilishi va o'zgartirilishi mumkin bo'lgan jadvallar to'plamini olamiz.


  • Download 89.5 Kb.

    Do'stlaringiz bilan baham:
  • 1   ...   5   6   7   8   9   10   11   12   ...   18




    Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
    ma'muriyatiga murojaat qiling