Query Expansion


Download 244.99 Kb.
Sana14.12.2022
Hajmi244.99 Kb.
#1004134
Bog'liq
McGettrick.en.uz.pptx


So'rovni kengaytirish
Muallif: Shon McGettrick
Translated from English to Uzbek - www.onlinedoctranslator.com
So'rovni kengaytirish nima?
  • So'rovni kengaytirish - qidiruv tizimi foydalanuvchining vaznli qidiruviga qidiruv so'zlarini qo'shganda berilgan atama.
  • Maqsad aniqlik va/yoki eslab qolishni yaxshilashdir.
  • Misol: Foydalanuvchi so'rovi: "avtomobil"; Kengaytirilgan so'rov: "avtomobil avtomobillari avtomobil avtomobillari avto" va boshqalar ...

So'rovlarni kengaytirish sinflari

So'rovni kengaytirish bilan bog'liq muammolar
  • Ikki asosiy masala
    • Qaysi shartlarni kiritish kerak?
    • Qaysi shartlar ko'proq vaznga ega?
  • Kontseptsiyaga asoslangan va muddatga asoslangan so'rovlarni kengaytirish
    • So'rovdagi individual shartlar yoki so'rovning umumiy tushunchasi asosida kengaytirish yaxshiroqmi?

So'rovlarni kengaytirishning dolzarbligi
  • Internetda so'rovlarni kengaytirish juda muhim.
  • Internetdagi ma'lumotlar miqdori doimo ortib bormoqda.
    • 1999 yilda Google 135 million sahifaga ega edi. Hozir u 3 milliarddan ortiq.
  • Qidiruv tizimi foydalanuvchilari o'zlarining qidiruvlari bilan muayyan tendentsiyalarni kuzatadilar.
    • 2-3 so'z
    • Keng qidiruv so'zi
    • Qidiruv shartlarini aniqlashtirish yoki mantiqiy operatorlardan foydalanish orqali ularning so'rovlarini kengaytirishni yoqtirmang

Tezauri
  • IR dunyosida tezauri nima?
    • "So'zlar o'rtasidagi semantik bog'liqlikni aniqlaydigan har qanday ma'lumotlar tuzilmasi.
      • Schutze va Pedersen (1997)
    • Ko'pincha oddiy tezauriyaga qaraganda murakkabroq.
      • Foydali bo'lish uchun juda keng deb o'ylangan.

Tezauri tiliga ehtiyoj
  • Tabiiyki, tezauridan so'zlarni tortib olish kuchayadi deb taxmin qilingan:
    • Qabul qilingan hujjatlar soni.
    • Ehtimol, aniqlik.
  • Avtomobil misoli: “avtomobil” va “avtomobil, avto, avtomobil, transport vositasi, sedan va boshqalar…”
    • Qaysi biri eng ko'p hujjatlarni oladi?
    • Kattaroq yaxshiroqmi?

Inson va avtomatik ravishda yaratilgan tezauri
  • Dastlabki ishlar 1950-yillarda boshlangan.
    • HP Luhn
    • Thesaurofacet- muhandislik atamalarining batafsil ro'yxati
  • Tibbiyot, aerokosmik va boshqa texnologik sohalarda keng qo'llaniladi.

Qo'lda ishlangan tezaurining kamchiliklari
  • Narxi
    • Rivojlanish.
    • Xizmat.
    • Xarajat ko'pincha foydadan ustun turadi.
  • Vaqt
    • Tezauri rivojlanishi uchun ko'pincha uzoq vaqt kerak bo'ladi.
    • Ilmiy va texnologik rivojlanish sur'atlariga rioya qilish qiyin.

Avtomatik ravishda yaratilgan tezauri
  • Ehtiyoj qo'lda ishlangan tezaurilarning cheklanishidan ortdi.
  • Endi tezauri yaratish uchun mutaxassislarning xarajati yo'q.

Avtomatik ravishda yaratilgan tezauri
  • 3 qadam.
    • Qo‘shma so‘zlarni ajratib oling.
    • So'zlarning o'xshashligini aniqlang.
      • So‘zning qo‘shma kelishi yoki leksik munosabatiga asoslanadi.
    • O‘xshashliklariga qarab so‘zlarni to‘plang.
  • Juda muvaffaqiyatli isbotlanmagan.
    • 1990-yillarning oxiriga kelib, ko'plab sanoat korxonalari hali ham qo'lda ishlangan tezaurilardan foydalanar edi.

Tegishli aloqa
  • 1960-yillarda boshlangan.
  • Dastlabki so'rovlarni kengaytirish ishlariga nisbatan eslab qolish va aniqlikda sezilarli yaxshilanish.
  • Asosiy jarayon quyidagicha.
    • Foydalanuvchi dastlabki natijalar to'plamini qaytaradigan dastlabki so'rovini yaratadi.
    • Keyin foydalanuvchi o'z qidiruviga tegishli bo'lgan hujjatlar ro'yxatini tanlaydi.
    • Keyin tizim hujjatlardagi shartlar asosida so'rovni qayta tortadi va/yoki kengaytiradi.

Tegishli aloqa modellari
  • Ko'p turli xil modellar.
  • Ularning orqasida turgan usullar va nazariyalarga bog'liq.
    • Vektor maydoni.
    • Ehtimoliy.
    • Mantiqiy.

"Ide dec-hi” usuli
  • Bu usulda eng yuqori reytingga ega bo'lgan tegishli bo'lmagan barcha hujjatlardan foydalaniladi.
  • Tegishli bo'lmagan hujjat vektor maydonida fikr-mulohaza so'rovi olib tashlanadigan nuqtadan foydalaniladi.
  • Kengaytirilmagan so'rovlarga nisbatan 160% gacha yaxshilanish.

Interaktiv so'rovni kengaytirish
  • Tezaurusdan foydalanadi.
  • Dastlabki so'rov yuborilgandan so'ng, tizim natijalar to'plamidan va tezaurusdan olingan bog'langan va tegishli so'zlar ro'yxatini qaytaradi.
  • Foydali, ammo ko'proq tadqiqot talab etiladi.

Pseudo-relevance Teskari aloqa
  • Tegishli aloqa tizimlarini joriy qilish bilan bog'liq muammolardan kelib chiqdi.
  • Foydalanuvchilar tizimga qo'lda fikr bildirishni yoqtirmaydilar.

Pseudo-relevance Teskari aloqa jarayoni
  • Tizim dastlabki hujjatlar to'plamini qaytaradi.
  • Tizim eng yuqori deb hisoblaydinso'rovga tegishli hujjatlar soni.
  • So'rovni qayta tortish uchun tizim ushbu hujjatlardan shartlarni oladi.
  • Tegishli hujjatlarni dastlab olish uchun asosan tizim qobiliyatiga tayanadi.

ahahaha
Avtomatik so'rovni kengaytirish
  • Kompyuter tomonidan yaratilgan tezauri yordamida so'rovlarni avtomatik kengaytirish jarayoni.
  • Pseudo-relevance teskari aloqa kabi ishlaydi.
  • Amalga oshirish unchalik foydali emas, lekin hali ham keng o'rganilgan.

Muddatning birgalikdagi chora-tadbirlari
  • Hujjatlarda ularning birgalikda kelishiga asoslangan so'zlar o'rtasidagi munosabatlarni rivojlantirish jarayoni.
  • Klasterlash
    • Muhim miqdordagi atamalarni birlashtiradigan hujjatlar birlashtirilgan.
    • Keyin ushbu toifalardagi atamalardan tezaurus hosil bo'ladi.
    • Kategoriyalar ba'zan juda tor yoki keng.
    • Sinonimlarni hisobga olmaydi.

Leksik qo‘shilish chora-tadbirlari
  • Hujjatdagi atamalarning chastotasiga emas, balki hujjatdagi so‘zlarning yaqinligiga qaraladi.
  • So'zlarning konteksti muhim bo'ladi.
  • Kichik hujjatlar to'plamlarida ko'rsatilgan ba'zi ishlash yaxshilanishi.
  • Muvofiqlik haqidagi fikr-mulohaza kabi unchalik yaxshi emas, lekin soxta aloqador fikr-mulohazaga qaraganda yaxshiroq.

So'rovni kengaytirishning hozirgi holati
  • So'rovlarni kengaytirish texnologiyasi biroz yuqori darajaga yetdi.
  • Bu tegishli fikr-mulohazalar va so'zlarning birgalikda paydo bo'lishining cheklovchi omillari bilan bog'liq.
  • Joriy tadqiqot sohadagi oldingi tadqiqotlarni yaxshilashga harakat qilmoqda.

Bu yerdan qayerga borish kerak?
  • Grammatikaga asoslangan tezauriy
    • So‘zlar orasidagi sintaktik munosabat
    • Sinflarga joylashtirilgan so'zlar
    • Kichik hujjatlar to'plamida biroz yaxshilanish. Kattaroqlarida bajarilmadi.
  • AI qidiruvi
    • Ko'pincha nazariya
    • Intellektual agentlar
    • Foydalanuvchining o'ziga xos ehtiyojlarini aks ettiruvchi moslashtirilgan bo'lishi mumkin
    • IQ da keyingi mantiqiy qadam, lekin hali ham tijorat maqsadlarida foydalanishdan uzoqda

Iqtibos qilingan asarlar
  • Attardi, G., S. Di Marko va F. Sebastiani. 1998. Interaktiv so'rovlarni kengaytirish uchun toifaga xos tezauriylarni avtomatlashtirilgan yaratish.
  • Grefenstette, G. 1992. Matnni qidirish uchun atamalar assotsiatsiyasi ro'yxatini yaratish uchun sintaktik kontekstdan foydalanish. InAxborot qidirishda tadqiqot va ishlanmalar bo'yicha 15-yillik ACM-SIGIR xalqaro konferentsiyasi materiallari, Kopengagen, Daniya, ed. N. Belkin, P. Ingwersen va AM Pesjtersen: 89-97-betlar. Nyu-York: ACM Press.
  • Ide, E. 1971. Tegishli aloqada yangi tajribalar. G. Saltonda.SMART qidiruv tizimi: hujjatlarni avtomatik qayta ishlash bo'yicha tajribalar. Englewood Cliffs, NJ: Prentice-Xall.
  • Qiu, Y., 1993. Kontseptsiyaga asoslangan so'rovlarni kengaytirish. InSIGIR-93, 16-sonli ishlarthACM xalqaro konferensiyasi axborot izlashda tadqiqot va ishlanmalar.
  • Schutze, H. va J. Pederson. 1997. Muloqotga asoslangan tezaurus va ma'lumot olish uchun ikkita dastur.Axborotni qayta ishlash va boshqarish33, yo'q. 3: 307-318-betlar.
  • Walker, D. 2001. Tezauri yordamida so'rovlarni kengaytirish.

Download 244.99 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling