1-mavzu: axborotni izlash va ajratib olish faniga kirish texnika fanlari nomzodi, dotsent boynazarov ilhom Maxmudovich


Download 255.71 Kb.
Sana19.05.2020
Hajmi255.71 Kb.

1-MAVZU: AXBOROTNI IZLASH VA AJRATIB OLISH FANIGA KIRISH

Texnika fanlari nomzodi, dotsent BOYNAZAROV Ilhom Maxmudovich

Ma’ruza rejasi

  • 1. Axborotni izlash (qidirish) tushunchasi
    • 1.1. Axborotni qidirish jarayoni sifatida
    • 1.2. Qidiruv usullari
    • 1.3. So’rov va so’rov ob’ekti
    • 1.4. Axborotni qidirish masalalari
    • 1.5. Samaradorlikni baholash
  • 2. Axborotni ajratib olish
    • 2.1. Axborotlarni ajratib olishning maxsus masalalari
  • Foydalanilgan manbalar
  • Axborotni izlash (angl. information retrieval) — axborotni qidirish jarayoni bo’lib, axborotga bo’lgan ehtiyojni qondirish uchun strukturalashmagan hujjatlardan zarur ma’lumotlarni izlash haqidagi fan sifatida rivojlanib kelmoqda.
  • Axborot izlash – bu ma’lum bir hujjatlar (matnli) to’plamidan oldindan belgilangan shartli mavzu (so’rov) yoki zarur (axborotga bo’lgan ehtiyojni qondirishga tegishli) ma’lumotlarni, faktlarni, xabarlarni izlash – aniqlash jarayoni.
  • Qidiruv jarayoni ma’lumotlarni to’plash, ularga ishlov berish va taqdim etishga qaratilgan operatsiyalar ketma-ketligini o’z ichiga oladi.
  • Umumiy holda axborotni qidirish to’rtta etap (bosqich)dan tashkil topgan:
    • - axborotga bo’lgan ehtiyojni aniqlash va axborot so’rovini shakllantrish;
    • - mumkin bo’lgan axborotlar massivining egasini (manbasini) aniqlash;
    • - aniqlangan axborot massividan ma’lumotlarni ajratib olish;
    • - olingan axborot bilan tanishish va qidiruv natijasini baholash.

Izlash (qidiruv) shakllari

  • To’liq matnli qidiruv
  • Meta ma’lumotlar (metadata) bo’yicha qidirish
  • Tasvirlarni qidirish

Qidiruv usullari

  • Manzilli (Adresli) qidiruv
  • Semantik qidirish
  • Hujjatli qidiruv
  • Faktografik qidiruv

Axborotni qidirish fan sifatida

  • Axborot qidirish – bu kognitiv psixologiya, informatika, axborot dizayni, lingvistika (tilshunoslik), semiotika va kutubxonashunoslik kabi fanlar kesishmasida turuvchi ilmiy soha hisoblanadi.

Axborotni qidirish masalalari

  • AQ ning asosiy masalasi – foyalanuvchiga uning axborotga bo’lgan ehtiyojlarini qondirishga yordam berishdan iborat. Asosiy masalalar:
    • - Modellashtirish masalasi;
    • - Hujjatlarni klassifikatsiyalash;
    • - Hujjatlarni filtrlash;
    • - Hujjatlarni klasterizatsiyasi;
    • - Qidiruv tizimlari arxitekturasi va foydalanuvchi interfesini loyihalash;
    • -Axborotlarni ajratib olish, xususiy holda hujjat annotatsiyasi va referatini tayyorlash;
    • - So’rov tillari va boshq.

Samaradorlikni baholash

  • AQT tomonidan topilgan hujjatlar so’rovga qanchalik mos kelishini baholashning ko’plab usullari mavjud. Afsuski, so’rovlarning muvofiqlik darajasi, boshqacha aytganda relevantnosti, sub’ektiv tushuncha hisoblanadi, muvofiqlik darajasi esa so’rov bajarilishi natijalarini baholovchi aniq insonga bog’liq.

Aniqlik (precision)

  • Bu AQTlari tomonidan topilgan tegishli hujjatlar sonining topilgan hujjatlarning umumiy soniga nisbati sifatida aniqlanadi:
  •  

To’liqlik (recall)

  • Topilgan relevant hujjatlar sonining bazadagi umumiy relevant hujjatlar soniga nisbati:
  •  

Tushish (qatordan chiqish) (fall-out)

  • fall-out relevant bo’lmagan manbalarni topish ehtimolini tavsiflaydi va topilgan relevant bo’lmagan hujjatlar sonining ma’lumotlar bazasidagi relevant bo’lmagan hujjatlarning umumiy soniga nisbati sifatida aniqlanadi:
  •  

F-o’lchov (F-measure, Van Rizbergen o’lchovi)

  • P aniqlik va R to’liqlikning o’rta vaznli garmonik o’rtacha qiymati sifatida aniqlanadigan F-o’lchovdan foydalaniladi:
  • Odatda F-o’lchov quyidagi ko’rinishda ifodalanadi:
  •  

Axborotni ajratib olish

  • Axborotni ajratib olish (angl. information extraction) — bu komp’yuterda tayyorlangan aniq strukturaga ega bo’lmagan yoki kuchsiz strukturalashgan hujjatlardan aniq struturaga ega bo’lgan ma’lumotlarni avtomatik ajratib olish yoki qurish.
  • Axborotni ajratib olish tabiiy tildagi matnlarni qayta ishlab bilan bog’liq bo’lib, axborotlarni qidirishning bir ko’rinishi hisoblanadi.
  • “Kecha, 2019 yil 31 noyabr kuni Toshkent shahrida o’tkaziladigan Shanxay hamkorlik tashkilotiga a’zo davlatlarning hukumat rahbarlari uchrashuvida ishtirok etish uchun Rossiya Federatsiyasining bosh vaziri Dmitriy Medvedov Toshkent shahriga keldi”
  • Rasmiy vizit (davlat -Kim, Davlat-Kimga, kelish sanasi)

  • Ma’lumotlarni bunday akslantirishdan asosiy maqsad – boshlang’ich tarqoq (xatotik) axborotlarni ma’lumotlarni qayta ishlashning standart usullari yordamida tahlil qilish imkonini yaratishdan iborat. Shu bilan birgalikda xabar matnida tavsiflangan mantiqiy qonuniyatlarni aniqlash masalasi usun xizmat qilishi mumkin.

Axborotlarni ajratib olishning maxsus masalalari:

  • Nomlangan (ya’ni, muhim, tayanch) elementlarni tanish, masalan: odamlar ismi, tashkilot nomlari, geografik nomlar, vaqt va pul birliklari va h.k.
  • Anaformalar va o’zaklarning aniqlanishi: bitta va aynan shu ob’etga tegishli (daxldor) bog’liqliklarni aniqlash. Bunday bog’lanishlarning xos holatlari – olmoshli anaforalar.
  • Atamalarni (terminlarni) ajaratish: berilgan matn uchun kalit so’zlari va iboralarni topish.
  • Avto (referat tuzish): matndan semantik, hissiy, baholovchi malumotlarni ajratib olish. Bu generativ va deklarativ bo’ladi.

Xulosa

  • 1.Ma’lumotlarni qayta ishlashda va ma’lumotlarni ma’lumotlar bazasiga joylashtirishda qo’llaniladi.
  • 2. Bu masalalar bilan malumotlarni intelletual tahlil qilish (data mining) shug’ullanadi.
  • 3. Internetning rivojlanish kontseptsiyasi: Har bir hujjatga semantik to’r deb ataluvchi XML formatidagi meta ma’lumotli fayl biriktiriladi va juda istiqbolli hisoblanadi. Lekin bu hujjatning o’zini almashtirish (o’zgartirish) emasligini e’tiborga olish kerak.

Foydalanilgan manbalar:

  • 1. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. — Addison-Wesley, 1999. — ISBN 0-201-39829-X.
  • 2. Manning C., Raghavan P., Schütze H. Introduction to Information Retrieval. — Cambridge University Press, 2008. — ISBN 0-521-86571-9.
  • 3. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5.
  • 4. Ландэ Д. В., Снарский А. А., Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы. — M.: Либроком (Editorial URSS), 2009. — 264 с. — ISBN 978-5-397-00497-8.

Download 255.71 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2020
ma'muriyatiga murojaat qiling