2-ma’ruzaga: Qo‘shimcha: axborotni qidirish usullari va samaradorlikni baholash


Download 64.55 Kb.
bet10/11
Sana01.12.2021
Hajmi64.55 Kb.
#178694
1   2   3   4   5   6   7   8   9   10   11
Bog'liq
2-maruza davomi

Garmonik o’rta qiymat — bir nechta sonlar to’plamining “o’rtacha” qiymatini tushunish mumkin bo’lgan usullar biri. Uni quyidagicha aniqlash mumkin:  musbat sonlar berilgan bo’lsin, ularning garmonik o’rta qiymati H quyidagicha aniqlanadi:

Bundan quyidagi garmonik o’rta qiymat formulasini olish mumkin: 




 

2. Axborotni ajratib olish



Axborotni ajratib olish (angl. information extraction) — bu komp’yuterda tayyorlangan aniq strukturaga ega bo’lmagan yoki kuchsiz strukturalashgan hujjatlardan aniq struturaga ega bo’lgan ma’lumotlarni avtomatik ajratib olish yoki qurish.

Axborotni ajratib olish tabiiy tildagi matnlarni qayta ishlab bilan bog’liq bo’lib, axborotlarni qidirishning bir ko’rinishi hisoblanadi. Axborotlarni ajratib olishga misol sifatida yangiliklar lentasida “Kecha, 2019 yil 31 noyabr kuni Toshkent shahrida o’tkaziladigan Shanxay hamkorlik tashkilotiga a’zo davlatlarning hukumat rahbarlari uchrashuvida ishtirok etish uchun Rossiya Federatsiyasining bosh vaziri Dmitriy Medvedov Toshkent shahriga keldi” ko’rinishida berilgan matnli ma’lumotdan Rasmiy vizit (davlat -Kim, Davlat-Kimga, kelish sanasi) ko’rinishdagi qidiruv matnini ajratib olish mumkin. Ma’lumotlarni bunday akslantirishdan asosiy maqsad – boshlang’ich tarqoq (xatotik) axborotlarni ma’lumotlarni qayta ishlashning standart usullari yordamida tahlil qilish imkonini yaratishdan iborat. Shu bilan birgalikda xabar matnida tavsiflangan mantiqiy qonuniyatlarni aniqlash masalasi usun xizmat qilishi mumkin.

Bunday axborotlarni ajratib olish uchun bajariladigan ishlarning zamnaviy axborot texnologiyalaridagi o’rni –strukturalashmagan (meta ma’lumotlarsiz) (xususiy holda Internetda) axborotlarning keskin ko’payib ketishi bilan bog’liq. Ushbu ma’lumotlar relayatsion shaklga akslantirish (o’tkazish) vositalari yoki XML belgilariga qo’shilgan holda deyarli strukturalashgan holatga keltirilgan bo’lishi mumkin. Yangiliklarni monitoring qilishda keyinchalik qulay ishlash imkoniyatini yaratish uchun intellektual agentlar yordamida ularni strukturalashgan shaklga keltirish va axborotlarni ajratib olish usullari talab qilinadi.

Axborotlarni ajratib olishning maxsus masalalaridan biri: tabiiy tilda yozilgan hujjatlar to’plamini skanerlash va ma’lumotlar bazasini ajratib ko’rsatilgan muhim axborotlar bilan to’ldirish. Axborotlarni ajratib olishning zamonaviy yondoshuvida faqat cheklangan mavzular (savollar, muammolar)ga yo’naltirilgan tabiiy tilni qayta ishlash usullaridan foydalaniladi – ko’pincha faqat bitta mavzu bo’yicha. Masalan, «Xabarlarni idrok etish konferentsiyasi” (en: Message Understanding Conference, MUC) — bu musobaqa xarakteridagi konferentsiya bo’lib, u quyidagi yo’nalishlar bo’yicha o’tkazilgan:

MUC-1 (1987), MUC-2 (1989): Harbiy –dengiz mashg’ulotlari.

MUC-3 (1991), MUC-4 (1992): Lotin Amerikasi davlatlaridagi terrorizm.

MUC-5 (1993): Mikroelektronika sohasida ishlab chiqarish operatsiyalari.

MUC-6 (1995): Boshqaruv jarayonlaridagi o’zgarishlar haqida yangi maqolalar.

MUC-7 (1998): Sun’iy yo’ldoshlarni ishga tushirish bo’yicha hisobotlar va h.k.

Tabiiy tilda yozilgan matnlarni komp’yuterga tushunarli bo’lgan qandaydir tilga (masalan, RDF - Resource Description Framework – resurslarni tavsiflash asoslari) o’tkazilishi talab qilinganda ham axborotlarni ajratib olish masalalari qo’llaniladi.

2.1. Axborotlarni ajratib olishning maxsus masalalari:

Nomlangan (ya’ni, suщnost – muhim, tayanch) elementlarni tanish, masalan: odamlar ismi, tashkilot nomlari, geografik nomlar, vaqt va pul birliklari va h.k.

Anaformalar va o’zaklarning aniqlanishi: bitta va aynan shu ob’etga tegishli (daxldor) bog’liqliklarni aniqlash. Bunday bog’lanishlarning xos holatlari – olmoshli anaforalar.

Atamalarni (terminlarni) ajaratish: berilgan matn uchun kalit so’zlari va iboralarni topish.


Download 64.55 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   11




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling