Vektor modeli va atamalarini baholashlarni hisoblash yóllari


Download 162.78 Kb.
bet4/5
Sana19.06.2023
Hajmi162.78 Kb.
#1614886
1   2   3   4   5
Bog'liq
жеткербай шпор1

Axborotni izlash (ingl. information retrieval) — axborotni qidirish jarayoni bo’lib, axborotga bo’lgan ehtiyojni qondirish uchun strukturalashmagan hujjatlardan zarur ma’lumotlarni izlash haqidagi fan sifatida rivojlanib kelmoqda. Axborot izlash – bu ma’lum bir hujjatlar (matnli) to’plamidan oldindan belgilangan shartli mavzu (so’rov) yoki zarur (axborotga bo’lgan ehtiyojni qondirishga tegishli) ma’lumotlarni, faktlarni, xabarlarni izlash – aniqlash jarayoni. Qidiruv jarayoni ma’lumotlarni to’plash, ularga ishlov berish va taqdim etishga qaratilgan operatsiyalar ketma-ketligini o’z ichiga oladi.
Umumiy holda axborotni qidirish to’rtta etap (bosqich)dan tashkil topgan:
- axborotga bo’lgan ehtiyojni aniqlash va axborot so’rovini shakllantrish;
- mumkin bo’lgan axborotlar massivining egasini (manbasini) aniqlash;
- aniqlangan axborot massividan ma’lumotlarni ajratib olish;
- olingan axborot bilan tanishish va qidiruv natijasini baholash.
Izlash usullari:
to'g'ridan-to'g'ri kuzatish;
Asosiy masalalar bo'yicha mutaxassislar bilan aloqa qilish;
tegishli adabiyotlarni o'qish;
televizor va video dasturlarni kuzatish va ko’rib borish;
radioeshittirishlarni va audio lentalarni tinglash;
kutubxonalarda, arxivlarda, axborot tizimlarida ishlash va boshqa usullar.
10-variyant

  1. Murakkab izlash tizimlarini baholay olish yóllari.

Qidiruv tizimining veb-serveri - bu foydalanuvchi va qidiruv tizimining qolgan
qismlari o'rtasidagi o'zaro aloqani boshqaradigan veb-server. Qoida tariqasida,
qidiruv tizimining (veb-sayt) veb-interfeysi ishlashini ta'minlaydi. Veb-serverda
foydalanuvchiga html-sahifa ko'rinishida natijalarni chiqarish uchun sahifa ham
mavjud.
Rejalashtiruvchi (Crawler yoki "Churt") bu dastur bo'lib, uning asosiy maqsadi
manbadan boshqa sahifalar/resurslarga barcha havolalarni olib tashlash va ularni
ma'lumotlar bazasida saqlash va shu bilan birga "O'rgimchak" ga yo'l ochishdir.
Barcha havolalar topilgandan so'ng, "Reja tuzuvchi" ushbu havolalar bo'yicha
tizimli o'tishni boshlaydi va butun jarayon qayta boshlanadi.
O'rgimchak (O'rgimchak) qidiruv robotining asosiy qismidir. U "Reja
tuzuvchisi" tomonidan rejalashtirilgan marshrutni kuzatib boradi va barcha sahifa
kodlarini ma'lumotlar bazasida saqlaydi.
Turli xil qidiruv tizimlarida turli xil qidiruv robotlari bo'lishi mumkin, ammo
ishlash printsipi hamma uchun bir xil - tarkibni toping va yuklab oling.
Qidiruv robotlarining bir nechta kichik toifalari mavjud. Ba'zilar tasvirlarni
qidirmoqda, boshqalari tez yangilanadigan saytlarni ko'rib chiqmoqda, boshqalari
saytlarning ishlashini tekshirmoqda va hokazo.



  1. Sodda Bayes klassifikatori va axborotni ajratishni klassifikatsiyalash yóllari.

Sodda Bayes klassifikatori Bayes teoremasini qat'iy (sodda) mustaqillik farazlari bilan qo'llashga asoslangan oddiy ehtimolli klassifikatordir.
Ehtimoliy modelning aniq tabiatiga qarab, Naive Bayes klassifikatorlari juda samarali tarzda o'qitilishi mumkin. Ko'pgina amaliy ilovalar naive bayes modellari parametrlarini baholash uchun maksimal ehtimollik usulidan foydalanadi; boshqacha qilib aytganda, sodda Bayes modeli bilan Bayes ehtimolligiga ishonmasdan va Bayes usullaridan foydalanmasdan ishlash mumkin.
O'zining sodda ko'rinishi va shubhasiz juda sodda atamalariga qaramay, Naive Bayes klassifikatorlari ko'pincha real hayotdagi ko'plab murakkab vaziyatlarda neyron tarmoqlarga qaraganda ancha yaxshi ishlaydi.
Oddiy Bayes klassifikatorining afzalligi - o'qitish, parametrlarni baholash va tasniflash uchun zarur bo'lgan kichik ma'lumotlar miqdori.
K lassifikator uchun ehtimollik modeli shartli modeldir
u stidan qaram sinf o'zgaruvchisi Bir nechta o'zgaruvchilarga bog'liq bo'lgan bir nechta natijalar yoki sinflarga ega C Muammo shundaki, qachonki xususiyatlar soni n juda katta bo'lsa yoki xususiyat ko'p sonli qiymatlarni olishi mumkin bo'lsa, ehtimollik jadvallarida bunday modelni qurish imkonsiz bo'ladi. Shuning uchun biz uni qayta ishlashni osonlashtirish uchun modelni qayta shakllantiramiz.
Bayes teoremasidan foydalanib pastdagini yozamiz



  1. Relevant aloqalardan foydalanish va so’rovlarni kengaytirish yóllari.

Muvofiqlikni tushunish sizning sahifangiz potentsial mijoz so'roviga qanchalik
to'g'ri javob berishidir. Yandex buni ma'lumot izlayotgan foydalanuvchilar manfaatlariga mos keladigan eng yaxshi variant sifatida belgilaydi. Muvofiqlik - qidiruv tizimlari so'rov bo'yicha sayt yoki alohida sahifaning ko'rinishini va uning
qidiruv natijalaridagi o'rnini aniqlaydigan omillardan biridir. Ya'ni, asosiy ibora
bo'yicha TOP-da bo'lish uchun sahifa iloji boricha niyatga mos kelishi va qidiruv
tizimlarining talablariga javob berishi kerak. Qidiruv mexanizmlari sahifaning
soʻrovga aloqadorligini qanday tushunishadi Qidiruv mexanizmlari eng mos natijalarni qanday aniqlashini tushunish va soʻrovlar uchun natijalarni yaratish uchun keling, qidiruv qanday ishlashini koʻrib chiqaylik. Yandex buni qanday qiladi Qidiruv reytingi tamoyillarida Yandex ularning asosiy maqsadi kontent turidan qat'i nazar foydalanuvchilarga tegishli natijalarni (sahifalarni) ko'rsatish ekanligini aytadi. Qidiruv tizimi uchun qidiruv sifati muhim ahamiyatga ega. Agar u yomon qidirsa (ya'ni, ahamiyatsiz natijalarni ko'rsatsa), odamlar undan foydalanishni to'xtatadilar. Yandex qidiruv natijalaridagi sahifalar tartibi quyidagicha aniqlanadi, deb aytadi: Sahifaning foydalanuvchi kiritgan qidiruv iborasiga tegishli ekanligi qidiruv tizimiga so‘rovdagi so‘zlarning kelishidan ma’lum: matnda; muhim teglar va meta teglarda Title, H1, Alt; havolalar (ichki va tashqi).

  1. Ketma-ket klasterizatsiyaga asoslangan model, usul va algoritmlari bilan ishlash.

Klasterlash - ob'ektlarning (kuzatishlarning) berilgan namunasini klasterlar deb
ataladigan kichik to'plamlarga (odatda bir-biriga mos kelmaydigan) bo'lish jarayoni
bo'lib, har bir klaster o'xshash ob'ektlardan iborat bo'ladi va turli klasterlar ob'ektlari
sezilarli darajada farqlanadi. Turli xil ma'lumotlarni klasterlash vositalarini Science Hunter veb-saytida topish mumkin. Klasterlashning maqsadlaridan biri klaster tuzilmasini belgilash orqali ma'lumotlar o'rtasidagi ichki munosabatlarni ochib berishdir. Kuzatishlarni o'xshash ob'ektlar guruhlariga bo'lish har bir klasterga o'z tahlil usuli - "bo'l va hukmronlik" ("bo'l va zabt et" strategiyasini qo'llash orqali keyingi ma'lumotlarni qayta ishlash va qaror qabul qilishni soddalashtirish imkonini beradi). Klasterlashning qo'llanilishidan biri ma'lumotlarni siqish muammosini hal qilishdir. Agar dastlabki namuna haddan tashqari katta bo'lsa, unda har bir klasterdan bir nechta xarakterli vakillarni qoldirib, uni qisqartirish mumkin. Klasterni qo'llashning yana bir sohasi - o'rganilayotgan ob'ektlar to'plamida yangilikni topish. Klasterlarning birortasiga biriktirib bo'lmaydigan atipik ob'ektlar tanlanadi. Klasterlarni tahlil qilish usullari yordamida muammolarni hal qilish uchun klasterlar sonini oldindan belgilash kerak. Bir holatda, ular klasterlar sonini kichikroq qilishga harakat qilishadi. Boshqa holatda, har bir klaster ichidagi ob'ektlarning yuqori darajada o'xshashligini ta'minlash muhimroqdir va klasterlarning soni har qanday bo'lishi mumkin. Uchinchi holatda, klasterlarning birortasiga to'g'ri kelmaydigan alohida ob'ektlar eng katta qiziqish uyg'otadi.



  1. Axborotlarni izlash va ajratib olish tushunchalari .


Download 162.78 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling