22. Qidiruv algoritmlarida indekslash nima?


Qidiruv tizimining indekslari nima uchun kerak?


Download 0.92 Mb.
bet15/28
Sana22.01.2023
Hajmi0.92 Mb.
#1109479
1   ...   11   12   13   14   15   16   17   18   ...   28
Bog'liq
22. Qidiruv algoritmlarida indekslash nima?

Qidiruv tizimining indekslari nima uchun kerak?


Internet-resurs sahifalarini indeksatsiya qilish qidiruv tizimlari ishining majburiy elementidir. Natijada ma'lumotlar bazasi yaratiladi, uning yordamida emissiya natijalari shakllantiriladi. Shunday qilib, har qanday sayt foydalanuvchi so'rovlari bo'yicha qidiruv natijalarida paydo bo'lishi uchun qidiruv tizimi tomonidan indekslangan bo'lishi kerak.
Indekslash robotlar tomonidan amalga oshiriladi, ular ikki xil:

  1. Asosiy. Ular tarkibida taqdim etilgan sahifalar tarkibini tahlil qilishadi.

  2. Tez. Internet-resursni yangilashdan so'ng qo'shilgan yangi ma'lumotlarni tahlil qiladi va indekslaydi.

Indekslash mavzusida farq qiluvchi boshqa robotlar ham mavjud: rasmlar, RSS lentalari va boshqa materiallar bilan ishlashning maxsus mexanizmlari.
Indeksga tezroq sayt qo'shilsa, siz birinchi tashrif buyuruvchilaringizni tezroq ko'rasiz. Google tomonidan indeksatsiya bir necha kun davom etadi, Yandex tomonidan indeksatsiya bir necha hafta davom etadi.


28. To’xtash so’zlari haqida ma’lumot bering.
B a'zan foydalanuvchilarning axborot ehtiyojlarini qondirish uchun ahamiyatsiz bo'lgan juda keng tarqalgan ba'zi so'zlar odatda leksikon tarkibidan chiqarib tashlanadi. Ular to'xtash so'zlari (stop-words)deb nomlanadi. Odatda, so'zlarni to'xtatish ro'yxatlarini yaratish uchun atamalar to'plamdagi chastota bo'yicha tartiblanadi (bu hujjatlar to'plamidagi atamani takrorlashining umumiy soniga teng), so'ngra ular asosida eng ko'p qo'llaniladigan atamalar, indeksatsiya qilinayotgan hujjatlarning predmet sohasi bilan semantik aloqalar, indekslash paytida elementlari bekor qilinadigan to'xtash ro'yxatiga (stop-list) kiritiladi. To'xtash so'zlar ro'yxatining namunasi shakl. 2.5. To’xtash-so’zlar ro'yxati tizimda saqlanishi kerak bo'lgan pozitsiyalar sonini sezilarli darajada kamaytiradi; Ko'pgina hollarda indekslashda to'xtash so'zlarini e'tiborsiz qoldirish muammo tug'dirmaydi; the va by kabi kalit so'zlarni izlash deyarli foydali emas. Biroq, iboralarni qidirishda bunday emas. Ikkita so'zni o'z ichiga olgan President of the United States iborasini topish uchun so'rov, President AND "United States" so'roviga qaraganda aniqroq. Agar flights to London iborasining ma'nosi, undan to to'xtovchi so'zi chiqarib yuborilsa yo'qolishi mumkin. Vannevar Bushning (Vannevra Bush) As we may think agar dastlabki uchta so'z e'tiborsiz qoldirilsa va tizim shunchaki think so'zini o'z ichiga olgan hujjatlarni qidirib topsa juda qiyin bo'lar edi. So'rovlarning ayrim turlari boshqalarga qaraganda ko'proq zarar ko'rishi mumkin. Ba'zi qo'shiq nomlari va taniqli she'r parchalari butunlay to'xtash so'zlaridan iborat. Masalan:
2.5-rasm

Vaqt o'tishi bilan axborot qidirish tizimlarida taqiqlangan so'zlarning ro'yxatlari uzunligi 200-300 dan 7-12 gacha qisqardi va ba'zi tizimlarda ulardan foydalanishdan voz kechildi. Masalan, veb-qidiruv tizimlarida so'zlarni to'xtatish ro'yxatlari odatda qo'llanilmaydi. Ba'zi zamonaviy axborot-qidirish tizimlarini ishlab chiquvchilari eng keng tarqalgan so'zlarni eng samarali qayta ishlash uchun tilning statistik xususiyatlaridan foydalanishga e'tibor berishdi.

Download 0.92 Mb.

Do'stlaringiz bilan baham:
1   ...   11   12   13   14   15   16   17   18   ...   28




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling