22. Qidiruv algoritmlarida indekslash nima?


Qidiruv tizimining indekslari nima uchun kerak?


Download 0.92 Mb.
bet20/28
Sana22.01.2023
Hajmi0.92 Mb.
#1109479
1   ...   16   17   18   19   20   21   22   23   ...   28
Bog'liq
22. Qidiruv algoritmlarida indekslash nima?

Qidiruv tizimining indekslari nima uchun kerak?


Internet-resurs sahifalarini indeksatsiya qilish qidiruv tizimlari ishining majburiy elementidir. Natijada ma'lumotlar bazasi yaratiladi, uning yordamida emissiya natijalari shakllantiriladi. Shunday qilib, har qanday sayt foydalanuvchi so'rovlari bo'yicha qidiruv natijalarida paydo bo'lishi uchun qidiruv tizimi tomonidan indekslangan bo'lishi kerak.
Indekslash robotlar tomonidan amalga oshiriladi, ular ikki xil:

  1. Asosiy. Ular tarkibida taqdim etilgan sahifalar tarkibini tahlil qilishadi.

  2. Tez. Internet-resursni yangilashdan so'ng qo'shilgan yangi ma'lumotlarni tahlil qiladi va indekslaydi.

Indekslash mavzusida farq qiluvchi boshqa robotlar ham mavjud: rasmlar, RSS lentalari va boshqa materiallar bilan ishlashning maxsus mexanizmlari.
Indeksga tezroq sayt qo'shilsa, siz birinchi tashrif buyuruvchilaringizni tezroq ko'rasiz. Google tomonidan indeksatsiya bir necha kun davom etadi, Yandex tomonidan indeksatsiya bir necha hafta davom etadi.



39.

40.



116.Klaster nima?
Klaster - bu nazoratsiz o'rganishning eng keng tarqalgan shakli. O'qituvchining yo'qligi algoritmda sinflarga hujjatlarni tayinlaydigan mutaxassis ishtirok etishi nazarda tutilmaganligini anglatadi. Klaster vazifalarida tarqatish va ma'lumotlar tarkibi klasterga a'zolikni aniqlaydi. Klasterlashning oddiy misoli shakl. 16.1. Yalang'och ko'z bilan uchta alohida nuqta to'plami ko'rinadi. O'quv misollariga murojaat qilmasdan bunday klasterlarni topish uchun ishlatilishi mumkin bo'lgan algoritmlar tasvirlangan.


Rasm: 16.1. Ma'lumotlarning aniq klaster tuzilishiga ega
Klasterlash va tasniflash o'rtasidagi farq bir qarashda ahamiyatsiz bo'lib ko'rinishi mumkin. Oxir oqibat, ikkala holatda ham ko'plab hujjatlar guruhlarga bo'linadi.

117.Tasniflash deganda nimani chunasiz?


Tasniflash - bu ma'lumotni qidirish (IR) va boshqa sohalarda ko'plab dasturlarga ega bo'lgan juda umumiy tushuncha. Masalan, kompyuterni ko'rishda tasvirlarni landshaft, portret va boshqa kabi sinflarga bo'lish uchun klassifikatordan foydalanish mumkin.
Uning maqsadi ekspert tomonidan belgilangan toifalashtirishni ko'paytirishdir. Eng muhim namunasi klasterlash bo'lgan nazoratsiz o'rganishda o'qituvchi yo'q.
Tasniflash uchun kompyuter kerak emas. Ko'pgina tasniflash muammolari an'anaviy ravishda qo'lda hal qilindi. Kutubxonadagi kitoblar kutubxonachi tomonidan Kongress kutubxonasi toifalariga ajratilgan. Ammo qo'lda tasniflash miqyosi qimmat. Ko'p yadroli kompyuter chiplari misolida bitta muqobil yondashuv ko'rsatilgan: doimiy so'rovlar yordamida tasniflash, ularni qoidalar deb hisoblash mumkin - ko'pincha qo'lda yozilgan. Bizning misolimizda bo'lgani kabi (ko'p yadroli yoki ko'p yadroli) va (chip, protsessor yoki mikroprotsessor), qoidalar ba'zan mantiqiy ifodalarga tengdir.
118.Klaster gepotezasi deganda nimani tushunasiz?
Klaster gipotezasi - bu ma'lumot olishda klasterlashni qo'llashga imkon beradigan asosiy taxmin.
Klaster gipotezasi. Xuddi shu klasterga tegishli hujjatlar ma'lumotlarga bo'lgan ehtiyojga nisbatan taxminan bir xil ahamiyatga ega.
Ushbu gipotezada ta'kidlanishicha, agar hujjat klasterga tegishli bo'lsa va so'rovga taalluqli bo'lsa, u holda ushbu klasterdagi boshqa hujjatlar ham tegishli bo'lishi mumkin. Buning sababi shundaki, klasterlash ko'plab umumiy atamalarni o'z ichiga olgan hujjatlarni birlashtiradi. Klaster gipotezasi asosan keltirilgan yaqinlik gipotezasi hisoblanadi. Ikkala holatda ham biz shunga o'xshash hujjatlar taxminan bir xil ahamiyatga ega xususiyatlarga ega deb hisoblaymiz.
Vektorli kosmik modelni tasniflash uchun ishlatishning asosiy gipotezasi - tutashuv gipotezasi.
Yaqinlik gipotezasi. Bir sinfning hujjatlari tutashgan hududni tashkil qiladi va har xil sinflarning maydonlari bir-biriga mos kelmaydi.
119.Klasterlash va Tasniflashni farqini ayting
Klasterlash va tasniflash o'rtasidagi farq bir qarashda ahamiyatsiz bo'lib ko'rinishi mumkin. Oxir oqibat, ikkala holatda ham ko'plab hujjatlar guruhlarga bo'linadi. Biroq, yaqinda biz ushbu vazifalar o'rtasida tubdan farq borligini ko'ramiz.

14.1-rasm: Vektorli bo'shliqni uchta sinfga tasniflash.


Ko'plab tasniflash muammolari mavjud, xususan biz duch kelgan matnni tasniflash turi, bu erda sinflarni so'z naqshlari bilan ajratish mumkin. Masalan, "Xitoy" sinfidagi hujjatlar odatda "Xitoy", "Pekin" va "Mao", "Buyuk Britaniya" sinfidagi hujjatlar "London" kabi o'lchamlar uchun yuqori qiymatlarga ega. , "Britaniya" va "Qirolicha". Shunday qilib, ikkita sinf hujjatlari 14.1-rasmda ko'rsatilgandek, alohida tutash mintaqalarni tashkil qiladi va biz ularni ajratib turadigan chegaralarni chizishimiz va yangi hujjatlarni tasniflashimiz mumkin.

120.Klasterlar turlarini sanab o'ting


1.Yassi klasterlash aniq aloqalarga ega bo'lmagan klasterlar to'plamini yaratadi.
2.Ierarxik klasterlash klasterlar ierarxiyasini yaratadi.
3. Qattiq klasterlash qattiq topshiriqni hisoblab chiqadi - har bir hujjat faqat bitta klasterga a'zo bo'lishi mumkin.
4. Yumshoq klaster algoritmlarida topshiriq yumshoq, hujjat egaligi barcha klasterlar bo'yicha taqsimlanadi.

121.Qattiq va yumshoq klasterlar-farqini tushuntirib bering


Qattiq va yumshoq klasterlarni ajratish ham muhimdir. Qattiq klasterlash qattiq topshiriqni hisoblab chiqadi - har bir hujjat faqat bitta klasterga a'zo bo'lishi mumkin. Yumshoq klaster algoritmlarida topshiriq yumshoq, hujjat egaligi barcha klasterlar bo'yicha taqsimlanadi.
Yumshoq topshiriqda hujjat qisman bir nechta klasterlarga tegishli bo'lishi mumkin. Yumshoq klasterlash algoritmiga misol sifatida yashirin semantikani keltirish mumkin indeksatsiya - bu o'lchovni kamaytirishning bir shakli.
M atritsa dekompozitsiyalari va yashirin semantik indeksatsiya, biz hujjat termini matritsasi tushunchasini kiritdik: matritsa sifatida har bir satr terminni, ustunlarning har biri to'plamdagi hujjatni anglatadi . Matritsasi hujjat atamasi kichik to'plam uchun ham bir necha o'n ming qator va ustunlarni o'z ichiga olishi mumkin. Birinchi navbatda matritsa dekompozitsiyasi deb ataladigan chiziqli algebra operatsiyalari sinfini ishlab chiqamiz. Biz muddatli-hujjat matritsasiga past darajali yaqinlashishni qurish uchun maxsus matritsani dekompozitsiya shaklidan foydalanamiz.
122.Klasterli navigatsiya bu
Yaxshi sifat ma'lumotlar taqdimoti Shu bilan bir qatorda foydalanuvchi interfeysi: "search so'zlarni kiritmasdan " Yaxshi sifat uchun ma'lumot berish foydalanuvchi navigatsiyasi Aniqlikni oshirish va / yoki to'liqlik Kuchaytirish ishlash: qidiruv natijalari klasterga tegishli bo'lib, unda qidiruv natijalari so'rovga javoban qaytarilgan hujjatlarni nazarda tutadi. Odatiy bo'lib, ma'lumot qidirish tizimlarida qidiruv natijalari oddiy ro'yxat sifatida taqdim etiladi.
Foydalanuvchilar ushbu ro'yxatni kerakli ma'lumotlarni topguncha yuqoridan pastga qarab ko'rib chiqadilar. Shu bilan birga, qidiruv natijalarini klasterlashdan so'ng, shunga o'xshash hujjatlar bir-biriga yaqin ro'yxatga olinadi. Ba'zida ko'plab shaxsiy hujjatlarni emas, balki o'xshash hujjatlar guruhlarini ko'rish osonroq bo'ladi.
123.False-Positive deganda nimani tushunasiz
False-Positive (FP) ikkita bir-biriga o'xshash bo'lmagan hujjatlarni bitta klasterga tayinlaydi. False-Negative (FN) ikkita o'xshash hujjatni turli klasterlarga tayinlaydi.
Rand indeksi to'g'ri qarorlarning ulushini o'lchaydi. Boshqacha qilib aytganda, bu muhokama qilingan aniqlikni anglatadi.
TP + FP + FN + TN
Misol tariqasida, shaklni keltirilgan ma'lumotlarga ko'ra W indeksini hisoblaymiz. Avval TP + FP summasini hisoblab chiqamiz. Uchta klasterda navbati bilan oltita, oltita va beshta punkt mavjud, shuning uchun ijobiy natijalarning umumiy soni, ya'ni. bitta klasterga tegishli hujjatlar juftligi tengdir
TP + FP = Cl + C | + C, a = 40.
Ular orasida 1-klasterdagi xochlar, 2-klasterdagi nollar, 3-klasterdagi romblar va 3-klasterdagi xochlar chindan ham ijobiy natijalardir.
TP + FP = C2, + c; + C, 2 = 20
Shuning uchun FP = 40 - 20 = 20
FN va TN xuddi shu tarzda hisoblab chiqiladi. Natijada biz quyidagi faktorial jadvalni olamiz. Xuddi shu klaster Turli klasterlar Bir xil sinf Turli sinflar Shunday qilib, RI = B0 + 75) / B0 + 20 + 24 + 72) »0.68.
RI FP va FN parametrlariga teng og'irliklarni belgilaydi. Shunga o'xshash hujjatlarni ajratish ba'zan bir xil bo'lmagan hujjatlarni bir xil klasterga qo'shishdan yomonroq. FN parametri uchun FP ga nisbatan qattiqroq jazolash uchun siz p> 1 ni tanlab F-o'lchovidan foydalanishingiz mumkin va shu bilan to'liqlikka ko'proq og'irlik berasiz.
TP = 20
FP = 20
FN = 24
TN = 72

124.Yassi klasterlar deganda nimani •tushunasiz


Yassi klasterli avtomobil, hayvonlar va Apple kompyuterlari operatsion tizimi.
Yassi klasterlar klasterlarni b ir-biriga bog'laydigan aniq tuzilmasdan tekis klasterlar to'plamini yaratadi.
Yassi qattiq klasterlashning maqsadi quyidagicha tuzilgan. Berilgan:
1) hujjatlar to'plami D = {rf |, di, ..., dn],
2) kerakli miqdordagi K klasterlar,
3) klasterlash sifatini baholovchi ob'ektiv funktsiya. Kerakli | Biz maqsad vazifasini minimallashtiradigan (yoki maksimal darajaga ko'taradigan) X - D -> {1, ..., K) topshiriqni hisoblashimiz kerak. Ko'pgina hollarda, shuningdek, parchalanish funktsiyasi sur'ektiv bo'lishi kerak, ya'ni. K klasterlarning hech biri bo'sh bo'lmasligi kerak.

125.Yumshoq klaster deganda nimani -tushunasiz


Yumshoq klaster algoritmlarida topshiriq yumshoq, hujjat egaligi barcha klasterlar bo'yicha taqsimlanadi.
Yumshoq topshiriqda hujjat qisman bir nechta klasterlarga tegishli bo'lishi mumkin. Yumshoq klasterlash algoritmiga misol sifatida yashirin semantikani keltirish mumkin indeksatsiya - bu tasvirlangan o'lchovni kamaytirishning bir shakli.
88. Indekslarni ketma-ket qidirish usuli qanday ataladi?


Download 0.92 Mb.

Do'stlaringiz bilan baham:
1   ...   16   17   18   19   20   21   22   23   ...   28




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling