22. Qidiruv algoritmlarida indekslash nima?
Invertlangan indeksni qurishning asosiy bosqichlari haqida ma’lumot bering?
Download 0.92 Mb.
|
22. Qidiruv algoritmlarida indekslash nima?
23.Invertlangan indeksni qurishning asosiy bosqichlari haqida ma’lumot bering?
Teskari indeks - bu ma'lumotlar to'plami, unda tegishli ro'yxatdagi hujjatlar to'plamining har bir so'zi uchun to'plamdagi barcha hujjatlar ro'yxati keltirilgan. Matnni qidirish uchun teskari indeks ishlatiladi. Teskari indeks uchun ikkita variant mavjud: -har bir so'z uchun faqat hujjatlar ro'yxatini o'z ichiga olgan indeks, -har bir hujjatdagi so'zning o'rnini qo'shimcha ravishda indeks Qidiruv so'rovidagi barcha so'zlar topilgan hujjatlarni topish muammosi qanday hal qilinganligini tasvirlaylik. Bir so'zli qidiruv so'rovini qayta ishlashda javob allaqachon teskari indeksda - faqat so'rovdan so'zga mos keladigan ro'yxatni oling. To'liq so'rovni qayta ishlashda so'rov so'zlarining har biriga mos keladigan ro'yxatlarning kesishishi olinadi. Haqiqiy qidiruv tizimlarida qo'llash xususiyatlari Hujjatlarda so'zning paydo bo'lishi ro'yxatida, odatda, id identifikatoridan tashqari, omillar ham ko'rsatiladi (TF-IDF, ikkilik omil: "so'z sarlavhaga tushdi yoki kirmadi", boshqa omillar). Indeksni barcha so'z shakllari bilan emas, balki lemmalar (kanonik so'z shakllari orqali) tuzish mumkin. To'xtash so'zlarni chiqarib tashlashingiz mumkin va ular uchun indeks yaratmaysiz, chunki ularning har biri korpusdagi deyarli barcha hujjatlarda uchraydi. Kesishmalarni hisoblashni tezlashtirish uchun skip-pointer evristikasidan foydalaniladi. Ko'p so'zlarni o'z ichiga olgan so'rovlarni qayta ishlashda kvorum funktsiyasidan foydalaniladi, bu so'rovning barcha so'zlari topilmaydigan hujjatlarning bir qismini saralashning keyingi bosqichiga o'tadi. "Teskari indeks (yoki uni" so'z pozitsiyalari ro'yxati "deb ham atashadi) - bu har bir davr uchun mavjud bo'lgan barcha hujjatlar to'plamlaridagi ushbu atama mavjud bo'lgan barcha hujjatlar to'plamlari ko'rsatilgan ma'lumotlar tuzilishi." Belgilangan hujjatlar to'plami uchun teskari ro'yxatni tuzish uchun bizga quyidagilar kerak: Tegishli hujjat identifikatorlari bilan birga har bir hujjatda atamalar ketma-ketligi jadvalini yarating; Ushbu jadvalni alfavit bo'yicha saralash (ortish bo'yicha); Xuddi shu atamalarni so'zlar va alohida hujjat identifikatorlari bo'yicha guruhlash; Hujjat identifikatorlarini joylashtiring (bizning holimizda har qanday saralash opsiyasi mos keladi). Download 0.92 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling