Samarqand davlat universiteti intellektual tizimlar va axborot texnologiyalari fakulteti


Matndan to'xtatish so'zlarini olib tashlash


Download 290 Kb.
bet5/10
Sana24.12.2022
Hajmi290 Kb.
#1052189
1   2   3   4   5   6   7   8   9   10
Bog'liq
407-GURUH.FAYZULLAYEV.A BIG DATA

12.Matndan to'xtatish so'zlarini olib tashlash.
Har bir so'zning paydo bo'lish chastotasini hisoblash va ularning chastotasini pasayish tartibida so'zlar joylashtirilgan ro'yxatni tuzish. Ro'yxat o'rtasida joylashgan chastota diapazonini tanlash va matnning ma'nosiga to'liq mos keladigan ushbu so'zlar oralig'ini tanlash. OR (OR) mantiqiy operatori bilan bog'liq ravishda shu tarzda tanlangan kalit so'zlarning ro'yxati shaklida qidiruv tizimiga so'rov yuborish. Ushbu shakldagi so'rov ro'yxatdagi so'zlarning kamida bittasi bo'lgan matnlarni aniqlashga imkon beradi.
Ushbu so'rovni qidirish natijasida olingan hujjatlar soni juda katta bo'lishi mumkin. Shu bilan birga, ko'pgina qidiruv tizimlarida ishlatiladigan hujjatlarning tartiblanishi (ularning so'rov so'zlarining paydo bo'lish chastotasining pasayishi tartibida tartiblanishi) tufayli, ro'yxatning birinchi sahifalarida deyarli barcha hujjatlar tegishli bo'lib, boshlang'ich hujjat boshidan uzoq bo'lishi mumkin.
Semantik tillar deb nomlangan tezaurusning tuzilishi yanada adekvat ko'rinadi, bunda har bir asosiy atama uchun tegishli so'zlar va shovqinli so'zlar jadvali alohida tuzilgan (manbada topilmasligi kerak) - ba'zi qidiruv tizimlari (AltaVista) bunga imkon beradi. Shunday qilib, atamalarning yagona ierarxik tuzilishi o'rniga biz alohida ravishda kengaytirilishi va o'zgartirilishi mumkin bo'lgan jadvallar to'plamini olamiz.
13.Qidiruv mexanizmini tanlash
Qidiruv mexanizmlaridan foydalanish ketma-ketligi har bir mashinadan foydalangan holda qidiruv samaradorligini pasayishiga qarab belgilanadi.
Umuman olganda, 180 ga yaqin qidiruv tizimlari ma'lum, ular qamrov zonalarida, qidirish tamoyillari (va shu sababli kirish tilida va qabul qilingan so'rovlar xarakterida), indeks ma'lumotlar bazasining hajmi, ma'lumotlarning yangilanish tezligi, "nostandart" ma'lumotlarni qidirish qobiliyati va boshqalar. Qidiruv mexanizmlarini tanlashning asosiy mezonlari serverning indeksli ma'lumotlar bazasining hajmi va qidiruv tizimining o'zi, ya'ni so'rovlarning murakkablik darajasi. Qidiruv tizimlari to'g'risida batafsilroq "Tarmoq ma'lumotlarini qidirish vositalari" bo'limida tasvirlangan.

Download 290 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling