Lingvistikada axborot qidiruv tizimlari Reja


Download 59.31 Kb.
bet7/7
Sana27.01.2023
Hajmi59.31 Kb.
#1134211
1   2   3   4   5   6   7
Bog'liq
eldor

VERONICA programmasi
Veronica (Very Easy Rodent – Oriented Net – wide Index to Compyuter Archives – qiziquvchilar uchun kompyutеr arxivlari bo`yicha ma'lumot bеruvchi) ma'lumot va fayllar joylashgan sеrvеrni topish uchun xizmat qiluvchi programmadir. Gopher serverlarga kirish oson bo`lishiga qaramasdan ba'zan qidirilayotgan ma'lumot yoki fayl qaysi sеrvеrdaligini topish qiyin bo`lishi mumkin. Bu holda Veronicadan foydalanadi va u qaysi sеrvеrda qiziqtirayotgan fayl yoki ma'lumot borligini aniqlab bеradi. U Gopher serverlarda mеnyu punktini aniqlab bеradi. Undan ishlatish uchun Veronica sеrvеrga kirishni amalga oshiruvchi Gopher serverdan foydalanadi. Veronica ma'lumotlar bazasi dunyoda mavjud Gopher serverlarni skanеrlash hisobiga to`plashgan bo`ladi. Uning ma'lumoti ma'lumotlar bazasiga gopher.tc.umn.edu sеrvеri orqali kiritiladi. Bunda Other gopher and Information Servers (Boshqa Gopher va axborot sеrvеrlar) mеnyusi tanlanadi va uning Search Gopher space using Veronica bandi tanlanadi. Bunda ma'lumotlarning archive dan ko`ra osonroq tanlanishiga sabab Gopher serverlarning fayllar nomlari bilan emas, mеnyu bandlarini matnlar yordamida tasvirlashidadir. Bunday axborot ko`proq tushunarlidir. Bu matnlar yordamida fayl yoki kataloglarning nomlari aytilishidan ko`ra ularning mazmuni so`zlar bilan aytilishini tushunish osonroq. Misol uchun biror mavzu bilan fayl nomini, faylni topishdan ko`ra ko`proq ma'lumot bеradi. Shuning uchun Veronica archive topolmagan fayllarni ham topib bеradi. Veronica Gopher fayllarni tadqiq qilib bo`lgandan so`ng topshiriq asosida bajarilgan barcha ishlarning mеnyu ro`yxatini bеradi. Uning yordamida kеrakligini Gopherdagidan tanlash mumkin.
Alta-Vista nomli programma WWWda ma'lumotlarni qidirishning zamonaviy sеrvеrlaridandir. Uning yordamida hatto rus tilida turli kodirovkada tayyorlangan ma'lumotlarni ham qidirish imkoniyati mavjud. U KOI-8 va Windows 1251 kodlarida bеrilgan sahifalarni o`qiy oladi. Kеyingi paytda u orqali kuniga millionlab foydalanuvchilar turli ma'lumot bazalariga, tеlеkonfеrеntsiyalarga murojaat qilib turibdi.
Bibliografik tavsif: Xamraeva, S.I.Qidiruv Tizimlari Va Ulardan Foydalanish Usullari / S.I.Xamraeva. - Matn: to'g'ridan-to'g'ri // Texnika. Texnologiyalar. Muhandislik. - 2017. - No 2.1 (4.1). — S. 41-44. — URL: https://moluch.ru/th/8/archive/57/2315/ (kirish sanasi: 26.01.2023). Ushbu maqola eng zamonaviy Google qidiruv tizimining barcha xususiyatlarini ko'rsatadi va boshqa zamonaviy qidiruv tizimlari, eng keng tarqalgan va taniqli, shuningdek, ulardan foydalanish bo'yicha asosiy ma'lumotlar va ko'rsatmalar beradi. Kalit so'zlar: www.google.com, www.bing.com, www.yahoo.com, www.ask.com, www.uz. Axborot texnologiyalari tez suratlarda rivojlanib borayotgan ayni bir paytda bizni qiziqtirayotgan ma’lumotlarimizni tez topish ehtiyoji tug’ilmoqda. Bunda albatta axborot qidiruv tizimlaridan foydalanish eng maqbul tanlovdir. Qidiruv tizimlari yordamida turli veb-saytlardan bizga kerak bo’lgan ma’lumotlarni sanoqli soniyalar ichida qidirishimiz va ulardan foydalanishimiz mumkin bo’ladi. Albatta Internet tarmog’ida turli xil ko’rinishda axborotlar ko’plab topiladi. Shunday ekan bu axborotlar ichidan bizga kerakli bo’lgan ma’lumotlarni topish muammosi kelib chiqadi. Bunda bizga kerak bo’lgan ma’lumotni to’g’ri tavsiflashimiz muhim ahamiyatga ega. Bu tavsif bir yoki bir necha so’zlar birikmasidan tashkil topishi mumkin. Ushbu tavsifni qidiruv tizimiga to’g’ri va aniq keltirishimiz kerak bo’ladi. Keyin qidiruv tizimi foydalanuvchi kiritgan ma’lumotni tahlil qilib shu ma’lumotlar asosida shunday kalit so’zlarga ega bo’lgan ma’lumotlarni topib beradi. Bunda biz qidirayotgan axborotimiz ixtiyoriy formatda bo’lishi mumkin. Ya’ni biz qidirayotgan ma’lumot rasm, video, musiqa va boshqa ko’rinishlarda ham bo’lishi mumkin. Bunday ma’lumotlarni qidirayotda qidiruv tizimlariga formatini ko’rsatib o’tish yoki belgilab qo’yish tavsiya etiladi. [1] Internet tarmog’ida bunga o’xshash ma’lumotlar turli tillarda bir qancha bo’lishi mumkin. Bunda bizga kerak ma’lumotni qanday tilda bo’lishi mumkinligini kiritib o’tishimiz, bizga kerak ma’lumotni tez va aniq topishimizga yordam beradi. Ma’lumotlar vaqt o’tishi bilan eskirib qolishi ham mumkin. Bizga kerak ma’lumotning joylashtirilgan sanasi bo’yicha qidirish imoniyati ham bor. Xozirgi kundagi eng ommabop qidiruv tizimlari. https://searchenginewatch.com saytning tahliliga ko’ra quyidagi qidiruv tizimlari eng ommabop hisoblanadi. 1) www.google.com — oyiga 1,6 milliard har xil foydalanuvchilar tomonidan tashrif buyurilgan. 2) www.bing.com — oyiga 400 million har xil foydalanuvchilar tomonidan tashrif buyurilgan. 3) www.yahoo.com — oyiga 300 million har xil foydalanuvchilar tomonidan tashrif buyurilgan. 4) www.ask.com — oyiga 245 million har xil foydalanuvchilar tomonidan tashrif buyurilgan. [2] Shu qatorda o’zimizning www.uz Milliy axborot-tizimimizni aytib o’tishimiz mumkin. www.uz — bu bizning internet tarmog’imizdagi ma’lumotlardan qulay tarzda foydalanish imkonini beruvchi milliy tizimimizdir. Milliy axborot qidiruv tizimi rivojlantirish ishlari UZINFOCOM markazi tomonidan amalga oshirilib boriladi. [3,4] Google axborot qidiruv tizimi qo’shimcha imkoniyatlari. Eng ommabop hisoblangan google qidiruv tizimidan foydalanishdagi qo’shimcha afzalliklarini va imkoniyatlari: - Google qidiruv tizimi yordamida qidiruv kalitida imlo xatolik mavjud bo’lsa uni to’girlab beradi; - Agar qidirilayotgan kalit so’zimizdan keyin shu saytdan qidir deb ham aytib o’tishimiz mumkin. “kalit” site:url ko’rinishida bo’ladi; - Agar qidirilayot ma’lumotimiz formati aniq bo’lsa uni ham kiritib o’tishimiz mumkin. “key” filetype: “fayl kengaytmasi” ko’rinishida yozishimiz kerak bo’ladi; - Agar biz kiritayotgan kalit so’zimiz nimani anglatishini bilmoqchi bo’lsangiz. Bunda define: “kalit” ko’rinishda bo’lishi mumkin; - Google qidiruv tizimi yordamida ixtiyoriy matematik amallarni bajarishimiz mumkin bo’ladi; - Qidirayotgan ma’lumotimizni qanday title ichida bo’lishi kerakligini kiritib o’tish imoniyati ham mavjud. Bunda biz “kalit” intitle:”title” ko’rinishida yozish kifoya. Yuqorida keltirilgan qidiruv tizimlari qatorida yana ko’plab qidiruv tizimlari mavjud va ushbu qidiruv tizimlari orqali ulardan oqilona foydalangan holda istalgan ma’lumotimizga ega bo’lishimiz mumkin.
Infarmatsion qidiruv tizimlari
Kompyuter lingvistikasining muhim yo’nalishlaridan yana biri information qidiruv tizimlari (IQT) hisoblanadi. Ular formal belgilarga ko’ra informatsiyani qidirishga mo’ljallangan. IQTlar quyidagi bosqichlar asosida ishlaydi: • informatsiyani jamlash • informatsiyani klassifikatsiya qilish • hujjatning qidiruv obrazi (HQO)ni yaratish • hujjatning qidiruv obrazi va hujjatlarni saqlash • qidirish va natijani chiqarish. 98 “Informatsion qidiruv” (inglizcha “information retrieval”) termini 1948 yilda Kelvin Mur tomonidan fanga kiritilgan.81 Informatsion qidiruv tizimi bu ma’lumotlarni qisqa vaqt birligi ichida qidirib topish, kerakli hujjatlarni ma’lumotlar bazasidan topishni optimallashtirish tizimidir. Bu yo’nalish ilmiytexnikaviy axborotlarning ko’payib ketishiga javoban 1960 yilning oxirlarida yuzaga keldi. Axborot ko’paygan sari uni saralash, keraklisini qidirib topish muammosi yuzaga keldi. Mazkur muammoni bartaraf etish uchun olimlar information qidiruv tizimlari g’oyasini taklif etdilar. Bu yo’nalish internet tarmog’i yuzaga kelgandan so’ng yanada rivojlandi. Masalan, bugun hammaga ma’lumki, internetda Google, Yandex, Rambler, Yahoo kabi qidiruv tizimlari mavjud. Informatsiyani qidirish quyidagi 4 bosqichni o’z ichiga oladi: • Informatsiyaga bo’lgan talabni aniqlashtirish hamda informatsion so’rovni shakllantirish; • So’ralgan informatsiya saqlangan manbalarni (informatsion massivlarni) aniqlash; • Information massivlardan zaruriy informatsiyani ajratib olish; • Informatsiya bilan tanishish va qidiruv natijalarini baholash. Qidiruvning quyidagi turlari mavjud: 1. To’liq matnli qidiruv – hujjatning to’liq mazmun-mundarijasi asosida amalga oshiriladigan qidiruv. Masalan, internetdagi qidiruv tizimlari: www.yandex.ru, www.google.com. 2. Metama’lumotlar bo’yicha qidiruv – hujjatning muayyan atributlari (hujjat nomi, yaratilgan vaqti, hajmi, muallifi) asosida amalga oshiriladigan qidiruv. Qidiruvning bu turiga MS Windows tizimida fayllar bilan ishlashda foydalaniladigan qidiruv dialogi misol bo’la oladi. 3. Tasvir qidiruvi – tasvirning mazmuni asosida amalga oshiriladigan qidiruv. Bunda qidiruv tizimi rasmning mazmunini taniydi va natijada shunga o’xshash rasm topiladi. Polar Rose, Picollator qidiruv tizimlari mana shu tamoyil asosida ishlaydi. 4. Multimediali informatsiya qidiruvi – bunda audio va videofayllar bo’yicha qidiruv tushuniladi. Qidirish jarayoni turli metodlar asosida yuz beradi: manzilli qidiruv, semantik qidiruv, hujjatli qidiruv, faktografik qidiruv. Manzilli qidiruv so’rovda ko’rsatiladigan sof formal belgilar bo’yicha hujjatlarni qidirish jarayoni bo’lib, bunda hujjatning aniq manzili ko’rsatilishi lozim. Hujjatning manzili web-server va web-sahifa manzili yoki bibliografik qayd elementlari va hujjat saqlangan joy 81 Manning C., Raghavan P., Schütze H. Introduction to Information Retrieval. -Cambridge University Press, 2008. – P. 5. 99 sanaladi. Semantik qidiruv hujjatlarlarning mazmuni asosida qidirish usuli bo’lib, bunda hujjatning umumlashma mazmuni, sarlavhasi deskriptor ko’rinishida shakllantirilishi lozim. Hujjatli qidiruv matnli ma’lumotlar hamda ular haqidagi bibliografik qaydlarni qidirish jarayonidir. Faktografik qidiruv so’rovda nazarda tutilgan ma’lumotga mos keluvchi faktlarni (matnli hujjatlar tarkibidan ajratilgan ma’lumotlar) qidirish jarayonidir. Yuqoridagilardan kelib chiqib aytish mumkinki, qidiruv tizimi relyatsion ma’lumotlar bazasida hamda gipertekstli ma’lumotlar bazasida mavjud bo’lgan hujjatlar, hujjatlar haqidagi metama’lumotlar, matnlar, rasmlar, video va audiofayllarni qidirishni o’z ichiga oladi. Informatsiyaning eksponensial tarzda ko’payib ketayotganligi, shuningdek, internet tizimida ham kundan-kunga ma’lumotlar hajmining o’sib borayotganligi kompyuter lingvistikasi oldiga bir qator vazifalarni ko’ndalang qo’ymoqda: ™ qidiruv tizimining optimal modellarini yaratish; ™ hujjatlarni tasniflash (klassifikatorlar tizimini yaratish); ™ hujjatlarni klasterlash; ™ Foydalanuvchi interfeyslari va qidiruv tizimlari arxitekturasini loyihalash; ™ Zaruriy informatsiyani ajratib olish, hujjatlarni avtomatik referatlash va annotatsiyalsh; ™ deskriptorli tillar va tezauruslarni mukammallashtirish, boyitish. Saqlangan ma’lumotning hamda qidirish xususiyatiga ko’ra information qidiruv tizimlari 2 katta guruhga bo’linadi: hujjatli va faktografik IQT. Hujjatli IQTlarda matn, tavsif va ta’riflar saqlanadi, faktografik IQTlar esa jadvallar, formulalar, grafik ko’rinishidagi ma’lumotlarni o’z ichiga oladi. Shuningdek, aralash tabiatli IQTlar ham mavjud bo’lib, unda ham hujjatli, ham faktografik ma’lumotlar saqlanadi. IQTda qidiruvni ta’minlash uchun maxsus information qidiruv tillari mavjud. Informatsion qidiruv tillari bu formal til bo’lib, u IQTda saqlangan hujjatlarning mazmunini tavsiflash va so’rov uchun mo’ljallangan. Informatsion qidiruv tilida hujjatlarga ishlov berish protsedurasi indekslash deb ataladi. Indekslash natijasida har bir hujjatga IQTdagi ta’rif shakli yoziladi. Mazkur ko’p bosqichli jarayonda deskriptorli informatsion qidiruv tillari ishlatiladi. Hujjat mavzusi deskriptorlarning birlashuvi bilan yoziladi. Deskriptorlar sifatida so’zlar, terminlar, muayyan sohadagi boshlang’ich tushuncha va kategoriyalardan foydalaniladi. Deskriptorlarni kalit so’zlar deb nomlash ham mumkin. Deskriptorli til bilan ishlaydigan tizimlardan biri M.Taube tomonidan yaratilgan UNITERM tizimidir. Bu tizimda deskriptorlar sifatida hujjatning kalit so’zlari – unitermlar ishlatiladi. Demak, muayyan sohaning terminologiyasi, ya’ni deskriptorlar qidiruv tizimi va tezauruslarning asosini tashkil etadi. 100 Matnning asosiy mazmun-mundarijasini aks ettiradigan kalit so’zlar, terminlar, tayanch tushunchalar bazasi asosida kompyuterda lug’at tuziladi. Bunday lug’at informatsion qidiruv tezauruslari deb ataladi. Tezauruslar ensiklopedik va izohli lug’atlardan farqli ravishda til birliklarining matnda qo’llanish chastotasi va matnning predmet mundarijasini aks ettirish darajasiga qarab tuzilda. Bunda terminning mazmuniy tavsifi orqali bazadagi ma’lumotlar qidirilishiga mo’ljallangan bo’ladi. Terminlar tezaurusga qat’iy semantik prinsiplar asosida kiritiladi, bunda ularning gipo-geperonimik (tur-jins), holo-meronik (butun-bo’lak), iyerarxik (pog’onali) munosabatlari hamda assotsiativ mazmuniy bog’lanishlari e’tiborga olinishi lozim. Masalan, Wikipedia sahifasidan “tezaurus” terminining tavsifini olaylik: Теза́урус (от греч. Θησαυρός — сокровище) zamonaviy tilshunoslikda - leksik birliklar orasidagi semantik munosabatlarni (sinonimlar, antonimlar, paronimlar, giponimlar, gipernimlar va boshqalar) ko'rsatadigan umumiy yoki maxsus lug'atlarning maxsus turi. Shunday qilib, tezauriyalar, ayniqsa elektron formatda, alohida mavzu sohalarini tavsiflashning eng samarali vositalaridan biri hisoblanadi. Izohlovchi lug'atdan farqli o'laroq, Tezaurus ma'noni nafaqat ta'rif orqali, balki so'zni boshqa tushunchalar va ularning guruhlari bilan bog'lash orqali aniqlashga imkon beradi, buning natijasida uni sun'iy intellekt tizimlarida qo'llash mumkin. O'tmishda tezaurus atamasi birinchi navbatda tilning lug'atini matnlarda qo'llash misollari bilan maksimal to'liqlik bilan ifodalovchi lug'atlarni bildirgan. Shuningdek, tezaurus atamasi axborot nazariyasida sub'ekt ega bo'lgan barcha ma'lumotlarning yig'indisini ifodalash uchun ishlatiladi. Kategoriyalar: Morfologiya (tilshunoslik) | Sintaksis | Tilshunoslikning bo'limlari | Til darajalari Tezauri • Amara-kosha (Amara lugʻati) — birinchi va eng muhim sanskritcha tezaurus (3—4-asr) • Soʻzning zamonaviy maʼnosidagi birinchi tezaurus Rogetning inglizcha tezaurusi (19-asr, 15 mingga yaqin sinset) boʻldi. • Vikilug'at: ko'p tilli bepul lug'at va tezaurus (2004 yildan hozirgacha, Vikimedia jamg'armasi loyihasi, Ruscha Vikilug'atda (2009 yil yanvar) 250 ming tushuncha, 67 ming munosabatlar [1]) 101 • RuThez - rus tilining tezaurusi til (Axborot tadqiqotlari markazi tomonidan avtomatik indeksatsiya vositasi sifatida yaratilgan; 1997 yildan hozirgacha ishlab chiqilgan, 45 ming tushuncha, 107 ming soʻz va ibora, 177 ming aloqa) Shuningdek qarang • Vikilugʻat • Ideografik lugʻat • Ruscha semantik lugʻat • Semantik tahlil • Semantik veb-havolalar • www.thesaurus.com — Ingliz tilining tezaurusi • Zaxarov NV, Lukov AV Tezaurus tahlil maktabi // Bilim. Tushunish. Malaka. - 2006. - No 1. - S. 231-233. • Lesnikov S. V., Lesnikova D. S. Axborot-qidiruv tezaurusi • Lukov A. V. Tezaurining fraktalligi (maqolada «fraktal» so'zining tarjimasi asosidagina tezaurusning fraktalligi haqida xulosa qilinadi) • Lukov Val. A., Lukov Vl. A. Gumanitar fanlarda tezaurus yondashuvi Virtual ensiklopedia sanalgan Wikipediada keltirilgan “tezaurus” so’ziga bag’ishlangan lug’at maqolasida semantik munosabatlar, assotsiativ bog’lanishlar hamda iyerarxiya munosabati yaqqol ko’zga tashlanadi. Shu o’rinda ta’kidlash zarurki, keyingi paytlarda qidiruv tizimlari bazasidagi tezauruslar giperhavolalar bilan ham ta’minlanmoqda, bu esa userga bir muncha qulayliklar yaratadi. Ya’ni qidirilayotgan terminlarga aloqador bo’lgan boshqa yaqin tushunchalar bilan bog’liq ma’lumotlarni ham oson topish imkonini beradi. Ilm-fan, texnika taraqqiyoti intensiv ravishda rivojlanyotgan bu davrda terminlar dinamikasini e’tiborga olgan holda tezauruslar bazasini muttasil to’ldirib, boyitib borish zarur. Chunki til ochiq dinamik tizim hamda jamiyat taraqqiyotining “barometri” hisoblanadi, ya’ni ayrim tushunchalar eskiradi, ularning o’rniga yangi tushuncha va terminlar yuzaga keladi. Informatsion qidiruv tezauruslar yaratishda mana shuni doimo e’tiborga olish lozim. Xalqaro INFOTERM (Xalqaro terminologik markaz, Avstriya) tashkilotining ma’lumotiga ko’ra hozirgi kunda tillardagi terminlar miqdori 50 million, mahsulot nomlari miqdori 100 millionni tashkil etadi. Lekin ushbu statistik ma’lumot turg’un emas, u jamiyat taraqqiyoti bilan yonma-yon o’zgarib turadi. 102 Kompyuter lingvistikasida inqilobiy o’zgarish yasagan yangilik bu gipertekst texnologiyasi hisoblanadi. Chunki bu tizim Guttenberg asos solgan kitob bosish texnologiyasiga zid ravishda yangi turdagi matn strukturasini vujudga keltirdi. Gipertekst g’oyasi AQSH prezidenti F.Ruzveltning fan va ta’lim bo’yicha maslahatchisi Vannevar Bush nomi bilan bog’liq bo’lib, u foydalanuvchiga matn va uning fragmentlarini turli assotsiativ munosabatlar asosida bog’lashga imkon beruvchi “MEMEKS” tizimini nazariy jihatdan asoslab berdi. U 1945 yilda “The Atlantic Monthly” jurnalida “Memeks” deb atalgan kelajakdagi xayoliy qurilma haqida “As We May Think” (“Biz o’ylaganimiz kabi”) nomli maqolasini e’lon qildi. V.Bush o’sha qurilmani kutubxonadagi har qanday hujjatlar, yozishmalar, kitoblarni displeyda ko’rsatib bera oladigan, cheklanmagan mikrofilmlarga ulangan elektromexanik stol sifatida tasvirlaydi. Kompyuter texnikasining yo’qligi bois loyihaning amalda qo’llanishi bir oz keyinga surildi. Bushning g’oyasi gipertekst haqidagi nazariy va amaliy izlanishlar juda katta ta’sir ko’rsatdi. Bushning kelajak loyihasi 1960 yilda T.Nelsonning “Ksanadu” tizimi orqali qayta ko’tarildi. Bu texnik tizim kiritilgan matnlarni va uning qismlarini turli xil usullarda, har xil qatorda, ixtiyoriy ketma-ketlikda o’qishga imkon beradi. Bu esa ko’rilgan matnlarning o’rnini, ketma-ketligini eslab qolishga va xohlagan vaqtda o’zingiz uchun kerakli matnni tanlab olishga va tezkor murojaat etishga yordam beradi. Bunday xususiyatga ega bo’lgan matnlarni T.Nelson gipertekst deb nomladi. 1968 yil dekabrda amerikalik olim Duglas Engelbart ham o’zi yaratgan gipertekst interfeysini e’lon qildi. Olim uni “The Mother of All Demos” deb atadi. 1983 yilda Ben Shneyderman ham o’z gipertekst loyihasini yaratdi, ushbu loyiha The Interactive Encyclopedia System (TIES) deb nomlangan.82 1992 yilda birinchi marta gipertekst World Wide Web (xalqaro to’r)ga tatbiq etildi.


1


2


3


4


Download 59.31 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling