O’g’lining “Axborotlarni izlash va ajratib olish


Download 1.22 Mb.
bet2/3
Sana13.04.2023
Hajmi1.22 Mb.
#1352256
1   2   3
Bog'liq
Zohirjon Sharipov Ax Iz Va Aj Ol

Web Crawler nima ?
Web-Crawler (Web-o'rgimchak yoki veb-robot sifatida ham tanilgan) - bu Butunjahon Internet web resurslarini, avtomatlashtirilgan tarzda ko'rib chiqadigan dastur yoki avtomatlashtirilgan skript hisoblanadi. Bu jarayon Internetda skanerlash yoki o'rgimchak harakati deb ham ataladi. Web Crawlerlarsiz qidiruv tizimlari tashkil qilish deyarli imkonsiz. Chunki Web Crawler orqali biz web sahifadagi kerakli resurslarni indekslash imkoniyatiga ega bo'lamiz. soddaroq tushuntiradigan bo'lsak. Web-crawler - bu Internet orqali veb-sayt tarkibi va boshqa ma'lumotlarni qidirish va avtomatik ravishda indekslash uchun ishlatiladigan web dasturdir.



Web Crawler qanday ishlaydi ?
Google yoki Bing kabi qidiruv tizimlari foydalanuvchi qidiruvlariga javoban tegishli ma'lumotlarni va veb-saytlarni ko'rsatish uchun veb-crawlerlar tomonidan to'plangan ma'lumotlarga qidiruv algoritmini qo'llaydi. Agar dasturchi yoki veb-sayt egasi o'z veb-saytini qidiruv tizimida o'rin egallashini xohlasa, avval uni indekslash kerak. Agar veb-sahifalar tekshirilmasa va indekslanmasa, qidiruv tizimi ularni ongli ravishda topa olmaydi.
Veb-Crawler maʼlum URL manzillar roʻyxatidan boshlab, veb-sahifalarni koʻrib chiqish va toifalarga ajratish orqali ishlaydi. Har bir sahifani ko'rib chiqishdan oldin veb-crawler veb-sahifaning robots.txt faylini ko'rib chiqadi, bu veb-saytga kiradigan botlarning qonun-qoidalarini belgilaydi. Ushbu qoidalar qaysi sahifalarni skanerlash mumkinligini va ularga amal qilish mumkin bo'lgan havolalarni belgilaydi.Keyingi veb-sahifaga o'tish uchun, crawler paydo bo'lgan giperhavolalarni topadi va kuzatib boradi.

Web Crawler qanday turlari mavjud ?

Rasmda ko'rib turganinggizdek crawlerlashning 5 xil turi mavjud. Veb-sahifada crawler meta teglar deb ataladigan nusxa va tavsifiy ma'lumotlarni saqlaydi va keyin qidiruv tizimi kalit so'zlarni skanerlashi uchun uni indekslaydi. Bu jarayon keyinchalik sahifa soʻrov boʻyicha qidiruv natijalarida koʻrsatilishini hal qiladi va agar shunday boʻlsa, muhimlik tartibida indekslangan veb-sahifalar roʻyxatini qaytaradi.


Agar veb-sayt egasi o'z sayt xaritasini qidiruv tizimlariga saytni ko'rib chiqish uchun taqdim qilmasa , veb-brauzer unga bog'langan indekslangan saytlardan havolalar orqali veb-saytni topishi mumkin bo'ladi, lekin bu jarayon da qidirilgan ma'lumot o'rni eng quyi pog'onalarda joylashadi.
Ko'pgina mashhur qidiruv tizimlarida veb-sahifalar haqida ma'lumot to'plash uchun ma'lum bir algoritmdan foydalanadigan o'z veb-crawlerlari mavjud.


Web Indeks.

"Indeks" so'zi Kompyuter va hisoblash tizimlarida ko'p narsalarni anglatishi mumkin, ammo qidiruv tizimlarida uni quyidagicha talqin qilinadi:


Web sahifalardagi Crawlerlar harakati davomida avtomatik indekslash jarayoni ham amalga oshiriladi bunda har bir indeks ma'lumotlari qidiruv tizimining ma'lumotlar omboriga saqlanadi.
Agarda web sahifada biror o'zgarish bo'lsa Crawlerlar uni darhol aniqlaydi va index bazasi yangilanadi. Sodda qilib tushuntirilganda Indexlash bu internetdagi har bir resursni ma'lum bir kalit so'zlar bilan belgilash .Albatta bu jarayonlar orqali asosiy maqsad qidiruv tizimini mukammallashtirish va foydalanuvchiga aniq so'rovi bo'yicha aniq ma'lumot taqdim etish.

Download 1.22 Mb.

Do'stlaringiz bilan baham:
1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling