Big data tahlili


Download 1.27 Mb.
bet59/71
Sana25.02.2023
Hajmi1.27 Mb.
#1229835
1   ...   55   56   57   58   59   60   61   62   ...   71
Bog'liq
A.X.Ruzmetov Qollanma

9-2-rasm. Kichik Hadoop klasteridagi ish oqimi va maumotlar harakati.

HDFS va MapReduce o‘z ishlarini an’anaviy serverlar ustunlarida joylashgan klaster tugunlarida bajaradilar. Muhokamani soddalashtirish uchun diagrammada faqat ikkita tugun ko‘rsatilgan.


Ma’lumotlarni tayyorlash
Mijoz MapReduce dasturini ishga tushirishni talab qilganda, birinchi navbatda qayta ishlanmagan ma’lumotlarni o‘z ichiga olgan kirish faylini topish va o‘qish kerak. Fayl formati mutlaqo o‘zboshimchalik bilan amalga oshiriladi, ammo ma’lumotlar dasturni qayta ishlashi mumkin bo‘lgan narsaga aylantirilishi kerak. Bu InputFormat va RecordReader (RR) funktsiyasi.
InputFormat faylni qayta ishlash uchun qanday qilib kichik qismlarga ajratilishini InputSplit funktsiyasi yordamida hal qiladi. Keyinchalik, xaritani qayta ishlash uchun qayta ishlanmagan ma’lumotlarni o‘zgartirish uchun RecordReader-ni tayinlaydi. Agar 8-bobda xaritani muhokama qilishni o‘qigan bo‘lsangiz, bilasizki, unga ikkita kirish kerak bo‘ladi: kalit va qiymat. RecordReaders ning bir nechta turlari Hadoop bilan ta’minlangan bo‘lib, keng konvertatsiya qilish imkoniyatlarini taklif etadi. Bu xususiyat - Hadoop katta ma’lumotlar muammolarida topilgan juda ko‘p turdagi ma’lumotlarni boshqarish usullaridan biridir.
Solishtirishni boshlash
Ma’lumotlaringiz endi mos keladigan shaklda. Har bir kirish juftligi uchun ma’lumotlarni qayta ishlash uchun alohida map nusxasi chaqiriladi. Ammo bu qayta ishlangan mahsulot bilan nima qiladi va uni qanday kuzatishingiz mumkin? map savollarga javob berish uchun ikkita qo‘shimcha imkoniyatga ega. Ma’lumotlaringizni qayta ishlash uchun map va reduce birgalikda ishlashi kerakligi sababli, dastur mustaqil kartograflardan olingan natijalarni to‘plashi va reduktorlarga berishi kerak. Ushbu vazifani OutputCollector bajaradi. Reporter xususiyati shuningdek, map vazifalari bo‘yicha to‘plangan ma’lumotlarni taqdim etadi, shuning uchun map vazifalari qachon bajarilganligini bilib olasiz.
Bu ishlarning barchasi bir vaqtning o‘zida Hadoop klasteridagi bir nechta tugunlarda amalga oshiriladi. Reduktorlarni ishga tushirishdan oldin ma’lum xaritalash jarayonlarining natijalarini to‘plash kerak bo‘lgan holatlarga duch kelishingiz mumkin. Yoki, ba’zi oraliq natijalarni kesishdan oldin qayta ishlash kerak bo‘lishi mumkin. Bundan tashqari, ushbu tugunning bir qismi shu tugun uchun reduktorlar ishlaydigan tugundan tashqari boshqa tugunda bo‘lishi mumkin. Oraliq natijalarni yig‘ish va aralashtirish qismlarga ajratuvchi va saralovchi tomonidan amalga oshiriladi. Xarita vazifalari natijalarni ma’lum bir bo‘limga, reduce vazifalariga kirish sifatida yetkazib beradi. Xaritaning barcha vazifalari bajarilgandan so‘ng, oraliq natijalar bo‘limga yig‘iladi va qisqartirish yordamida optimal ishlov berish uchun aralashtirish, saralash amalga oshiriladi.

Download 1.27 Mb.

Do'stlaringiz bilan baham:
1   ...   55   56   57   58   59   60   61   62   ...   71




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling