Modul nomi: Katta ma’lumotlar tahliliga kirish (kirish kursi) Kurs haqida
Download 1.56 Mb.
|
Введение в аналитику больших массивов данных (Вводный курс) (1)
- Bu sahifa navigatsiya:
- Bosqichni
Bosqich aralashtirish . Bu foydalanuvchining e'tiboridan chetda qoladi. Ushbu bosqichda Xarita funksiyasining chiqishi qutilarga ajratiladi: har bir quti Xarita bosqichining bitta chiqish tugmachasiga mos keladi. Kelajakda ushbu "savatlar" Reduce uchun kirish bo'lib xizmat qiladi .
Bosqichni qisqartirish . Aralashtirish bosqichida hosil qilingan qiymatlarga ega har bir "savat" Reduce funksiyasining kirishiga kiradi . Kamaytirish funktsiyasi foydalanuvchi tomonidan belgilanadi va ma'lum bir "savat" uchun yakuniy natijani hisoblab chiqadi. Kamaytirish funktsiyasi tomonidan qaytarilgan barcha qiymatlar to'plami yakuniy natijadir MapReduce vazifalari (6-rasm) 52 . Guruch. 6. MapReduce algoritmining bosqichlari MapReduce algoritmining xususiyatlari . Xarita va qisqartirish funksiyalarining barcha ishga tushirilishi mustaqil ishlaydi va parallel ravishda, shu jumladan turli klaster mashinalarida ham ishlashi mumkin. Shaffle ichki ravishda parallel tartibni ifodalaydi, shuning uchun u turli klasterli mashinalarda ham ishlashi mumkin. 1-2-bandlar gorizontal o'lchovlilik tamoyilini ta'minlaydi. A dan Z gacha bo'lgan katta ma'lumotlar. 36 Xarita funktsiyasi odatda ma'lumotlar saqlanadigan bir xil mashinada qo'llaniladi, bu sizga tarmoq orqali ma'lumotlar uzatishni kamaytirish imkonini beradi (ma'lumotlarning joylashuvi printsipi). MapReduce har doim ma'lumotlarni to'liq skanerlashdir, ya'ni javob juda tez talab qilinganda algoritm yomon qo'llaniladi. Keling, algoritm qanday ishlashini misol qilib ko'rib chiqaylik. Aytaylik, vazifa Internetdagi barcha sahifalarda Ivan Ivanov, Petr Petrov va Sidor Sidorov haqidagi barcha eslatmalarni sanashdir. Katta hajmdagi ma'lumotlarni tahlil qilish kerak bo'ladi va bitta tugun uchun bunday vazifa juda qiyin. MapReduce algoritmidan foydalanib , siz barcha sahifalarni qismlarga bo'lishingiz va ularning tahlillarini klasterning turli tugunlariga tarqatishingiz mumkin. Birinchidan, sahifalardagi ma'lumotlar Xarita funktsiyasiga beriladi , agar mos keladigan bo'lsa, kalit-qiymat juftligini qaytaradi. Bu (Ivan Ivanov, 1), (Peter Petrov, 1), (Sidor Sidorov, 1) bo'ladi. Shunday qilib, har safar kerakli odamlar haqida eslatma topilganda, Map funksiyasi kalit (ism va familiya) va eslatma topilganligini bildiruvchi qiymatni qaytaradi. Natijada quyidagi rasm bo'ladi: * (Sidor Sidorov, 1) * (Ivan Ivanov, 1) * (Pyotr Petrov, 1) * (Sidor Sidorov, 1) * (Ivan Ivanov, 1) Keyin ma'lumot uni qisqartirish funktsiyasiga o'tkazish orqali to'planadi, u kalit-qiymat juftligini ham chiqaradi, lekin qayta ishlangan shaklda: * (Sidor Sidorov, 2) * (Ivan Ivanov, 2) * (Pyotr Petrov, 1) 53 A dan Z gacha bo'lgan katta ma'lumotlar. 37 Vazifa bajarildi, kerakli ma'lumotlar olindi. Sxematik ravishda algoritmning ishlashi 7-rasmda ko'rsatilgan. Guruch. 7. MapReduce algoritmining ishlash sxemasi MapReduce algoritmi katta maʼlumotlar (ijtimoiy tarmoqlar, narsalar interneti, bank sektori, tadqiqot va ishlanmalar) bilan ishlaydigan tizimlarni yaratish uchun boshlangʻich nuqtaga aylandi. va boshqalar), va Google -ga qidiruv resursi samaradorligini oshirishga yordam berdi 54 . Klassik MapReduce algoritmi bitta xususiyatga ega: algoritm natijalarining butun zanjiri disk quyi tizimida saqlanadi. Va unda ko'plab o'qish va yozish operatsiyalari mavjud bo'lib, bu algoritmning ishlash vaqtiga ta'sir qiladi. MapReduce algoritmi katta ma'lumotlar bilan ishlash uchun asos yaratib , ularni boshqarish uchun yangi, yanada rivojlangan vositalarning paydo bo'lishini boshladi. Download 1.56 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling