Modul nomi: Katta ma’lumotlar tahliliga kirish (kirish kursi) Kurs haqida

Download 1.56 Mb.

bet	24/74
Sana	29.01.2023
Hajmi	1.56 Mb.
	#1138295

1 ... 20 21 22 23 24 25 26 27 ... 74

Bog'liq
Введение в аналитику больших массивов данных (Вводный курс) (1)

Klaster
Bosqich

MapReduce - bu qayta ishlash jarayonini ikkita oddiy funktsiyaga bo'lish texnologiyasi: Map va Reduce . Bitta vazifa bir-biri bilan parallel ravishda bajariladigan cheksiz ko'p sonli kichik kichik vazifalarga bo'linadi va keyin olingan natija shunchaki qo'shiladi. Shunday qilib, MapReduce -da kiritilgan ma'lumotlar ko'p qismlarga bo'linadi, ularning har biri keyinchalik ko'rsatilgan guruhlash funktsiyasiga ( groupby ) muvofiq qayta ishlash va keyingi yig'ish uchun boshqa kompyuterga yuboriladi.

Bitta katta topshiriqning har bir qismi bitta klaster ^{49 tugunlaridan biriga ishlov berish uchun berilishi mumkin}.

Klaster - bu birgalikda ishlaydigan, umumiy vazifalarni bajaradigan va mijozlar ularni bitta tizim sifatida ko'radigan serverlar guruhi (tugunlar deb ataladi). Klasterda ko'plab serverlar bo'lishi mumkin. Masalan, Yahoo ning Hadoop klasterida 42 000 dan ortiq mashinalar mavjud.

Katta ma'lumotlarni tahlil qilish: Spark va Hadoop [Elektron resurs]. URL: https://coincase.ru/blog/47715/ (kirish sanasi: 20.06.2020).

Katta ma'lumotlar tarixi (Big Data) - 2-qism [Elektron resurs].

URL: https://www.computerra.ru/234346/istoriya-bolshih-dannyh-big-data-chast-2/
(kirish sanasi: 07.03.2020).

Maxsus apparat va dasturiy ta'minot tufayli bitta server bilan mumkin bo'lmagan nosozliklardan himoya qilish darajasi amalga oshiriladi. Agar serverlardan biri ishlamay qolsa, u bajargan vazifalar boshqa server tomonidan qabul qilinadi va tizimning ishlashi tiklanadi. Shu bilan birga, foydalanuvchilar faqat vaqtinchalik ishlashning yo'qolishini sezadilar va ba'zida ular hech narsani sezmaydilar (qisqa pauzadan tashqari) ⁵⁰.

Axborot hajmining ortishi bilan klaster vazifada belgilangan hajmgacha kengaytirilishi kerak.
MapReduce algoritmi taqsimlangan hisoblash uchun model bo'lib, katta ma'lumotlarni parallellashtirish uchun kompyuterlar klasteridan foydalaniladi, bu esa ularni qayta ishlashni osonlashtiradi. Kirish ma'lumotlarini oldindan qayta ishlash uchun taqsimlangan fayl tizimining ishchi tugunlariga ( alohida tugunlar) taqsimlash, so'ngra allaqachon qayta ishlangan ma'lumotlarni konvolyutsiya (birlashtirish) mavjud.

Yakuniy summani olish uchun algoritm bir vaqtning o'zida taqsimlangan fayl tizimining har bir tugunidagi oraliq summalarni hisoblab chiqadi va keyin ushbu oraliq qiymatlarni ^{yig'adi 51}.

MapReduce algoritmida ma'lumotlarni qayta ishlash uch bosqichda sodir bo'ladi (7-rasm).

1. Bosqich xaritasi. Ushbu bosqichdagi ish funktsional dasturlash tillarida ma'lumotlarni oldindan qayta ishlash va filtrlashdan iborat.
Bitta kirish yozuviga qo'llaniladigan Xarita funksiyasi ko'plab kalit-qiymat juftliklarini hosil qiladi (u faqat bitta yozuvni qaytarishi mumkin, hech narsa qaytara olmaydi yoki bir nechta kalit-qiymat juftlarini qaytarishi mumkin). Kalitda va qiymatda nima bo'lishi foydalanuvchiga bog'liq, ammo kalit juda muhim narsa, chunki bitta kalitli ma'lumotlar kelajakda Reduce funktsiyasining bir nusxasida tugaydi .

Klasterlarga kirish [Elektron resurs]. URL: https://onix.kiev.ua/news.aspx?id=172 (kirish sanasi: 18.06.2020).
Katta ma'lumotlar inqilobi.

Download 1.56 Mb.

Do'stlaringiz bilan baham:

1 ... 20 21 22 23 24 25 26 27 ... 74