Apache Hadoop and Spark: Introduction and Use Cases for Data Analysis

MapReduce so'zlarni hisoblash misoli

bet	5/11
Sana	13.03.2023
Hajmi	1.05 Mb.
	#1265753

1 2 3 4 5 6 7 8 9 10 11

Bog'liq
PRESENTATION FOR HOOK JASUR

MapReduce- ning kamchiligi
Bitta yechim - Apache Spark

MapReduce so'zlarni hisoblash misoli

tugun
Xarita
fayl
A
B
C
D
tugun
Xarita
A
tugun
Xarita
tugun
Xarita
B
C
D
tugun
Kamaytirish
tugun
Kamaytirish
F
tugun
Kamaytirish
tugun
Kamaytirish
E
G
H
Aralash
&
Saralash
Men S _
Sem men
(I,1)
(am, 1)
(Sam, 1)
(I,1)
(am, 1)
(Sam, 1)
(I,2)
(am, 2)
(Sam, 2)
(…,..)
(..,..)
………
………

MapReduce- ning kamchiligi

Maʼlumotlaringizni Xarita va qisqartirishga majburlaydi

Boshqa ish oqimlari etishmayotgan birlashma, filtr, flatMap , groupByKey , birlashma, kesishish, ...

Diskdan Diskka (HDFS) "Acyclic Ma'lumotlar oqimi" asosida
Xarita va qisqartirishdan oldin va keyin Diskka o'qing va yozing (davlatsiz mashina)

Iterativ vazifalar, ya'ni Machine Learning uchun samarali emas

Faqat Java mahalliy tomonidan qo'llab-quvvatlanadi

Boshqa tillarni qo'llab-quvvatlash kerak

Faqat ommaviy qayta ishlash uchun

Interaktivlik, oqimli ma'lumotlar

Bitta yechim - Apache Spark

MapReduce-ning ko'pgina kamchiliklarini hal qiladigan yangi umumiy tizim
Hadoop ekotizimidan foydalanishga qodir , masalan, HDFS, YARN, HBase , S3, ...
Boshqa ko'plab ish oqimlari mavjud, ya'ni qo'shilish, filtrlash, flatMapdistinct , groupByKey , reduceByKey , sortByKey , yig'ish, hisoblash, birinchi ...

(taxminan 30 ta samarali taqsimlangan operatsiyalar)

Ma'lumotlarni xotirada keshlash (iterativ, grafik va mashinani o'rganish algoritmlari va boshqalar uchun)
Native Scala, Java, Python va R-ni qo'llab-quvvatlash
Tadqiqot ma'lumotlarini tahlil qilish uchun interaktiv qobiqlarni qo'llab-quvvatlaydi
Spark API-dan foydalanish juda oddiy
AMPLab UC Berkeleyda ishlab chiqilgan , hozir Databricks.com tomonidan

Download 1.05 Mb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8 9 10 11