tugun
Xarita
fayl
A
B
C
D
tugun
Xarita
A
tugun
Xarita
tugun
Xarita
B
C
D
tugun
Kamaytirish
tugun
Kamaytirish
F
tugun
Kamaytirish
tugun
Kamaytirish
E
G
H
Aralash
&
Saralash
Men S _
Sem men
(I,1)
(am, 1)
(Sam, 1)
(I,1)
(am, 1)
(Sam, 1)
(I,2)
(am, 2)
(Sam, 2)
(…,..)
(..,..)
………
………
MapReduce- ning kamchiligi - Maʼlumotlaringizni Xarita va qisqartirishga majburlaydi
- Diskdan Diskka (HDFS) "Acyclic Ma'lumotlar oqimi" asosida
- Xarita va qisqartirishdan oldin va keyin Diskka o'qing va yozing (davlatsiz mashina)
- Faqat Java mahalliy tomonidan qo'llab-quvvatlanadi
- Boshqa tillarni qo'llab-quvvatlash kerak
- Faqat ommaviy qayta ishlash uchun
- Interaktivlik, oqimli ma'lumotlar
Bitta yechim - Apache Spark - MapReduce-ning ko'pgina kamchiliklarini hal qiladigan yangi umumiy tizim
- Hadoop ekotizimidan foydalanishga qodir , masalan, HDFS, YARN, HBase , S3, ...
- Boshqa ko'plab ish oqimlari mavjud, ya'ni qo'shilish, filtrlash, flatMapdistinct , groupByKey , reduceByKey , sortByKey , yig'ish, hisoblash, birinchi ...
- (taxminan 30 ta samarali taqsimlangan operatsiyalar)
- Ma'lumotlarni xotirada keshlash (iterativ, grafik va mashinani o'rganish algoritmlari va boshqalar uchun)
- Native Scala, Java, Python va R-ni qo'llab-quvvatlash
- Tadqiqot ma'lumotlarini tahlil qilish uchun interaktiv qobiqlarni qo'llab-quvvatlaydi
- Spark API-dan foydalanish juda oddiy
- AMPLab UC Berkeleyda ishlab chiqilgan , hozir Databricks.com tomonidan
Do'stlaringiz bilan baham: |