Apache Hadoop and Spark: Introduction and Use Cases for Data Analysis


MapReduce so'zlarni hisoblash misoli


Download 1.05 Mb.
bet5/11
Sana13.03.2023
Hajmi1.05 Mb.
#1265753
1   2   3   4   5   6   7   8   9   10   11
Bog'liq
PRESENTATION FOR HOOK JASUR

MapReduce so'zlarni hisoblash misoli


tugun
Xarita
fayl
A
B
C
D
tugun
Xarita
A
tugun
Xarita
tugun
Xarita
B
C
D
tugun
Kamaytirish
tugun
Kamaytirish
F
tugun
Kamaytirish
tugun
Kamaytirish
E
G
H
Aralash
&
Saralash
Men S _
Sem men
(I,1)
(am, 1)
(Sam, 1)
(I,1)
(am, 1)
(Sam, 1)
(I,2)
(am, 2)
(Sam, 2)
(…,..)
(..,..)
………
………

MapReduce- ning kamchiligi

  • Maʼlumotlaringizni Xarita va qisqartirishga majburlaydi
  • Diskdan Diskka (HDFS) "Acyclic Ma'lumotlar oqimi" asosida
  • Xarita va qisqartirishdan oldin va keyin Diskka o'qing va yozing (davlatsiz mashina)
  • Faqat Java mahalliy tomonidan qo'llab-quvvatlanadi
    • Boshqa tillarni qo'llab-quvvatlash kerak
  • Faqat ommaviy qayta ishlash uchun
    • Interaktivlik, oqimli ma'lumotlar

Bitta yechim - Apache Spark

  • MapReduce-ning ko'pgina kamchiliklarini hal qiladigan yangi umumiy tizim
  • Hadoop ekotizimidan foydalanishga qodir , masalan, HDFS, YARN, HBase , S3, ...
  • Boshqa ko'plab ish oqimlari mavjud, ya'ni qo'shilish, filtrlash, flatMapdistinct , groupByKey , reduceByKey , sortByKey , yig'ish, hisoblash, birinchi ...
    • (taxminan 30 ta samarali taqsimlangan operatsiyalar)
  • Ma'lumotlarni xotirada keshlash (iterativ, grafik va mashinani o'rganish algoritmlari va boshqalar uchun)
  • Native Scala, Java, Python va R-ni qo'llab-quvvatlash
  • Tadqiqot ma'lumotlarini tahlil qilish uchun interaktiv qobiqlarni qo'llab-quvvatlaydi
  • Spark API-dan foydalanish juda oddiy
  • AMPLab UC Berkeleyda ishlab chiqilgan , hozir Databricks.com tomonidan

Download 1.05 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   11




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling