Maʼlumotlaringizni Xarita va qisqartirishga majburlaydi
Boshqa ish oqimlari etishmayotgan birlashma, filtr, flatMap , groupByKey , birlashma, kesishish, ...
Diskdan Diskka (HDFS) "Acyclic Ma'lumotlar oqimi" asosida
Xarita va qisqartirishdan oldin va keyin Diskka o'qing va yozing (davlatsiz mashina)
Iterativ vazifalar, ya'ni Machine Learning uchun samarali emas
Faqat Java mahalliy tomonidan qo'llab-quvvatlanadi
Boshqa tillarni qo'llab-quvvatlash kerak
Faqat ommaviy qayta ishlash uchun
Interaktivlik, oqimli ma'lumotlar
Bitta yechim - Apache Spark
MapReduce-ning ko'pgina kamchiliklarini hal qiladigan yangi umumiy tizim
Hadoop ekotizimidan foydalanishga qodir , masalan, HDFS, YARN, HBase , S3, ...
Boshqa ko'plab ish oqimlari mavjud, ya'ni qo'shilish, filtrlash, flatMapdistinct , groupByKey , reduceByKey , sortByKey , yig'ish, hisoblash, birinchi ...
(taxminan 30 ta samarali taqsimlangan operatsiyalar)
Ma'lumotlarni xotirada keshlash (iterativ, grafik va mashinani o'rganish algoritmlari va boshqalar uchun)
Native Scala, Java, Python va R-ni qo'llab-quvvatlash
Tadqiqot ma'lumotlarini tahlil qilish uchun interaktiv qobiqlarni qo'llab-quvvatlaydi
Spark API-dan foydalanish juda oddiy
AMPLab UC Berkeleyda ishlab chiqilgan , hozir Databricks.com tomonidan
Spark Disk o'rniga xotiradan foydalanadi
Takrorlash 1
Takrorlash 2
HDFS o'qiladi
Takrorlash 1
Takrorlash 2
HDFS
o'qing
HDFS
Yozing
HDFS
o'qing
HDFS
Yozing
Spark: Xotirada ma'lumotlarni almashish
Hadoop : Ma'lumot almashish uchun diskdan foydalaning
Do'stlaringiz bilan baham: |