Apache Spark platformasi . U tezlikda farqlanadi, bu MapReduce -dan taxminan yuz barobar tezroq (oraliq natijalar saqlanmaydi va hamma narsa xotirada amalga oshiriladi).
U odatda saqlangan va real vaqtda ma'lumotlarni o'qish, katta hajmdagi ma'lumotlarni oldindan qayta ishlash ( SQL ), mashinani o'rganish va grafik tarmoqlar yordamida ma'lumotlarni tahlil qilish uchun ishlatiladi.
Apache Spark Python, R va Scala kabi dasturlash tillari bilan ishlatilishi mumkin . Amazon Web Services, Microsoft Azure kabi bulutli ilovalar odatda Spark ni ishga tushirish uchun ishlatiladi.
Spark yordamida katta ma'lumotlar elastik taqsimlangan ma'lumotlar to'plamlari ( RDD ) yordamida parallellashtiriladi .
Katta ma'lumotlarni tahlil qilish: Spark va Hadoop.
Nazarenko Yu. L. Katta ma'lumotlar texnologiyasi va ularni tahlil qilish va qayta ishlash uchun ishlatiladigan dasturiy va apparat vositalariga umumiy nuqtai // Evropa fani, 2017. No 9 (31).
41
Ular nosozliklarga chidamli va tugunlardan birortasi ishlamay qolsa, yo'qolgan ma'lumotlarni qayta tiklashi mumkin.
RDDlar Spark da ikki turdagi operatsiyalarni bajarish uchun ishlatilishi mumkin : transformatsiyalar va harakatlar. Transformatsiyalar RDD (Resilient Distributed Dataset) dan yangi ma'lumotlar to'plamini yaratadi va ularni RDD natijasida qaytaradi (masalan, displey, filtr
asosiy operatsiyalar uchun kesish). Harakat chaqirilganda barcha transformatsiyalar faqat bir marta amalga oshiriladi (ular bajarilish xaritasiga joylashtiriladi va keyin harakat chaqirilganda bajariladi) 59 .
Ikkala platforma ham katta ma'lumotlar bilan muvaffaqiyatli ishlash imkonini beradi. Hadoop MapReduce -ni keng miqyosda taqdim etgan birinchi tizim edi , ammo hozirda Apache Spark ko'plab kompaniyalar tomonidan ma'qullanadi .
Do'stlaringiz bilan baham: |