Modul nomi: Katta ma’lumotlar tahliliga kirish (kirish kursi) Kurs haqida

Download 1.56 Mb.

bet	29/74
Sana	29.01.2023
Hajmi	1.56 Mb.
	#1138295

1 ... 25 26 27 28 29 30 31 32 ... 74

Bog'liq
Введение в аналитику больших массивов данных (Вводный курс) (1)

Hadoop va Spark platformalari o'rtasidagi umumiy xususiyatlar va farqlar . Hadoop

Spark , katta ma'lumotlar muhiti bo'lib, bir xil vazifalarni bajarmaydi, ular bir-birini istisno qilmaydi, chunki ular birgalikda ishlashlari mumkin.

Taqsimlangan saqlash bugungi kundagi ko'plab yirik ma'lumotlar loyihalari uchun asosiy hisoblanadi, chunki u ulkan ko'p petabaytli ma'lumotlar to'plamlarini deyarli cheksiz sonli kompyuter qattiq disklarida saqlashga imkon beradi.

Biroq, Spark fayllarni taqsimlangan usulda (fayl tizimi) tashkil qilish uchun o'z tizimiga ega emas, shuning uchun u uchinchi tomon tomonidan taqdim etilgan tizimni talab qiladi. Shu sababli, ko'plab yirik ma'lumotlar loyihalari Spark -ni Hadoop ustiga o'rnatishni o'z ichiga oladi, bu erda zamonaviy Spark tahliliy ilovalari Hadoop Distributed File System (HDFS) yordamida saqlangan ma'lumotlardan foydalanishi mumkin .

Spark - ning Hadoop -dan ustunligi - bu tezlik. Spark o'zining aksariyat operatsiyalarini "xotirada" ulardan nusxa ko'chirish orqali amalga oshiradi

Katta ma'lumotlarni tahlil qilish: Spark va Hadoop.

42
jismoniy xotirani ancha tez mantiqiy RAMga taqsimladi. Bu Hadoop MapReduce ⁶⁰bilan solishtirganda yozish va o'qish vaqtlarini qisqartiradi .

Real vaqt rejimida oqimni qayta ishlash va mashinani o'rganish kabi murakkab ma'lumotlarni qayta ishlash vazifalarini hal qilish uchun Spark funksionalligi Hadoop tomonidan taqdim etilgan imkoniyatlardan ancha yuqori . Tezlikni oshirish bilan bir qatorda, bu Hadoop mashhurligining ortib borayotganining haqiqiy sababidir . Haqiqiy vaqtda ishlov berish ma'lumotlarni uzatish mumkinligini anglatadi

analitik dastur qabul qilingan paytda va har qanday harakatni amalga oshirish uchun asboblar paneli orqali darhol foydalanuvchiga uzatiladi. Ushbu turdagi qayta ishlash katta ma'lumotlarning barcha turlarida tobora ko'proq foydalanilmoqda.

tezligi va oqimli ma'lumotlarni qayta ishlash qobiliyati tufayli Spark platformasiga mos keladigan analitika sohasi . Ushbu turdagi texnologiya, masalan, zavoddagi mashina qismlari ishlamay qolishi va almashtirishga buyurtma berish kerak bo'lganda, bashorat qila oladigan eng yangi ilg'or ishlab chiqarish tizimlarida qo'llaniladi; ular avtomobillar va kemalarning haydovchisiz ishlashining ^{61 asosini tashkil qiladi}.

Spark ko'plab klasterli hisoblash texnologiyalarini qo'llab-quvvatlaydi va umumiy tahliliy vazifalarni hal qilish uchun bir nechta qo'shimcha kutubxonalarga ega, jumladan Spark SQL ( ma'lumotlar bo'yicha SQL kabi so'rovlar), MLlib (mashinani o'rganish algoritmlari), GraphX (grafik tahlili) va Spark Streaming ( oqimni qayta ishlash).ma'lumotlar) ⁶². Hadoop va Apache Spark o'rtasidagi asosiy farqlar Jadvalda keltirilgan. 1.

Spark yoki Hadoop - Big Data uchun qaysi platforma yaxshiroq? [Elektron resurs]. URL: http://spbdev.biz/blog/spark-ili-hadoop-kakaya-platforma-dlya-big-data-luchshe (kirish 18/06/2020).

Mana.
R-da katta ma'lumotlar uchun Spark va sparklyr.

1-jadval

Download 1.56 Mb.

Do'stlaringiz bilan baham:

1 ... 25 26 27 28 29 30 31 32 ... 74