Modul nomi: Katta ma’lumotlar tahliliga kirish (kirish kursi) Kurs haqida


Download 1.56 Mb.
bet27/74
Sana29.01.2023
Hajmi1.56 Mb.
#1138295
1   ...   23   24   25   26   27   28   29   30   ...   74
Bog'liq
Введение в аналитику больших массивов данных (Вводный курс) (1)

Apache Software Foundation 55 .
Keling, ushbu vositalarni batafsil ko'rib chiqaylik.


1. Hadoop platformasi Java tilida yozilgan, katta hajmdagi ma’lumotlar bilan operatsiyalarni bajarish uchun ishlatilishi mumkin bo‘lgan ochiq kodli dasturlar to‘plamidir. Hadoop kengaytiriladigan, taqsimlanadigan va xatolarga chidamli ekotizimdir.
Hadoop Dag Cutting va Mayk Cafarell tomonidan ishlab chiqilgan



  • 2006 yil Ularning loyihasi D. Cuttingning o'g'lining o'yinchoq fili sharafiga nomlangan. Ikki yil o'tgach, Hadoop 10 000 protsessor yadrolarida o'rnatilgan taqsimlangan qidiruv tizimini ishga tushirdi. Hadoop -ning asosini taqsimlangan HDFS fayl tizimi va taqsimlangan hisoblash algoritmi Hadoop MapReduce tashkil etadi.



Platforma muayyan muammolarni hal qiladigan tizimlarni yaratish uchun mustaqil yoki boshqalar bilan birgalikda ishlaydigan bir necha o'nlab loyihalarni o'z ichiga oladi. Hadoop katta ma'lumotlar bilan ishlashning barcha jihatlarini qamrab oluvchi vositalarni o'z ichiga oladi : fayl tizimlari ( HDFS, MapR-FS ); taqsimlangan hisoblash uchun ramkalar ( MapReduce, Spark ); NoSQL ma'lumotlar bazalari va SQL dvigatellari ( HBase, Hive, Spark SQL ); tashqi manbalardan ma'lumotlarni olish va relyatsion ma'lumotlar bazasini boshqarish tizimlari (DBMS) bilan integratsiya qilish vositalari - Flume, Kafka, Sqoop ; ishlov berish oqimlarini qurish va ma'lumotlarni yuklash uchun vositalar, shu jumladan uzluksiz ma'lumotlar
lehimlash ( Spark Streaming, Storm, Flink, NiFi ) va boshqalar. 56



  1. Spark va sparklyr katta ma'lumotlar bilan ishlash uchun R [Elektron

manba]. URL: https://r-analytics.blogspot.com/2020/02/spark-intro.html (kirish sanasi)


Sana: 07.06.2020).

  1. Borodaenko V., Ermakov A. Og'riqni qayta ishlash uchun universal platforma

[Elektron resurs]. URL: https://www.osp.ru/os/2017/03/13052699
(kirish sanasi: 05.07.2020).

40


Hadoop ning asosiy komponentlari :



  • Hadoop MapReduce - ma'lumotlar bazasidan ma'lumotlarni yuklash, uni formatlash va miqdoriy tahlil qilish uchun ishlatiladi;







  • Distributed File System (HDFS) har qanday mumkin bo'lgan formatdagi har qanday turdagi fayllar uchun klasterli saqlash tizimi bo'lib, nosozliklarga chidamlilik, yuqori ma'lumotlar o'tkazuvchanligini ta'minlash uchun mo'ljallangan.

Hadoop tizimi turli kompaniyalar va tashkilotlar tomonidan qo'llaniladi , masalan, Yahoo - ma'lumotlarni qidirishda; Facebook - jurnallar / ma'lumotlar omborlarini qayta ishlashda; New York Times - video/tasvirlarni tahlil qilishda va hokazo. 57
Hadoop platformasining afzalliklari quyidagilardan iborat:



  • ma'lumotlarni qayta ishlash vaqtini qisqartirish;




  • uskunalar narxini pasaytirish;







  • chiziqli miqyoslilik;




  • tuzilmagan ma'lumotlar bilan ishlash 58 .



1   ...   23   24   25   26   27   28   29   30   ...   74




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling