Apache Hadoop and Spark: Introduction and Use Cases for Data Analysis


Ma'lumotlarni qayta ishlash va mashinani o'rganish usullari


Download 1.05 Mb.
bet2/11
Sana13.03.2023
Hajmi1.05 Mb.
#1265753
1   2   3   4   5   6   7   8   9   10   11
Bog'liq
PRESENTATION FOR HOOK JASUR

Ma'lumotlarni qayta ishlash va mashinani o'rganish usullari

  • Ma'lumotlarni qayta ishlash (uchinchi tendentsiya)
    • An'anaviy ETL (chiqarish, o'zgartirish, yuklash)
    • Ma'lumotlar do'konlari ( HBase , ……..)
    • Oqimlarni qayta ishlash vositalari,
    • multimedia va ommaviy ma'lumotlar

  • Mashinani o'rganish (to'rtinchi tendentsiya)
    • tasnifi
    • regressiya
    • Klasterlash
    • Birgalikda filtrlash

Katta ma'lumotlar to'plami
mashina
O'rganish
Tarqalgan hisoblash
Ushbu to'rtta tendentsiya chorrahasida ishlash juda hayajonli va qiyin va katta ma'lumotlarni saqlash va qayta ishlashning yangi usullarini talab qiladi.
Ma'lumotlarni qayta ishlash ETL (chiqarish, o'zgartirish, yuklash)

Hadoop ekotizim

  • Masshtablilikni yoqing
    • tovar apparati bo'yicha
  • Xatolarga chidamlilik bilan ishlov berish
  • Har xil turdagi ma'lumotlar bilan ishlay oladi
    • Matn, grafik, oqim ma'lumotlari, rasmlar,…
  • Umumiy muhit
  • Qiymat beradi
    • xarajat

Hadoop ekotizim


A
B
C
D
qatlam diagrammasi

Apache Hadoop asosiy modullari

  • Hadoop umumiy
  • Hadoop taqsimlangan fayl tizimi (HDFS)
  • Hadoop YARN
  • Hadoop MapReduce

MapReduce
Tarqalgan ishlov berish
HDFS taqsimlangan fayl tizimi (saqlash)
HBase
aloqador bo'lmagan ma'lumotlar bazasi
Ip
resurs menejeri
Cho'chqa
Skript yaratish
uyasi
SQL kabi so'rov
Boshqa modullar: Zookeeper, Impala , Oozie va boshqalar.
Boshqalar
Tarqalgan ishlov berish
Spark, Storm, Tez va boshqalar.

Hadoop HDFS

  • Hadoop tarqatilgan fayl tizimi (Google File System (GFS) qog'ozi asosida, 2004)
    • Hadoop ekotizimidagi aksariyat vositalar uchun taqsimlangan fayl tizimi sifatida xizmat qiladi
    • Katta ma'lumotlar to'plamlari uchun masshtablilik
    • Uskunadagi nosozliklar bilan kurashish uchun ishonchlilik
  • HDFS quyidagilar uchun yaxshi:
    • Katta fayllar
    • oqim ma'lumotlari
  • Quyidagilar uchun yaxshi emas:

5000 server va 250 petabayt maʼlumotlarga ega yagona Hadoop klasteri

Download 1.05 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   11




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling