Ma'lumotlarni qayta ishlash va mashinani o'rganish usullari - Ma'lumotlarni qayta ishlash (uchinchi tendentsiya)
- An'anaviy ETL (chiqarish, o'zgartirish, yuklash)
- Ma'lumotlar do'konlari ( HBase , ……..)
- Oqimlarni qayta ishlash vositalari,
multimedia va ommaviy ma'lumotlar - Mashinani o'rganish (to'rtinchi tendentsiya)
- tasnifi
- regressiya
- Klasterlash
- Birgalikda filtrlash
Katta ma'lumotlar to'plami
mashina
O'rganish
Tarqalgan hisoblash
Ushbu to'rtta tendentsiya chorrahasida ishlash juda hayajonli va qiyin va katta ma'lumotlarni saqlash va qayta ishlashning yangi usullarini talab qiladi.
Ma'lumotlarni qayta ishlash ETL (chiqarish, o'zgartirish, yuklash)
Hadoop ekotizim - Masshtablilikni yoqing
- Xatolarga chidamlilik bilan ishlov berish
- Har xil turdagi ma'lumotlar bilan ishlay oladi
- Matn, grafik, oqim ma'lumotlari, rasmlar,…
- Umumiy muhit
- Qiymat beradi
Hadoop ekotizim
A
B
C
D
qatlam diagrammasi
Apache Hadoop asosiy modullari - Hadoop umumiy
- Hadoop taqsimlangan fayl tizimi (HDFS)
- Hadoop YARN
- Hadoop MapReduce
MapReduce
Tarqalgan ishlov berish
HDFS taqsimlangan fayl tizimi (saqlash)
HBase
aloqador bo'lmagan ma'lumotlar bazasi
Ip
resurs menejeri
Cho'chqa
Skript yaratish
uyasi
SQL kabi so'rov
Boshqa modullar: Zookeeper, Impala , Oozie va boshqalar.
Boshqalar
Tarqalgan ishlov berish
Spark, Storm, Tez va boshqalar.
Hadoop HDFS - Hadoop tarqatilgan fayl tizimi (Google File System (GFS) qog'ozi asosida, 2004)
- Hadoop ekotizimidagi aksariyat vositalar uchun taqsimlangan fayl tizimi sifatida xizmat qiladi
- Katta ma'lumotlar to'plamlari uchun masshtablilik
- Uskunadagi nosozliklar bilan kurashish uchun ishonchlilik
- HDFS quyidagilar uchun yaxshi:
- Katta fayllar
- oqim ma'lumotlari
- Quyidagilar uchun yaxshi emas:
5000 server va 250 petabayt maʼlumotlarga ega yagona Hadoop klasteri
Do'stlaringiz bilan baham: |