Apache Hadoop and Spark: Introduction and Use Cases for Data Analysis


Spark Disk o'rniga xotiradan foydalanadi


Download 1.05 Mb.
bet6/11
Sana13.03.2023
Hajmi1.05 Mb.
#1265753
1   2   3   4   5   6   7   8   9   10   11
Bog'liq
PRESENTATION FOR HOOK JASUR

Spark Disk o'rniga xotiradan foydalanadi


Takrorlash 1
Takrorlash 2
HDFS o'qiladi
Takrorlash 1
Takrorlash 2
HDFS
o'qing
HDFS
Yozing
HDFS
o'qing
HDFS
Yozing
Spark: Xotirada ma'lumotlarni almashish
Hadoop : Ma'lumot almashish uchun diskdan foydalaning

Saralash musobaqasi


Hadoop MR Record (2013)

Spark Record (2014)

ma'lumotlar hajmi

102,5 TB

100 TB

O'tgan vaqt

72 daqiqa

23 daqiqa

# tugun

2100

206

#Yadrolar

50400 jismoniy

6592 virtuallashtirilgan

Klaster diskining o'tkazuvchanligi

3150 GB/s (taxminiy)

618 Gb/s

tarmoq

ajratilgan ma'lumotlar markazi, 10 Gbps

virtuallashtirilgan (EC2) 10Gbps tarmoq

tartiblash darajasi

1,42TB/min

4,27TB/min

Saralash tezligi/tugun

0,67 GB/min

20,7 GB/min

Saralash benchmarki, Daytona Grey: 100 TB maʼlumotlar turi (1 trillion yozuv)
http://databricks.com/blog/2014/11/05/spark-officially-sets-a-new-record-in-large-scale-sorting.html _ _ _
Spark, tugunlarning 1/10 qismi bilan 3 barobar tezroq

Apache Spark

Apache Spark ma'lumotlarni tahlil qilish, mashinani o'rganish, grafiklar, oqim ma'lumotlari va boshqalarni qo'llab-quvvatlaydi. U bir qator ma'lumotlar turlaridan o'qish/yozish va bir nechta tillarda ishlab chiqish imkonini beradi.


Spark Core
uchqun oqimi
MLlib
GraphX
ML quvurlari
Spark SQL
DataFrames
Ma'lumotlar manbalari
Scala , Java, Python, R, SQL
Hadoop HDFS, HBase , Hive, Apache S3, Streaming, JSON, MySQL va HPC uslubi ( GlusterFS , Luster )

Download 1.05 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   11




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling