Takrorlash 1
Takrorlash 2
HDFS o'qiladi
Takrorlash 1
Takrorlash 2
HDFS
o'qing
HDFS
Yozing
HDFS
o'qing
HDFS
Yozing
Spark: Xotirada ma'lumotlarni almashish
Hadoop : Ma'lumot almashish uchun diskdan foydalaning
Saralash musobaqasi |
Hadoop MR Record (2013)
|
Spark Record (2014)
|
ma'lumotlar hajmi
|
102,5 TB
|
100 TB
|
O'tgan vaqt
|
72 daqiqa
|
23 daqiqa
|
# tugun
|
2100
|
206
|
#Yadrolar
|
50400 jismoniy
|
6592 virtuallashtirilgan
|
Klaster diskining o'tkazuvchanligi
|
3150 GB/s (taxminiy)
|
618 Gb/s
|
tarmoq
|
ajratilgan ma'lumotlar markazi, 10 Gbps
|
virtuallashtirilgan (EC2) 10Gbps tarmoq
|
tartiblash darajasi
|
1,42TB/min
|
4,27TB/min
|
Saralash tezligi/tugun
|
0,67 GB/min
|
20,7 GB/min
|
Saralash benchmarki, Daytona Grey: 100 TB maʼlumotlar turi (1 trillion yozuv)
http://databricks.com/blog/2014/11/05/spark-officially-sets-a-new-record-in-large-scale-sorting.html _ _ _
Spark, tugunlarning 1/10 qismi bilan 3 barobar tezroq
Apache Spark Apache Spark ma'lumotlarni tahlil qilish, mashinani o'rganish, grafiklar, oqim ma'lumotlari va boshqalarni qo'llab-quvvatlaydi. U bir qator ma'lumotlar turlaridan o'qish/yozish va bir nechta tillarda ishlab chiqish imkonini beradi.
Spark Core
uchqun oqimi
MLlib
GraphX
ML quvurlari
Spark SQL
DataFrames
Ma'lumotlar manbalari
Scala , Java, Python, R, SQL
Hadoop HDFS, HBase , Hive, Apache S3, Streaming, JSON, MySQL va HPC uslubi ( GlusterFS , Luster )
Do'stlaringiz bilan baham: |