Apache Hadoop and Spark: Introduction and Use Cases for Data Analysis

Spark Disk o'rniga xotiradan foydalanadi

bet	6/11
Sana	13.03.2023
Hajmi	1.05 Mb.
	#1265753

1 2 3 4 5 6 7 8 9 10 11

Bog'liq
PRESENTATION FOR HOOK JASUR

Saralash musobaqasi
Apache Spark

Spark Disk o'rniga xotiradan foydalanadi

Takrorlash 1
Takrorlash 2
HDFS o'qiladi
Takrorlash 1
Takrorlash 2
HDFS
o'qing
HDFS
Yozing
HDFS
o'qing
HDFS
Yozing
Spark: Xotirada ma'lumotlarni almashish
Hadoop : Ma'lumot almashish uchun diskdan foydalaning

Saralash musobaqasi

	Hadoop MR Record (2013)	Spark Record (2014)
ma'lumotlar hajmi	102,5 TB	100 TB
O'tgan vaqt	72 daqiqa	23 daqiqa
# tugun	2100	206
#Yadrolar	50400 jismoniy	6592 virtuallashtirilgan
Klaster diskining o'tkazuvchanligi	3150 GB/s (taxminiy)	618 Gb/s
tarmoq	ajratilgan ma'lumotlar markazi, 10 Gbps	virtuallashtirilgan (EC2) 10Gbps tarmoq
tartiblash darajasi	1,42TB/min	4,27TB/min
Saralash tezligi/tugun	0,67 GB/min	20,7 GB/min

Saralash benchmarki, Daytona Grey: 100 TB maʼlumotlar turi (1 trillion yozuv)
http://databricks.com/blog/2014/11/05/spark-officially-sets-a-new-record-in-large-scale-sorting.html _ _ _
Spark, tugunlarning 1/10 qismi bilan 3 barobar tezroq

Apache Spark

Apache Spark ma'lumotlarni tahlil qilish, mashinani o'rganish, grafiklar, oqim ma'lumotlari va boshqalarni qo'llab-quvvatlaydi. U bir qator ma'lumotlar turlaridan o'qish/yozish va bir nechta tillarda ishlab chiqish imkonini beradi.

Spark Core
uchqun oqimi
MLlib
GraphX
ML quvurlari
Spark SQL
DataFrames
Ma'lumotlar manbalari
Scala , Java, Python, R, SQL
Hadoop HDFS, HBase , Hive, Apache S3, Streaming, JSON, MySQL va HPC uslubi ( GlusterFS , Luster )

Download 1.05 Mb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8 9 10 11