Apache Hadoop and Spark: Introduction and Use Cases for Data Analysis


R egiluvchan D taqsimlangan ma'lumotlar to'plami (RDDs)


Download 1.05 Mb.
bet7/11
Sana13.03.2023
Hajmi1.05 Mb.
#1265753
1   2   3   4   5   6   7   8   9   10   11
Bog'liq
PRESENTATION FOR HOOK JASUR

R egiluvchan D taqsimlangan ma'lumotlar to'plami (RDDs)

  • RDDs (Resilient Distributed Datasets) - bu ma'lumotlar konteynerlari
  • Spark-dagi barcha qayta ishlash komponentlari RDD deb ataladigan bir xil abstraktsiyaga ega
  • Ilovalar RDD abstraktsiyasini baham ko'rganligi sababli, siz yangi RDD yaratish uchun turli xil o'zgarishlarni aralashtirishingiz mumkin
  • To'plamni parallellashtirish yoki faylni o'qish orqali yaratilgan
  • Xatolarga chidamli

DataFrames va SparkSQL

  • DataFrames (DF) nomli ustunlarda tashkil etilgan boshqa taqsimlangan ma'lumotlar to'plamidan biridir
  • Relyatsion ma'lumotlar bazasiga o'xshash, Python Pandas Dataframe yoki R's DataTables
    • Bir marta qurilgan o'zgarmas
    • naslni kuzatib borish
    • Tarqalgan hisoblarni yoqish
  • Dataframelarni qanday qurish kerak
    • Fayl(lar)dan o'qish
    • Mavjud DF-larni o'zgartirish (Spark yoki Pandas)
    • Python to'plami ro'yxatini parallellashtirish
    • Transformatsiyalar va harakatlarni qo'llang

DataFrame misoli


// "Talabalar" ni o'z ichiga olgan yangi DataFrame yarating
talabalar = foydalanuvchilar.filtr ( foydalanuvchilar. yosh < 21)
//Shuningdek, Pandalarga o'xshash sintaksisdan foydalanish
talabalar = foydalanuvchilar[ users.age < 21]
//Talabalar sonini jinsi bo'yicha hisoblang
student.groupBy ("jins").count()
// Yosh talabalarga loglar deb nomlangan boshqa DataFrame bilan qo'shiling
student.join (jurnallar, logs.userId == users.userId ,
" chap_tashqi ")

RDDlar va boshqalar. DataFrames _

  • RDDlar Spark-ga past darajadagi interfeysni ta'minlaydi
  • DataFrames sxemasiga ega
  • DataFrames keshlangan va Spark tomonidan optimallashtirilgan
  • DataFrames RDD va asosiy Spark API ustiga qurilgan

Misol: ishlash

Spark operatsiyalari


Transformatsiyalar
(yangi RDD yaratish)

xarita
filtr
namuna
groupByKey
kamaytirishByKey
sortByKey
chorraha

flatMap
ittifoq
qo'shilish
guruh
xarita qiymatlarini kesib o'tish
kamaytirishByKey

Harakatlar
(natijalarni haydovchi dasturiga qaytarish)

birinchi yig'ing olishni kamaytiring
Buyurtma berilgan
Namuna oling countByKey saqlaydi
qidiruv kaliti har biriga

Download 1.05 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   11




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling