R egiluvchan D taqsimlangan ma'lumotlar to'plami (RDDs) - RDDs (Resilient Distributed Datasets) - bu ma'lumotlar konteynerlari
- Spark-dagi barcha qayta ishlash komponentlari RDD deb ataladigan bir xil abstraktsiyaga ega
- Ilovalar RDD abstraktsiyasini baham ko'rganligi sababli, siz yangi RDD yaratish uchun turli xil o'zgarishlarni aralashtirishingiz mumkin
- To'plamni parallellashtirish yoki faylni o'qish orqali yaratilgan
- Xatolarga chidamli
DataFrames va SparkSQL - DataFrames (DF) nomli ustunlarda tashkil etilgan boshqa taqsimlangan ma'lumotlar to'plamidan biridir
- Relyatsion ma'lumotlar bazasiga o'xshash, Python Pandas Dataframe yoki R's DataTables
- Bir marta qurilgan o'zgarmas
- naslni kuzatib borish
- Tarqalgan hisoblarni yoqish
- Dataframelarni qanday qurish kerak
- Fayl(lar)dan o'qish
- Mavjud DF-larni o'zgartirish (Spark yoki Pandas)
- Python to'plami ro'yxatini parallellashtirish
- Transformatsiyalar va harakatlarni qo'llang
DataFrame misoli
// "Talabalar" ni o'z ichiga olgan yangi DataFrame yarating
talabalar = foydalanuvchilar.filtr ( foydalanuvchilar. yosh < 21)
//Shuningdek, Pandalarga o'xshash sintaksisdan foydalanish
talabalar = foydalanuvchilar[ users.age < 21]
//Talabalar sonini jinsi bo'yicha hisoblang
student.groupBy ("jins").count()
// Yosh talabalarga loglar deb nomlangan boshqa DataFrame bilan qo'shiling
student.join (jurnallar, logs.userId == users.userId ,
" chap_tashqi ")
RDDlar va boshqalar. DataFrames _ - RDDlar Spark-ga past darajadagi interfeysni ta'minlaydi
- DataFrames sxemasiga ega
- DataFrames keshlangan va Spark tomonidan optimallashtirilgan
- DataFrames RDD va asosiy Spark API ustiga qurilgan
Misol: ishlash
Spark operatsiyalari
Transformatsiyalar
(yangi RDD yaratish)
|
xarita
filtr
namuna
groupByKey
kamaytirishByKey
sortByKey
chorraha
|
flatMap
ittifoq
qo'shilish
guruh
xarita qiymatlarini kesib o'tish
kamaytirishByKey
|
Harakatlar
(natijalarni haydovchi dasturiga qaytarish)
|
birinchi yig'ing olishni kamaytiring
Buyurtma berilgan
Namuna oling countByKey saqlaydi
qidiruv kaliti har biriga
| |
Do'stlaringiz bilan baham: |