2. Ishlash muhandisligi Hadoop va yarn. Gnu loyiha tashabbuskori Richard Stallman bulutli hisoblash xarajatlarni oshirish va axborotga egalik qilish muammolari sifatida tavsiflandi

Download 442.75 Kb.

bet	3/4
Sana	13.04.2023
Hajmi	442.75 Kb.
	#1356188

1 2 3 4

Bog'liq
n

Hadoop va YARN.
Biz allaqachon Hadoop va MapReduce kontseptsiyasini 7-bobda tanishtirdik. Endi kirishdan tashqariga chiqish vaqti keldi. Hadoop taqdim etilganda, u ko'plab yirik ma'lumotlarni tahlil qilish muammolarini hal qilish uchun foydalaniladigan vosita sifatida ko'rib chiqildi. Bu har doim ham samarali emas edi, lekin u serverlarning katta klasterlari boʻylab taqsimlangan juda katta maʼlumotlar toʻplamlari uchun yaxshi ishladi. TheHadoop Distributed File System (HDFS) Hadoop-ning asosiy blokidir. Java-da yozilgan HDFS butunlay portativ va standart tarmoq TCP soketlariga asoslangan. Joylashtirilganda, u ma'lumotlar joylashuvini kuzatish uchun foydalaniladigan singleNameNode va tarqatilgan ma'lumotlar tuzilmalarini saqlash uchun ishlatiladigan DataNodes klasteriga ega. Individual fayllar 64 MB bloklarga boʻlingan boʻlib, ular DataNodlar boʻylab taqsimlanadi va tizimni nosozliklarga chidamliroq qilish uchun takrorlanadi. Keyingi sahifadagi 8.1-rasmda koʻrsatilganidek, NameNode har bir fayl bloki va replikalarning joylashuvini kuzatib boradi.HDFS. POSIX fayl tizimi emas: u bir marta yoziladi, ko'p o'qiladi va faqat oxir-oqibat izchil. Biroq, buyruq qatori vositalari uni standart Unix fayl tizimiga o'xshash tarzda ishlatishga imkon beradi. Masalan, quyidagi buyruqlar HDFS-da “katalog” yaratadi, veb-saytdan Vikipediya nusxasini tortib oladi, bu ma’lumotlarni HDFS-ga (ular bloklangan, ko‘paytiriladi va saqlanadi) suradi va katalogni ro‘yxatga oladi.

Hadoop va HDFS dastlab faqat Hadoop MapReducetasks-ni qo'llab-quvvatlash uchun yaratilgan. Biroq, ekotizim tez o'sib bordi va boshqa vositalarni o'z ichiga oldi. Bundan tashqari, Hadoop MapReduce asl vositasi muhim dastur sinflarini qo'llab-quvvatlay olmadiapReduce [81] ning iterativ qo'llanilishini yoki taqsimlangan ma'lumotlar tuzilmalaridan qayta foydalanishni talab qiladiganlar kabi.

Hadoop taqsimlangan fayl tizimi to'rtta DataNode va ikkita fayl bloklarga bo'linadi va taqsimlanadi. NameNode bloklar va replikalarni kuzatib boradi.
ApacheYARN (Yana bir Resurs Muzokarasi tor) Hadoop ekotizimining to'liq taqsimlangan ish boshqaruvi tizimiga evolyutsiyasini ifodalaydi. Unda har bir ishchi tugundagi tugun boshqaruvi jarayonlari bilan aloqa qiladigan manba menejeri va rejalashtiruvchi mavjud. Ilovalar resurs menejeriga ulanadi, so'ngra ushbu ilova namunasi uchun dastur menejerini aylantiradi. Keyingi sahifadagi 8.2-rasmda ko'rsatilganidek, dastur menejeri serverlar klasteridagi ishchi tugunlari uchun "konteynerlarni" olish uchun manbalar boshqaruvchisi bilan o'zaro ishlaydi. Ushbu model bir vaqtning o'zida bir nechta ilovalarni tizimda ishlashiga imkon beradi. YARN ko'p jihatdan 7-bobda tasvirlangan Mesos tizimiga o'xshaydi. Asosiy farq shundaki, YARN MapReduce uslubidagi ishlarni rejalashtirish uchun mo'ljallangan, Mesos esa umumiyroq sinfni qo'llab-quvvatlash uchun mo'ljallangan. hisoblashlar, shu jumladan konteynerlar va mikroservislar. Ikkala tizim ham keng qo'llaniladi.
Soark.
Spark dizayni asl Hadoop MapReduce hisoblash paradigmasidagi cheklovlarni ko'rib chiqadi. Hadoop-ning chiziqli ma'lumotlar oqimi strukturasida dasturlar diskdan kiritilgan ma'lumotlarni o'qiydi, ma'lumotlar bo'ylab funktsiyani xaritalaydi, xarita natijalarini kamaytiradi va diskda qisqartirish natijalarini saqlaydi. Spark iterativ MapReduce hamda maʼlumotlardan samaraliroq qayta foydalanish imkonini beruvchi umumiyroq grafik ijro modelini qoʻllab-quvvatlaydi. Sparkis ham interaktiv va sof Hadoopga qaraganda tezroq. U YARNand Mesos-da, shuningdek, noutbukda va Docker konteynerida ishlaydi. Keyingi paragraflarda biz Spark-ga yumshoq kirishni taqdim etamiz va undan foydalanishni o'z ichiga olgan ma'lumotlar tahliliga oid ba'zi misollarni keltiramiz.

YARN taqsimlangan resurs menejeri arxitekturasi.
Sparkning markaziy konstruksiyasi bu Resilient Distributed Dataset (RDD) boʻlib, serverlar boʻylab taqsimlangan va disk yoki xotiraga joylashtirilgan maʼlumotlar toʻplami boʻlib, taqsimlangan umumiy xotiraning cheklangan shaklini taʼminlaydi. Spark talqin qilingan, statik terilgan ob'ekt-funktsional til bo'lgan Scala-da amalga oshiriladi. Spark Hadoop-da qo'llaniladigan Map va Reduce operatsiyalariga o'xshash Scala parallel operatorlari kutubxonasi mavjud bo'lib, ular RDDlarda transformatsiyalarni amalga oshiradi. (Kutubxonada Python bilan ham yaxshi bog‘langan.) Aniqrog‘i, Spark h ikki turdagi amallar: RDD larni yangi RDDlarga moslashtiruvchi transformatsiyalar va asosiy dasturga qiymatlarni qaytaradigan amallar: odatda Jupyter kabi o‘qish-baholash-chop etish tsikli.

Download 442.75 Kb.

Do'stlaringiz bilan baham:

1 2 3 4