Dasturiy karkaslar va Hadoop loyihasidagi kutubxonalar
Apache Hadoop – bu katta ma'lumotlar bilan o'zaro aloqani osonlashtirish uchun mo'ljallangan ochiq manbali tizim, ammo bu texnologiya bilan tanish bo'lmaganlar uchun bitta savol tug'iladi: katta ma'lumotlar nima? Katta ma'lumotlar - bu RDBMS kabi an'anaviy metodologiya yordamida samarali tarzda qayta ishlanib bo'lmaydigan ma'lumotlar to'plamlariga berilgan atama. Hadoop nozik va samarali ishlov berishni talab qiladigan yirik ma'lumotlar to'plamlarida ishlashi kerak bo'lgan sanoat va kompaniyalarda o'z o'rnini egalladi. Hadoop - bu klasterlar ko'rinishida joylashgan katta ma'lumotlar to'plamlarini qayta ishlashga imkon beruvchi ramka. Ramka sifatida Hadoop katta texnologiyalar ekotizimlari tomonidan qo'llab-quvvatlanadigan bir nechta modullardan iborat.
Hadoop ekosistemi - bu katta ma'lumotlar muammolarini hal qilish uchun turli xizmatlarni taqdim etadigan platforma yoki to'plam. U Apache loyihalari va turli xil tijorat vositalari va yechimlarini o'z ichiga oladi. Hadoop- ning to'rtta asosiy elementi mavjud ya'ni HDFS, MapReduce, YARN va Hadoop Common. Aksariyat vositalar yoki echimlar ushbu asosiy elementlarni to'ldirish yoki qo'llab-quvvatlash uchun ishlatiladi. Ushbu vositalarning barchasi ma'lumotlarni qabul qilish, tahlil qilish, saqlash va texnik xizmat ko'rsatish kabi xizmatlarni taqdim etish uchun birgalikda ishlaydi.
Quyida birgalikda Hadoop ekotizimini tashkil etuvchi komponentlar keltirilgan:
HDFS: Hadoop taqsimlangan fayl tizimi
YARN: Yana bir resurs muzokarachisi
MapReduce: Dasturlash asosidagi ma'lumotlarni qayta ishlash
Spark: Xotirada ma'lumotlarni qayta ishlash
PIG, HIVE: so'rovlar asosida ma'lumotlar xizmatlarini qayta ishlash
HBase: NoSQL ma'lumotlar bazasi
Mahout, Spark MLLib: Machine Learning algoritm kutubxonalari
Do'stlaringiz bilan baham: |