Mavzu: Katta ma’lumotlarni aniqlash. Katta ma’lumotlarni saqlash texnologiyasi (4 soat) Reja

Download 124.16 Kb.

1 2 3 4 5 6 7 8 9

Bog'liq
1.1-ma\'ruza

Pig:
Pig asosan Yahoo tomonidan ishlab chiqilgan bo'lib, u cho'chqa lotin tilida ishlaydi, bu SQL ga o'xshash so'rovlarga asoslangan tildir.

Bu ma'lumotlar oqimini tizimlashtirish, katta ma'lumotlar to'plamlarini qayta ishlash va tahlil qilish uchun platformadir.
Pig buyruqlarni bajarish ishini bajaradi va fonda MapReduce-ning barcha faoliyatiga g'amxo'rlik qilinadi. Qayta ishlashdan so'ng, cho'chqa natijani HDFSda saqlaydi.
Pig lotin tili Pig Runtime-da ishlaydigan ushbu ramka uchun maxsus ishlab chiqilgan. Xuddi Java JVM da qanday ishlaydi .
Cho'chqa dasturlash va optimallashtirish qulayligiga erishishga yordam beradi va shuning uchun Hadoop ekotizimining asosiy segmenti hisoblanadi.

HIVE:

SQL metodologiyasi va interfeysi yordamida HIVE katta ma'lumotlar to'plamlarini o'qish va yozishni amalga oshiradi. Biroq, uning so'rovlar tili HQL (Hive Query Language) deb ataladi.
U yuqori darajada kengaytirilishi mumkin, chunki u real vaqt rejimida qayta ishlash va ommaviy qayta ishlash imkonini beradi. Bundan tashqari, barcha SQL ma'lumotlar turlari Hive tomonidan qo'llab-quvvatlanadi, bu esa so'rovlarni qayta ishlashni osonlashtiradi.
So'rovlarni qayta ishlash tizimiga o'xshab, HIVE ham ikkita komponent bilan birga keladi: JDBC Drivers va HIVE Buyruqlar qatori .
JDBC, ODBC drayverlari bilan bir qatorda, ma'lumotlarni saqlash uchun ruxsatnomalar va ulanishni o'rnatish ustida ishlaydi, HIVE buyruq qatori esa so'rovlarni qayta ishlashda yordam beradi.

Mahout:

Mahout, tizim yoki dasturga Machine Learnability imkonini beradi. Mashinani o'rganish , nomidan ko'rinib turibdiki, tizimni ba'zi naqshlar, foydalanuvchi/atrof-muhit o'zaro ta'siri yoki algoritmlar asosida rivojlantirishga yordam beradi.
U birgalikda filtrlash, klasterlash va tasniflash kabi turli xil kutubxonalar yoki funktsiyalarni taqdim etadi, ular Mashinani o'rganish tushunchalaridan boshqa narsa emas. U o'z kutubxonalari yordamida bizning ehtiyojimizga ko'ra algoritmlarni chaqirish imkonini beradi.

Apache Spark:

Bu ommaviy ishlov berish, real vaqtda interaktiv yoki iterativ ishlov berish, grafik konvertatsiya qilish va vizualizatsiya kabi barcha iste'mol qilinadigan jarayonlarni bajaradigan platforma.
U xotira resurslarini iste'mol qiladi, shuning uchun optimallashtirish nuqtai nazaridan avvalgisidan tezroq.
Spark real vaqt rejimidagi ma'lumotlar uchun eng mos keladi, Hadoop esa tuzilgan ma'lumotlar yoki ommaviy qayta ishlash uchun eng mos keladi, shuning uchun ikkalasi ham ko'pchilik kompaniyalarda bir-birining o'rnida ishlatiladi.

Apache HBase:

Bu NoSQL ma'lumotlar bazasi bo'lib, u barcha turdagi ma'lumotlarni qo'llab-quvvatlaydi va shuning uchun Hadoop ma'lumotlar bazasi bilan ishlashga qodir. U Google BigTable imkoniyatlarini taqdim etadi, shuning uchun Big Data to'plamlarida samarali ishlashga qodir.
Katta ma'lumotlar bazasida kichik narsalarni qidirish yoki olishimiz kerak bo'lgan paytlarda so'rov qisqa vaqt ichida qayta ishlanishi kerak. Bunday paytlarda HBase foydali bo'ladi, chunki u bizga cheklangan ma'lumotlarni saqlashning bardoshli usulini beradi

Download 124.16 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8 9