Big data tahlili


Download 1.27 Mb.
bet62/71
Sana25.02.2023
Hajmi1.27 Mb.
#1229835
1   ...   58   59   60   61   62   63   64   65   ...   71
Bog'liq
A.X.Ruzmetov Qollanma

Pig va Pig Latin
Hadoopning kuchi va moslashuvchanligi dasturiy ta’minot ishlab chiquvchilariga darhol ko‘rinadi, birinchi navbatda Hadoop ekotizimi ishlab chiquvchilar tomonidan yaratuvchilar uchun qurilgan. Biroq, hamma ham dasturiy ta’minot ishlab chiqaruvchisi emas. Pig Hadoop-ni ishlab chiquvchi bo‘lmagan foydalanuvchilar uchun ochiq va qulayroq qilish uchun ishlab chiqilgan. Pig - bu ma’lumotlar oqimlarini ifodalash uchun ishlatiladigan, lotin tilini qo‘llab-quvvatlaydigan interaktiv, skriptlar ish vaqti. Pig lotin tili kirish ma’lumotlarini o‘zgartiradigan va kerakli natijani beradigan bir qator operatorlar bilan kirish ma’lumotlarini yuklash va qayta ishlashni qo‘llab-quvvatlaydi.
Pigning ish vaqti ikkita rejimga ega:

  • Mahalliy rejim: barcha skriptlar bitta mashinada ishlaydi. Hadoop MapReduce va HDFS lar talab qilinmaydi.

  • Hadoop: MapReduce rejimi deb ham ataladi, barcha skriptlar ushbu Hadoop klasterida ishlaydi.

O‘rama ostida Pig kartalar to‘plamini yaratadi va vazifalarni kamaytiradi. Foydalanuvchi kodlash, kompilyatsiya qilish, qadoqlash, jo‘natish va natijalarni olish tashvishlaridan xalos. Ko‘p jihatdan, Pig ma’lumotlar bazasi dunyosida SQLga o‘xshaydi. Pig lotin tilida foydalanuvchi dasturining tuzilishiga emas, balki ma’lumotlarga e’tibor qaratish orqali katta ma’lumotlardan javob olishning mavhum usuli mavjud. Pig prototipini juda oson qiladi. Masalan, barcha ma’lumotlar bilan ishlashdan oldin kerakli natijalarga erishganingizga ishonch hosil qilish uchun o‘zingizning katta ma’lumotlar muhitining kichik bir vakolatxonasida Pig skriptini ishlatishingiz mumkin.
Pig dasturlarini uch xil usulda ishlatish mumkin, ularning barchasi mahalliy va Hadoop rejimlariga mos keladi:

  • Ssenariy: faqat .pig qo‘shimchasi bilan belgilangan Pig lotin buyruqlarini o‘z ichiga olgan fayl (file.pig yoki myscript.pig kabi). Buyruqlar Pig tomonidan talqin qilinadi va ketma -ketlikda bajariladi.

  • Grunt: Grunt buyruq tarjimoni. Grunt buyruq satriga Pig lotin tilini kiritishingiz mumkin va Grunt sizning nomingizdan buyruqni bajaradi. Bu prototip yaratish va senariylar uchun juda foydali.

  • O'rnatilgan: Pig dasturlari Java dasturining bir qismi sifatida ishlashi mumkin.

Pig Latin juda boy sintaksisga ega. U quyidagi operatsiyalar uchun operatorlarni qo‘llab-quvvatlaydi:

  • Ma’lumotlarni yuklash va saqlash

  • Ma’lumotlarni potoklarga ajratish

  • Ma’lumotlarni filtrlash

  • Ma’lumotlarni guruhlash va birlashtirish

  • Ma’lumotlarni saralash

  • Ma’lumotlarni birlashtirish va ajratish

Pig Latin, shuningdek, turli xil turlarni, ifodalarni, funktsiyalarni, diagnostika operatorlarini, makrolarni va fayl tizimi buyruqlarini qo‘llab-quvvatlaydi. Ko‘proq misollar uchun Apache.com dagi Pig veb -saytiga tashrif buyuring. Bu barcha ma’lumotlarni beradigan boy manba: http://pig.apache.org.
Sqoop
Ko‘pgina kompaniyalar ma’lumotni MBBT va boshqa ma’lumotlar omborlarida saqlaydilar, shuning uchun ularga ma’lumotni Hadoop-ga ko‘chirish kerak va aksincha. Ba’zida ma’lumotlarni real vaqt rejimida ko‘chirish zarur bo‘lsa, ko‘pincha ma’lumotlarni ko‘p miqdorda yuklash yoki tushirish kerak bo‘ladi. Sqoop (SQL-to-Hadoop) - bu Hadoop bo‘lmagan ma’lumotlar omborlaridan ma’lumotlarni olish, ma’lumotlarni Hadoop foydalanadigan shaklga aylantirish va keyin ma’lumotlarni HDFS-ga yuklash imkoniyatini beruvchi vosita. Bu jarayon ETL (Extract, Transform and Load) deb ataladi. Ma’lumotlarni Hadoop-ga olish MapReduce bilan ishlov berish uchun juda muhim bo‘lsa, Hadoop-dan ma’lumotlarni boshqa turdagi dasturlarda ishlatish uchun tashqi ma’lumotlar manbasiga olish muhimdir. Sqoop ham buni qila oladi.
Pig singari, Sqoop ham buyruq satrining tarjimoni. Tarjimonga Sqoop buyruqlarini kiritasiz va ular birma -bir bajariladi. Sqoop to‘rtta asosiy xususiyatga ega:

  • Ommaviy import: Sqoop alohida jadvallarni yoki butun ma’lumotlar bazalarini HDFS-ga import qilishi mumkin. Ma’lumotlar HDFS fayl tizimidagi o‘z kataloglarida va fayllarida saqlanadi.

  • To‘g‘ridan -to‘g‘ri kiritish: Sqoop SQL ma’lumotlar bazalarini to‘g‘ridan -to‘g‘ri Hive va HBase-ga import qilishi va ko‘rsatishi mumkin.

  • Ma’lumotlarning o‘zaro ta‘siri: Sqoop ma’lumotlar bilan dasturiy ta’sir o‘tkazish uchun Java sinflarini yaratishi mumkin.

  • Ma’lumotlarni eksport qilish: Sqoop to‘g‘ridan-to‘g‘ri HDFS-dan relyatsion ma’lumotlar bazasiga maqsadli ma’lumotlar bazasining o‘ziga xos xususiyatlariga asoslangan maqsadli jadval ta’rifi yordamida eksport qilishi mumkin.

Sqoop import qilmoqchi bo‘lgan ma’lumotlar bazasini ko‘rib chiqish va manba ma’lumotlariga mos keladigan import funktsiyasini tanlash orqali ishlaydi. Kirish jarayoni amalga oshgandan so‘ng, u jadval (yoki ma’lumotlar bazasi) uchun metadatani o‘qiydi va kirish talablari uchun sinf ta’rifini yaratadi. Kiritgan barcha yozuvlarni yozib, so‘ngra ma’lumotlaringizni qidirishdan ko‘ra Sqoop-ni kirishdan oldin faqat kerakli ustunlarni olish uchun juda sinchkov bo‘lishga majbur qilishingiz mumkin. Bu ko‘p vaqtni tejashi mumkin. Tashqi ma’lumotlar bazasidan HDFSga haqiqiy import Sqoop asosida yaratilgan MapReduce ishi tomonidan amalga oshiriladi.
Sqoop-dasturchi bo‘lmaganlar uchun yana bir kuchli vosita. Yana bir muhim jihati - bu HDFS va MapReduce kabi asosiy texnologiyalardan foydalanishdir. Buni Hadoop ekotizimining barcha elementlarida ko’plab ko’rishingiz mumkin.

Download 1.27 Mb.

Do'stlaringiz bilan baham:
1   ...   58   59   60   61   62   63   64   65   ...   71




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling