Modul nomi: Katta ma’lumotlar tahliliga kirish (kirish kursi) Kurs haqida
Katta ma'lumotlarni tahlil qilish vositalari (relational va norelational DBMS)
Download 1.56 Mb.
|
Введение в аналитику больших массивов данных (Вводный курс) (1)
- Bu sahifa navigatsiya:
- analitik dvigatellar qatoriga
Katta ma'lumotlarni tahlil qilish vositalari (relational va norelational DBMS)
Garchi biznes razvedkasi va katta ma'lumotlar bir xil maqsadda (savolga javob topish) bo'lsa-da, ular bir-biridan farq qiladi. Aynan: 1) Katta ma'lumotlar texnologiyalari qayta ishlash uchun mo'ljallangan: - biznes razvedkasi vositalariga nisbatan bir vaqtning o'zida har xil turdagi ma'lumotlarning butun majmuasi, bu nafaqat tuzilgan saqlashga e'tibor qaratishga imkon beradi; - real vaqtda va o'zgaruvchan ma'lumot, bu chuqur izlanish va interaktivlikni anglatadi. Ba'zi hollarda natijalar veb-sahifa yuklanishidan tezroq hosil bo'ladi. Shunday qilib, katta ma'lumotlarni qayta ishlash tezligi tahlilni bashorat qilish imkonini beradi, kelajak uchun biznes tavsiyalarini berishga qodir; ‒ tuzilmagan ma'lumotlar asl ko'rinishida, algoritmlar shakllanish jarayonida bo'lgan foydalanish usullari. 2) katta ma'lumotlar bilan ishlashga yondashuv yondashuvdan farq qiladi biznes tahlilini o'tkazish. An'anaviy analitikada ma'lum qiymatlarni oddiy qo'shishdan farqli o'laroq, katta ma'lumotlar bilan ishlashda natija ularni ketma-ket modellashtirish orqali tozalash jarayonida olinadi: birinchi navbatda, gipoteza, statistik yoki vizual yoki uning asosida semantik model quriladi Taklif etilayotgan gipotezaning asosliligi tekshiriladi va keyin keyingisi ilgari suriladi. Bu jarayon tadqiqotchidan vizual ma'nolarni izohlashni yoki interaktiv bilimga asoslangan so'rovlarni amalga oshirishni yoki moslashtirilgan mashinani o'rganish algoritmlarini ishlab chiqishni talab qiladi. Bularning barchasi an'anaviy tahlildan farqli o'laroq , Big Data analitik texnologiyalarining katta istiqbollaridan dalolat beradi. turli xil vositalar qo'llaniladi . Eng mashhur tahlil vositalaridan biri Ha- doop - bu har xil turdagi va tuzilmalardagi katta hajmdagi ma'lumotlarni qayta ishlash imkonini beruvchi dasturiy ta'minot. Uning yordami bilan to'plangan ma'lumotlarni tarqatish va tizimlashtirish, modellarni yaratish va taxminlarni sinovdan o'tkazish uchun tahlillarni o'rnatish va mashinani o'rganishdan foydalanish mumkin. 81 Deyarli barcha zamonaviy katta ma'lumotlar tahlillari Hadoop bilan integratsiyani ta'minlaydi . Ularning ishlab chiquvchilari ham startaplar, ham taniqli global kompaniyalardir. Katta ma'lumotlar bilan ishlash uchun analitik dvigatellar qatoriga Apache Chukwa, Apache Hadoop, Apache Hive, Apache Pig!, Jaspersoft, LexisNexis Risk Solutions HPCC Systems, MapReduce, Revolution Analytics ( matematik statistika uchun R tili asosida ) kiradi. Katta ma'lumotlar tahlili ikki bosqichli qayta ishlash modeli rivojlanishi bilan asta-sekin rivojlandi. Birinchi daraja an'anaviy Katta ma'lumotlar tahlili bo'lib, katta ma'lumotlar to'plamlari real vaqtda tahlil qilinmaydi. Ikkinchi daraja nisbatan katta tahlil qilish imkoniyatini beradi real vaqtda ma'lumotlar hajmi, asosan, xotirada tahlil qilish texnologiyalari tufayli . Xotira ichidagi tahlillar haqiqatan ham katta ma'lumotlar to'plamlarini joylashtirish uchun etarli xotirani ta'minlash, yirik ob'ektlar do'konlari va xotiradagi tahlil tizimlari o'rtasida ma'lumotlarni samarali ko'chirish uchun qo'llab-quvvatlovchi texnologiyalarni talab qiladi. Bunda ochiq manba echimlari muhim rol o'ynaydi 121 . Analitik platformalar Big Data muammolarini hal qilish uchun global IT segmentidagi eng mashhur mahsulotlar hisoblanadi . NoSQL va In-Memory 122 . Dastlab, ma'lumotlar bazasi bilan ishlashning asosiy usuli SQL (DB - strukturlangan so'rovlar tili ) - 1974 yilda paydo bo'lgan (mualliflar - D. Chemberlin va R. Boys), ma'lumotlarni yaratish, o'zgartirish va boshqarish uchun ishlatiladigan tizimli so'rovlar tili edi. aloqador ma'lumotlar bazasi. U quyidagi amallarni bajarish imkonini berdi: ma'lumotlar bazasida yangi jadval yaratish; jadvalga yangi yozuvlar qo'shish; yozuvlarni o'zgartirish; yozuvlarni o'chirish; bir yoki bir nechta jadvallardan yozuvlarni tanlash (berilgan shartga muvofiq); stol tuzilmalarini o'zgartirish. Springer E. Ma'lumotlar ko'llari nima va ularda saqlash nima uchun arzonroq katta ma'lumotlar. Katta ma'lumotlar inqilobi: Katta ma'lumotlardan kerakli ma'lumotlarni qanday olish mumkin? 82 Vaqt o'tishi bilan SQL yanada murakkablashdi: yangi konstruktsiyalar bilan boyitilgan, yangi saqlangan ob'ektlarni (masalan, indekslar, ko'rinishlar, triggerlar va saqlangan protseduralar) tasvirlash qobiliyatini ta'minlagan. ularni boshqarish va dasturlash tillariga xos xususiyatlarni o'zlashtira boshladi. 2000-yillarning ikkinchi yarmida Gorizontal miqyoslilik uchun NoSQL tizimi paydo bo'ldi (nomida No SQL ning inkorini bildiradi ). Dastlabki NoSQL tizimlarida SQL qo'llab-quvvatlanmagan ; vaqt o'tishi bilan ba'zi ma'lumotlar bazasi ma'lumotlar bazasi SQL -ga o'xshash maxsus so'rov tillarini ( CQL, N1QL, AQL va boshqalar) sotib oldi. 2010-yillarda bir qator DBMSlar o'zlarini NewSQL deb tasnifladilar, NoSQL tizimlarining miqyoslash xususiyatlarini saqlab qolish bilan birga , SQL -ni qo'llab-quvvatlash ularda ham amalga oshiriladi , turli tizimlarda - standartlarga har xil darajada mos keladi. Bundan tashqari, 2010 -yillarda SQL -ni qo'llab-quvvatlash nafaqat ma'lumotlar bazasida, balki Hadoop ekotizimida ( Spark SQL, Feniks, Impala ), shuningdek, o'rta dasturda ( Kafka xabar brokeri, Flink oqimlarini qayta ishlash tizimi ) paydo bo'ldi. Shunday qilib, til sekin-asta har qanday qayta ishlangan ma'lumotlarga kirishning haqiqiy standartiga aylanib bormoqda, balki faqat relyatsion xususiyatga ega 123 . Download 1.56 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling