Big data tahlili


-jadval. SQL va NoSQL ma’lumotlar bazalarining muhim xususiyatlari


Download 1.27 Mb.
bet32/71
Sana25.02.2023
Hajmi1.27 Mb.
#1229835
1   ...   28   29   30   31   32   33   34   35   ...   71
Bog'liq
A.X.Ruzmetov Qollanma

4.1-jadval. SQL va NoSQL ma’lumotlar bazalarining muhim xususiyatlari




Mexanizm

Soʻrov tili

MapReduce

Ma’lumot turlari

Amallar


Relyatsion

SQL, Python, C

Yoʻq

Tiplangan

ACID

PostgreSQL,
Oracle, DB/2

Ustunli

Ruby

Hadoop

Oldindan belgilangan va tiplangan

Ha, agar yoqilgan boʻlsa

HBase

Grafik

Walking,
Search,
Cypher

Yoʻq

Tiplanmagan

ACID

Neo4J

Xujjat

Commands

JavaScript

Tiplangan

Yoʻq

MongoDB, CouchDB

Kalit-qiymat

Lucene, Commands

JavaScript

BLOB, yarimtiplangan

Yoʻq

Riak, Redis

Oʻzingizning talablaringizni tushunib, qanday ma’lumotlarni toʻplayotganingizni, qaerga qoʻyishingizni va u bilan nima qilishni bilganingizdan soʻng, ularni tahlil qilish, hisobot yoki maxsus dasturlar uchun ishlatilishi uchun tartibga solish kerak.


3-qatlam: Ma’lumot xizmatlari va vositalarini tashkil etish


Ma’lumot xizmatlari va vositalarini tashkil qilish, kontekstga tegishli toʻplamlarda turli xil katta ma’lumotlar elementlarini toʻplash, tasdiqlash va yigʻish. Katta ma’lumotlar juda katta boʻlganligi sababli, ma’lumotlarni samarali va muammosiz qayta ishlash texnikasi rivojlandi. Bu erda ma’lumotni tashkil etuvchi xizmatlarning aksariyati MapReduce dvigatellari ekanligini, ayniqsa katta ma’lumotlar oqimlarini tashkil etishni optimallashtirish uchun moʻljallanganligini aytish kifoya.
Ma’lumotlarga xizmat koʻrsatuvchi tashkilot bu aslida qayta ishlashga tayyorgarlik jarayonida ma’lumotlarni yigʻish va birlashtirish uchun ishlatilishi mumkin boʻlgan vositalar va texnologiyalarning ekotizimidir. Shunday qilib, vositalar integratsiya, tarjima, normallashtirish va masshtabni ta’minlashi kerak. Ushbu darajadagi texnologiyalar quyidagilarni oʻz ichiga oladi:

  • Taqsimlangan fayl tizimi: ma’lumotlar oqimining dekompozitsiyasini qoʻllab-quvvatlash va koʻlamini kengaytirish va saqlash hajmini ta’minlash uchun talab qilinadi.

  • Serialash xizmatlari: Ma’lumotlarni doimiy saqlash va koʻp tilli masofaviy protsedura chaqiruvlari (RPC) uchun talab qilinadi.

  • Muvofiqlashtirish xizmatlari: taqsimlangan dasturlarni yaratish uchun kerak (bloklash va hk).

  • Chiqarish, oʻzgartirish va yuklash (ETL) vositalari: Hadoop-da strukturalangan va strukturalanmagan ma’lumotlarni yuklash va oʻzgartirish uchun talab qilinadi.

  • Ish oqimi xizmatlari: Ishlarni rejalashtirish va turli darajadagi jarayon elementlarini sinxronlashtirish uchun tuzilmani taqdim etish uchun juda zarur.



4-qatlam: Analitik ma’lumotlar omborlari


Ma’lumotlar ombori va uning hamrohi ma’lumotlar oynasi (Data mart) uzoq vaqtdan beri tashkilotlarning qaror qabul qiluvchilarga yordam berish uchun ma’lumotlarni optimallashtirish uchun ishlatadigan asosiy metodlari boʻlib kelgan. Odatda ma’lumotlar omborlari va ma’lumotlar marshrutlari turli xil manbalardan toʻplangan va biznesni tahlil qilishni osonlashtirish uchun toʻplangan normallashtirilgan ma’lumotlarni oʻz ichiga oladi. Ma’lumotlar omborlari va oynasi turli xil ma’lumotlar haqida hisobot berishni va tasavvur qilishni osonlashtiradi. Ular odatda relyatsion ma’lumotlar bazalari, koʻp oʻlchovli ma’lumotlar bazalari, tekis fayllar va ob’ekt ma’lumotlar bazalaridan asosan har qanday saqlash arxitekturasidan tuzilgan. An’anaviy muhitda ishlash eng ustuvor vazifa boʻlmasligi mumkin, asosiy texnologiyani tanlash kompaniyaning analitik, hisobot va vizualizatsiya talablari asosida amalga oshiriladi.
Ma’lumotlarni tashkil qilish va tahlil qilishga tayyor boʻlish muhim boʻlganligi sababli, ma’lumotlar omborining aksariyat dasturlari ommaviy qayta ishlash orqali dolzarb boʻlib turadi. Muammo shundaki, ommaviy yuklangan omborlar va ma’lumotlar marshrutlari koʻplab katta ma’lumotlar dasturlari uchun yetarli boʻlmasligi mumkin. Ma’lumotlarning yuqori tezlikdagi oqimlaridan kelib chiqadigan stress, katta hajmdagi ma’lumotlar omborlariga real vaqt rejimida yondashishni talab qilishi mumkin. Bu analitik ma’lumotlar omborini yoki ma’lumotlar martini ommaviy jarayonlar bilan yaratmaysiz va toʻldirmaysiz degani emas. Ehtimol, sizda bir nechta ma’lumotlar omborlari yoki ma’lumotlar marshrutlari boʻlishi mumkin va ularning ishlashi va koʻlami tahlilchilar va qaror qabul qiluvchilarning vaqt ehtiyojlarini aks ettiradi.
Ma’lumotlar omborlari va ma’lumotlarning koʻpligi kompaniyaning turli manbalaridan toʻplangan ma’lumotlardan iborat boʻlganligi sababli, ma’lumotlarni tozalash va normalizatsiya qilish bilan bogʻliq xarajatlarni ham hisobga olish kerak. Katta ma’lumotlar bilan siz bir nechta asosiy farqlarni topasiz:

  • An’anaviy ma’lumotlar oqimlari (tranzaktsiyalar, ilovalar va boshqalardan) juda koʻp turli xil ma’lumotlarni keltirib chiqarishi mumkin.

  • Bundan tashqari, oʻnlab yangi ma’lumotlar manbalari mavjud, ularning har biri oʻz vaqtida va biznes uchun foydali boʻlguncha biroz qayta ishlashni talab qiladi.

  • Tarkib manbalarini tozalash kerak boʻladi va buning uchun siz strukturalangan ma’lumotlar bilan ishlashdan farqli usullarni talab qilishingiz mumkin.

Tarixiy jihatdan ma’lumotlar omborlari va ma’lumotlar marshrutlari tarkibi tashkil etilgan va strategiya hamda rejalashtirish uchun mas'ul boʻlgan biznes rahbarlariga yetkazilgan. Katta ma’lumotlar bilan biz qaror qabul qilish uchun ma’lumotlardan foydalanadigan yangi buyruqlar toʻplamini koʻramiz. Koʻpgina yirik ma’lumotlarni amalga oshirish real vaqt rejimida imkoniyatlarni taqdim etadi, shuning uchun kompaniyalar tarkibni yetkazib berishga qodir boʻlishi kerak, shunda ish oʻrinlari boʻlgan odamlar mijozlarni qoʻllab-quvvatlash, sotish imkoniyatlari va xizmat koʻrsatishda uzilishlar kabi muammolarni yaqin vaqt ichida hal qilishlari mumkin. Shunday qilib, katta ma’lumotlar tadbirlarni orqa ofisdan oldingi ofisga koʻchirishga yordam beradi.

Katta ma’lumotlar tahlili


Mavjud tahlil vositalari va texnikasi katta ma’lumotlarni tushunishda juda foydali boʻladi. Biroq, bir kamchilik bor. Ushbu vositalarga kiritilgan algoritmlar real vaqt rejimida turli xil potentsial ma’lumotlar bilan ishlash imkoniyatiga ega boʻlishi kerak. Buni qoʻllab-quvvatlash uchun avval ushbu bobda aytib oʻtganimiz infratuzilma mavjud boʻlishi kerak. Bundan tashqari, analitik vositalarni taqdim etadigan yetkazib beruvchilar ham oʻzlarining algoritmlarini taqsimlangan dasturlarda ishlashini ta’minlashlari kerak. Ushbu murakkabliklar tufayli biz katta ma’lumotlarni tushunishga yordam beradigan yangi vositalar sinfini kutmoqdamiz.
Biz mos yozuvlar arxitekturasining ushbu darajasida uchta sinf vositalarini sanab oʻtamiz. Qaror qabul qiluvchilar ulardan mustaqil ravishda yoki jamoaviy ravishda biznes yuritish uchun foydalanishlari mumkin. Asboblarning uchta klassi quyidagicha:

  • Hisobot va boshqaruv panellari. Ushbu vositalar turli xil manbalardan olingan ma’lumotlarning “qulay” taqdimotini taʻminlaydi. Ushbu soha an’anaviy ma’lumotlar dunyosining asosi boʻlsa-da, katta ma’lumotlar uchun hali ham rivojlanib bormoqda. Amaldagi ba’zi vositalar an’anaviy boʻlib, ular endi ma’lumotlar bazalarining yangi turlariga kirishlari mumkin, bular NoSQL (Faqat SQL emas) deb nomlanadi.

  • Vizualizatsiya: Ushbu vositalar hisobot berish evolyutsiyasining keyingi bosqichidir. Natija odatda juda interaktiv va dinamik xarakterga ega. Hisobotlarning koʻrsatilayotgan chiqishi bilan yana bir muhim farqi - bu animatsiya. Biznes foydalanuvchilari turli xil vizualizatsiya usullari, jumladan, aqlli xaritalar, issiqlik xaritalari, infografika va sxemalar yordamida ma’lumotlar oʻzgarishini kuzatishi mumkin. Koʻpincha, hisobot va vizualizatsiya biznes oxirida sodir boʻladi. Ma’lumotlarni keyingi hisoblash yoki oʻrganish uchun boshqa vositaga import qilish mumkin boʻlsa-da, bu oxirgi qadam.

  • Tahlillar va chuqurlashgan tahlil : Ushbu vositalar ma’lumotlar omboriga kirib boradi va ma’lumotlarni iste’mol qilish uchun qayta ishlaydi. Ilgʻor tahlillar oʻzgaruvchan, noyob yoki mavjud biznes amaliyotida inqilobiy boʻlgan tendentsiyalar yoki voqealarni aniqlashi kerak. Bashoratli tahlil va hissiyotlar analitikasi bu fanning yaxshi namunalari.

Katta ma’lumotlar uchun ilovalar


Maxsus va uchinchi tomon dasturlari katta ma’lumot manbalarini almashish va oʻrganish uchun muqobil usulni taklif etadi. Ma’lumotnoma arxitekturasining barcha darajalari oʻz-oʻzidan muhim boʻlsa-da, aynan shu darajada koʻpgina innovatsiyalar va ijodkorlik paydo boʻladi.
Ushbu dasturlar gorizontaldir, chunki ular sanoat sohalarida keng tarqalgan muammolarni hal qiladi yoki vertikal, chunki ular sanoat muammolarini hal qilish uchun moʻljallangan. Savdoda mavjud boʻlgan katta ma’lumotlar dasturlari toifalari asosiy texnologiyani qabul qilish darajasidan tezroq yoki tezroq oʻsishini kutmoqdamiz. Ushbu yozuv paytida, eng keng tarqalgan toifalar jurnalni qayta ishlash dasturlari (Splunk, Loggly), reklama / media dasturlari (Bluefin, DataXu) va marketing dasturlari (Bloomreach, Myrrix). Sogʻliqni saqlash, ishlab chiqarish va transportni boshqarish uchun yechimlar ham ishlab chiqilmoqda.
Har qanday maxsus dastur ishlab chiqish tashabbusi singari, katta ma’lumot dasturlarini yaratish uchun tuzilish, standartlar, qat’iylik va aniq belgilangan API talab etiladi. Katta ma’lumotlardan foydalanishni istagan aksariyat ishbilarmonlarning ilovalari butun toʻplamga API-ga obuna boʻlishlari kerak. Qayta ishlanmagan ma’lumotlarni past darajadagi ma’lumotlar zaxiralaridan qayta ishlash va zaxiralardan olingan sintezlangan mahsulot bilan qayta ishlanmagan ma’lumotlarni birlashtirish kerak boʻlishi mumkin. Siz kutganingizdek, ish muddati moslashtiriladi va katta ma’lumotni amalga oshirishga har xil bosim oʻtkazadi.
Katta ma’lumotlar tez boyib boradi va koʻz ochib yumguncha oʻzgaradi, shuning uchun dasturiy ta’minot guruhlari oʻzlarining dolzarb biznes muammolariga javob beradigan dasturlarni tezda yaratishi kerak. Kompaniyalar ishbilarmonlik muhitidagi oʻzgarishlarga tezkor ravishda murojaatlarni yaratish va joylashtirish orqali tezda javob beradigan “yoʻlbars jamoalarini” yaratish haqida oʻylashlari kerak boʻlishi mumkin. Aslida, ushbu dasturlarni “yarim statsionar” deb hisoblash maqsadga muvofiqroq boʻlishi mumkin, chunki ular haqiqiy past darajadagi kodlashdan koʻra koʻproq yigʻilishni talab qiladi.
Vaqt oʻtishi bilan ba’zi bir dastur turlari kontekstda komponentlar palitrasidan yechim yigʻadigan oxirgi foydalanuvchi tomonidan yaratilishini kutmoqdamiz. Tabiiyki, bu yerda tuzilish va standartlashtirish eng zarurdir. Dasturiy ta’minot ishlab chiqaruvchilari izchil, standartlashtirilgan ishlab chiqish muhitlarini yaratishlari va katta ma’lumot dasturlarini tezda joylashtirish uchun yangi ishlab chiqish usullarini ishlab chiqishlari kerak.

Download 1.27 Mb.

Do'stlaringiz bilan baham:
1   ...   28   29   30   31   32   33   34   35   ...   71




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling