Big data tahlili


Yarim strukturalangan ma’lumotlar


Download 1.27 Mb.
bet24/71
Sana25.02.2023
Hajmi1.27 Mb.
#1229835
1   ...   20   21   22   23   24   25   26   27   ...   71
Bog'liq
A.X.Ruzmetov Qollanma

Yarim strukturalangan ma’lumotlar
Yarim strukturalangan ma’lumotlar - bu strukturalangan va strukturalanmagan ma’lumotlar ortasidagi ma’lumotlarning bir turi. Yarim strukturalangan ma’lumotlar, albatta, belgilangan sxemaga (ya’ni strukturaga) mos kelmaydi, balki oʻz-oʻzini tavsiflashi mumkin va oddiy yorliq / qiymat juftliklariga ega boʻlishi mumkin. Masalan, yorliq / qiymat juftliklari quyidagilarni oʻz ichiga oladi:
=Jones, =Jane, and =Sarah.
Masalan EDI, SWIFT va XML larni yarim strukturalangan ma’lumotlarga kiradi. Ularni kompleks jarayonlarni qayta ishlash uchun foydali yuklanishlar deb qaraladi.
Katta ma’lumotlarni boshqarishda CMSning roʻli
Tashkilot ma’lumotlar bazalarida ba’zi strukturalanmagan ma’lumotlarni saqlaydi. Shu bilan birga, ular kontentning toʻliq hayotiy davrini boshqarishi mumkin boʻlgan korporativ kontentni boshqarish tizimlaridan (CMS) foydalanadilar. Bunga veb-kontent, hujjat kontenti va boshqa ommaviy axborot vositalari kirishi mumkin.
Axborot va tasvirlarni boshqarish assotsiatsiyasi (AIIM; www.aiim.org;) ma’lumotlariga koʻra, ta’lim, tadqiqotlar va ilgʻor tajribalarni taʻminlaydigan notijorat tashkilot, karporativ kontentni boshqarish (ECM) tarkibiga “strategiyalar, usullar va vositalar tashkiliy jarayonlar bilan bogʻliq kontent va hujjatlarni olish, boshqarish, yigʻish, saqlash va etkazib berish” kiradi. ECM-ga kiritilgan texnologiyalar hujjatlarni boshqarish, yozuvlarni boshqarish, tasvirlash, ish oqimlarini boshqarish, veb-kontentni boshqarish va hamkorlik.
Butun sanoat kontentni boshqarish asosida oʻsdi va koʻplab kontentni savdosi bilan shugʻullanuvchilar bu katta hajmdagi strukturalanmagan ma’lumotlarga ishlov berish oʻzlarining yechimlari hajmini kengaytirmoqda. Shu bilan birga, strukturalanmagan ma’lumotlarni qoʻllab-quvvatlashga va strukturalanmagan ma’lumotlarni tahlil qilishga yordam beradigan yangi texnologiyalar ham rivojlanib bormoqda. Ulardan ba’zilari ham strukturalangan, ham strukturalanmagan ma’lumotlarni qoʻllab-quvvatlaydi. Ba’zilar real vaqt potoklarini qoʻllab-quvvatlaydi. Ular orasida Hadoop, MapReduce va potok kabi texnologiyalar mavjud.
Tarkibni kontentni boshqarish tizimlari shaklida saqlash uchun moʻljallangan tizimlar endi mustaqil yechimlar emas. Aksincha, ular ma’lumotni boshqarish boʻyicha umumiy yechimning bir qismi boʻlishi mumkin. Masalan, sizning tashkilotingiz keyinchalik CMS qidiruvi dasturiy triggeri boʻladigan Twitter-kanallarini kuzatishi mumkin. Endi tvitni qoʻygan shaxs (ehtimol, muammoning yechimini izlashi mumkin) u odam oʻzi qidirayotgan mahsulotni topishi mumkin boʻlgan joyni taklif qiladigan javobni oladi. Bunda ushbu turdagi oʻzaro ta’sirni real vaqtda sodir boʻlishi muhim hisoblanadi. Bundan tashqari, u real vaqt rejimida strukturalanmagan, strukturalangan (mijozning tvitterda yozgan shaxs haqidagi ma’lumotlari) va yarim strukturalangan (CMSdagi asl tarkib) ma’lumotlaridan foydalanish qiymatini koʻrsatadi.

Real va real boʻlmagan vaqtdagi talablar


Ushbu bobning avvalgi boʻlimlarida muhokama qilganimizdek, katta ma’lumotlar koʻpincha texnologiyaning ilgʻor boʻlmaganligi yoki buning uchun sarf-xarajatlar juda katta boʻlganligi sababli mumkin boʻlmagan narsalarni qilish bilan bogʻliq. Biz katta ma’lumotlar bilan duch keladigan katta oʻzgarish - bu oʻtmishda talab qilinadigan barcha kompleks dasturlashlarsiz katta hajmdagi ma’lumotlardan foydalanish imkoniyati. Koʻpgina tashkilotlar katta hajmdagi murakkab ma’lumotlarni boshqarish nuqtai nazaridan eng yuqori nuqtada. Ma’lumotlarning katta hajmdagi yondashuvlari muvozanatni saqlashga yordam beradi, shuning uchun ma’lumotlar hajmi, xilma-xilligi va tezligi oʻzgarganda chekkada turmaslik kerak. Kompaniyalar yuqori tezlikda boshqarilishi kerak boʻlgan koʻpayib borayotgan ma’lumotlarning hajmini boshqarishda qiynalishdi. Ma’lumotlar ochib berishi mumkin boʻlgan toʻliq tasavvurga ega boʻlish uchun tashkilotlarga koʻpincha tanqidiy ma’lumotlarga ega boʻlmagan kichik kichik toʻplamlarni tahlil qilish bilan shugʻullanishga toʻgʻri keldi. Katta ma’lumot texnologiyalari rivojlanib, joylashtirilishi bilan biz ma’lumotlarni osonroq tahlil qilamiz va undan qaror qabul qilish yoki harakatlar qilish uchun foydalanamiz.
Katta ma’lumotlarning real vaqtdagi tomonlari kompaniyalar muhim muammolarni hal qilishlari kerak boʻlganda inqilobiy boʻlishi mumkin. Quyidagi roʻyxatda kompaniya tezkor ustunlikka erishish uchun real vaqtda ma’lumotlardan qachon foydalanishni xohlashiga misollar keltirilgan:

  • Firibgarlik/razvedka kabi yangi ma’lumotlar bilan istisno holatini kuzatish;

  • Moliyaviy bozorlarga ta’sir qilishi mumkin boʻlgan voqealarni aniqlash uchun yangiliklar lentalari va ijtimoiy tarmoqlarni kuzatib borish, masalan, xaridorning yangi mahsulot e’loniga munosabati;

  • Haqiqiy vaqtdagi Twitter oqimlari asosida katta sport tadbirlari davomida reklama joylashuvingizni oʻzgartirish;

  • Savdo joyida sotib olgan narsalariga qarab xaridorga kupon taqdim etish.

Ba’zan potok ma’lumotlari juda tez keladi va keng koʻlamdagi manbalarni oʻz ichiga olmaydi, ba’zida koʻp xilma-xillik mavjud, ba'zan esa bu ikkalasining kombinatsiyasi. Shu bilan birga, quyidagi roʻyxat tizimdagi ma’lumotlarni qabul qilish, qayta ishlash va real vaqt rejimida tahlil qilish qobiliyatini eʻtiborga olish kerak boʻlgan bir nechta narsa berilgan:

  • Kam kechikish: kechikish - bu xizmatning atrof muhitda ishlashiga imkon beradigan vaqtni kechiktirish. Ba’zi ilovalar kamroq kechikishni talab qiladi, ya’ni ular real vaqt rejimida javob berishlari kerak. Haqiqiy vaqtda oqim past kechikishni talab qiladi. Shuning uchun siz hisoblash quvvati bilan bir qatorda tarmoq cheklovlari haqida oʻylashingiz kerak.

  • Miqyosi: Miqyosi, ortib borayotgan yuk ostida ham ma’lum bir ishlash darajasini saqlab turish qobiliyatidir.

  • Koʻp qirralilik: Tizim ma’lumotlar oqimlarini ham tuzilgan, ham tuzilmalarini qoʻllab-quvvatlashi kerak.

  • Mahalliy format: Ma’lumotlardan asl shaklida foydalaning. Transformatsiya vaqt va pulni talab qiladi. Voqealarni qoʻzgʻatadigan ma’lumotlarda murakkab oʻzaro ta’sirlarni qayta ishlash gʻoyasidan foydalanish imkoniyati oʻzgaruvchan boʻlishi mumkin.

Doimiy ravishda koʻpayib borayotgan turli xil ma’lumotlarni qayta ishlashga ehtiyoj bulut xizmatlarini qabul qilishga turtki beradigan asosiy omillardan biridir. Bulut modeli keng koʻlamli va taqsimlangandir.

Katta ma’lumotlarni birlashtirish


Strukturalangan va strukturalanmagan ma’lumotlaringiz bilan nima qilishni xohlashingiz, nima uchun bitta texnologiyani boshqasidan koʻra tanlashingiz mumkinligini koʻrsatadi. Bundan tashqari, ushbu ma’lumotlarni kerakli joyga qoʻyish uchun kirish ma’lumotlarining strukturalarini tushunish zarurligi belgilanadi.
Turli xil ma’lumotlar turlarini qoʻllash
2.2-rasmda katta ma’lumotlarning Ba’zi xususiyatlarini va ularning har biriga murojaat qilish uchun ishlatishingiz mumkin boʻlgan ma’lumotlarni boshqarish tizimlarining turlari berilgan jadval keltirilgan.

2.2-rasm. Turli xil ma’lumotlar turlarining xususiyatlari






Dasturlarni guruhlash

Potoklab uzatish

Murakkab soʻrov

Strukturalangan



Hadoop

Kalit/Qiymat

RDBMS

Strukturalanmagan



Hujjat

Fazoviy grafik

Ustunli

Ikkalasi ham

Gibrid

Gibrid

Gibrid


Download 1.27 Mb.

Do'stlaringiz bilan baham:
1   ...   20   21   22   23   24   25   26   27   ...   71




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling