Reja: Ma'lumotlarni tahlil qilish turlari: texnikasi va usullari

Katta ma’lumotlar va biznes. Katta ma’lumotlarni tahlil

bet	6/7
Sana	24.01.2023
Hajmi	0.54 Mb.
	#1115465

1 2 3 4 5 6 7

Bog'liq
qalbi

2. Katta ma’lumotlar va biznes. Katta ma’lumotlarni tahlil
qilish texnikasi.
Ma’lumotlar to’plamini tahlil qilishning turli xil usullari mavjud, ular statistikadan va kompyuter fanidan olingan vositalarga asoslangan (masalan, mashinada o’rganish). Ro’yxat to’liq deb da’vo qilmaydi, ammo u turli sohalardagi eng mashhur yondashuvlarni aks ettiradi. Shu bilan birga, tadqiqotchilar yangi texnikalarni yaratish va mavjudlarini takomillashtirish ustida ishlashni davom ettirishlarini tushunish kerak. Bundan tashqari, yuqorida sanab o’tilgan ba’zi usullar faqat katta ma’lumotlarga taalluqli emas va kichik massivlar uchun muvaffaqiyatli ishlatilishi mumkin (masalan, A/B sinovlari, regressiya tahlili). Albatta, massiv qanchalik ko’p hajmli va turlicha tahlil qilinsa, chiqishda shuncha aniq va kerakli ma’lumotlarni olish mumkin. A/B sinovlari. Nazorat namunasi boshqalar bilan birma-bir taqqoslanadigan usul. Shunday qilib, masalan, marketing taklifiga iste'molchilarning eng yaxshi javobini olish uchun ko’rsatkichlarning optimal kombinatsiyasini aniqlash mumkin. Katta ma’lumotlar juda ko’p sonli takrorlashni amalga oshirishga imkon beradi va shu bilan statistik jihatdan ishonchli natijaga erishadi. Uyushma qoidalarini o’rganish. O’zaro munosabatlarni aniqlash uchun texnik vositalar to’plami, ya’ni. assotsiatsiya qoidalari, katta ma’lumotlar to’plamidagi o’zgaruvchilar o’rtasida. Ichida ishlatilgan ma’lumotlar qazib olish. Tasnifi. Bozorning ma’lum bir segmentida iste'molchilarning xatti-harakatlarini bashorat qilishga imkon beradigan texnikalar to’plami (sotib olish, chiqib ketish, iste'mol qilish va h.k.). Ichida ishlatilgan ma’lumotlar qazib olish. Klaster tahlili. Oldindan noma’lum bo’lgan umumiy xususiyatlarni aniqlash orqali ob'ektlarni guruhlarga ajratishning statistik usuli. Ichida ishlatilgan ma’lumotlar qazib olish. Ko’p sonli manbalardan ma’lumotlarni yig’ish metodikasi. Ma’lumotlarni birlashtirish va ma’lumotlarni birlashtirish. Ijtimoiy tarmoqlar foydalanuvchilarining sharhlarini tahlil qilish va real vaqt rejimida ularni savdo natijalari bilan taqqoslash imkonini beradigan texnikalar to’plami. Ma’lumotlarni qazib olish. Rag’batlantirilayotgan mahsulot yoki xizmatni eng yaxshi qabul qiladigan iste'molchilar toifalarini aniqlashga, eng muvaffaqiyatli xodimlarning xususiyatlarini aniqlashga va iste'molchilarning xulq-atvor modelini taxmin qilishga imkon beradigan usullar to’plami.
Ansamblni o’rganish. Ushbu usulda turli xil prognozli modellar qo’llaniladi va shu bilan prognozlar sifati yaxshilanadi. Genetik algoritmlar. Ushbu texnikada mumkin bo’lgan echimlar birlashishi va mutatsiyaga uchrashi mumkin bo’lgan "xromosomalar" shaklida keltirilgan. Tabiiy evolyutsiya jarayonida bo’lgani kabi, eng yaroqli tirik qoladi. Mashinada o’qitish. Informatikadagi yo’nalish (tarixiy jihatdan "sun'iy intellekt" nomi uning orqasida qolgan), bu empirik ma’lumotlarni tahlil qilish asosida o’z-o’zini o’rganish algoritmlarini yaratishga qaratilgan. Tabiiy tilni qayta ishlash (NLP). Informatika va lingvistikadan olingan insonning tabiiy tilini tanib olish texnikasi to’plami. Tarmoq tahlili. Tarmoqlardagi tugunlar orasidagi bog’lanishlarni tahlil qilish texnikasi to’plami. Ijtimoiy tarmoqlarda qo’llaniladi, bu sizga individual foydalanuvchilar, kompaniyalar, jamoalar va boshqalar o’rtasidagi munosabatlarni tahlil qilish imkonini beradi. Optimallashtirish. Bir yoki bir nechta ko’rsatkichlarni yaxshilash uchun murakkab tizimlar va jarayonlarni qayta loyihalashtirishning raqamli usullari to’plami. Strategik qarorlarni qabul qilishda yordam beradi, masalan, bozorga kiritilgan mahsulot qatorining tarkibi, investitsiya tahlilini o’tkazish va hk. Naqshni tanib olish. Iste'molchilarning xulq-atvor shakllarini bashorat qilish uchun o’z-o’zini o’rganish elementlariga ega bo’lgan texnikalar to’plami. Bashoratli modellashtirish. Hodisalarni rivojlantirish uchun oldindan aniqlangan taxminiy stsenariyning matematik modelini yaratishga imkon beradigan texnikalar to’plami. Masalan, ma’lumotlar bazasini tahlil qilish CRM - obunachilarni o’z provayderlarini o’zgartirishga undaydigan mumkin bo’lgan sharoitlar tizimlari. Regressiya. Bog’liq o’zgaruvchining o’zgarishi va bir yoki bir nechta mustaqil o’zgaruvchilar o’rtasidagi qonuniyatlarni aniqlash uchun statistik usullar to’plami. Ko’pincha prognozlash va bashorat qilish uchun ishlatiladi. Ma’lumotlarni qazib olishda foydalaniladi. Tuyg’ularni tahlil qilish. Iste'molchilarning kayfiyatini baholash usullari insonning tabiiy tilini tanib olish texnologiyalariga asoslangan. Ular sizga qiziqish mavzusi bilan bog’liq bo’lgan umumiy ma’lumot oqimidan xabarlarni ajratishga imkon beradi (masalan, iste'mol tovarlari). Keyinchalik, hukmning kutupliligini (ijobiy yoki salbiy), hissiyot darajasi va boshqalarni baholang. Signalni qayta ishlash. Shovqin fonida signallarni tanib olish va uni keyingi tahlil qilish maqsadiga qaratilgan radiotexnika tomonidan olingan texnikalar to’plami. Mekansal tahlil. Statistik ma’lumotlardan qisman olingan kosmik ma’lumotlarni tahlil qilish usullari to’plami - relyef topologiyasi, geografik koordinatalar, ob'ektlarning geometriyasi. Manba katta ma’lumotlar bu holda ko’pincha geografik axborot tizimlari (GIS) ishlatiladi. Statistika. Ma’lumotlarni yig’ish, tartibga solish va sharhlash, shu jumladan anketalarni loyihalash va tajribalar o’tkazish fani. Statistik usullar ko’pincha ba’zi hodisalar o’rtasidagi munosabatlar to’g’risida baholash uchun ishlatiladi. Nazorat ostida o’rganish. Tahlil qilinayotgan ma’lumotlar to’plamida funktsional munosabatlarni aniqlashga imkon beradigan mashinasozlik texnologiyalariga asoslangan metodlar to’plami. Simulyatsiya. Murakkab tizimlarning xatti-harakatlarini modellashtirish ko’pincha rejalashtirishda bashorat qilish, bashorat qilish va turli xil stsenariylarni ishlab chiqish uchun ishlatiladi. Vaqt qatorlarini tahlil qilish. Vaqt o’tishi bilan takrorlanadigan ma’lumotlar ketma-ketligini tahlil qilish usullari to’plami, statistika va raqamli signallarni qayta ishlashdan olingan. Aniq qo’llanilishlardan biri bu fond bozori yoki bemorlarning kasalligini kuzatib borishdir. Nazorat qilinmagan o’rganish. Tahlil qilinayotgan ma’lumotlar to’plamida yashirin funktsional munosabatlarni ochib berishga imkon beradigan mashinasozlik texnologiyalariga asoslangan metodlar to’plami. Bilan birgalikda Klaster tahlili. Vizualizatsiya. Tafsirni osonlashtirish va natijalarni tushunishni osonlashtirish uchun katta ma’lumotlarni tahlil qilish natijalarini diagramma yoki animatsion rasm shaklida grafik tarzda taqdim etish usullari. Katta ma’lumotlarni tahlil qilish natijalarini vizualizatsiya qilish ularni izohlash uchun muhimdir. Hech kimga sir emaski, odamlarning idroki cheklangan va olimlar ma’lumotlarni tasvirlar, diagrammalar yoki animatsiyalar ko’rinishida taqdim etishning zamonaviy usullarini takomillashtirish bo’yicha izlanishlarni davom ettirmoqdalar.
Jahon va Rossiya bozori Katta ma’lumotlar peyzaji - Asosiy etkazib beruvchilar.

To’plash, qayta ishlash, boshqarish va tahlil qilish vositalariga qiziqish katta ma’lumotlar deyarli barcha etakchi IT-kompaniyalarni namoyish etdi, bu juda tabiiy. Birinchidan, ular ushbu hodisaga bevosita o’z bizneslarida duch kelishadi, ikkinchidan. katta ma’lumotlar yangi bozor joylarini rivojlantirish va yangi mijozlarni jalb qilish uchun ajoyib imkoniyatlarni oching. Bozorda juda katta miqdordagi ma’lumotlarni qayta ishlash bilan shug’ullanadigan ko’plab startaplar paydo bo’ldi. Ulardan ba’zilari Amazon kabi yirik o’yinchilar tomonidan taqdim etiladigan "bulutli" infratuzilmadan foydalanadilar.
Sanoatdagi katta ma’lumotlarning nazariyasi va amaliyoti
Katta ma’lumotlarning asosiy afzalliklari orasida respondentlar quyidagilarni ta’kidladilar: "Yangi daromad manbalarini izlash" (56%), "Mijozlar tajribasini yaxshilash" (51%), "Yangi mahsulotlar va xizmatlar" (50%) va "Yangi mijozlar oqimi va eskilariga sodiqlikni saqlash" (47%). Ko’pgina kompaniyalar yangi texnologiyalarni joriy qilishda an'anaviy muammolarga duch kelishdi. 51 foizga to’sqinlik xavfsizlikka, 47 foizga byudjetga, 41 foizga zarur kadrlar etishmasligiga, 35 foizga esa mavjud tizimga qo’shilishdagi qiyinchiliklarga olib keldi. So’ralgan deyarli barcha kompaniyalar (taxminan 91%) tez orada kadrlar etishmasligi bilan muammolarni hal qilishni va katta ma’lumot mutaxassislarini jalb qilishni rejalashtirmoqdalar.

Kompaniyalar katta ma’lumot texnologiyalari kelajagiga umid bilan qarashadi. 89% Internet kabi o’z biznesini o’zgartirishga ishonadi. Respondentlarning 79 foizi katta ma’lumotlar bilan shug’ullanmaydigan kompaniyalar raqobatbardoshligini yo’qotishini ta’kidladilar. Biroq, respondentlar katta ma’lumotlar sifatida qaralishi kerak bo’lgan narsalar to’g’risida kelishmovchiliklarga duch kelishdi. Respondentlarning 65% bu "katta ma’lumotlar fayllari", 60% "ilg’or tahlil va tahlil", 50% esa "vizualizatsiya vositalari ma’lumotlari" deb hisoblashadi. Madrid katta ma’lumotlarni boshqarish uchun 14,7 million evro sarflaydi 2014 yil iyul oyida bu ma’lum bo’ldi Madrid shahar infratuzilmasini boshqarish uchun katta ma’lumotlar texnologiyalaridan foydalanadi. Loyiha qiymati - 14,7 million evro, amalga oshirilgan echimlarning asosi katta ma’lumotlarni tahlil qilish va boshqarish texnologiyalari bo’ladi. Ularning yordami bilan shahar ma’muriyati har bir xizmat ko’rsatuvchi provayder bilan ishlashni boshqaradi va xizmatlar darajasiga qarab tegishli ravishda to’laydi. Biz ma’muriyatning ko’chalari, yorug’lik, sug’orish, yashil maydonlarning holatini kuzatadigan, hududni tozalaydigan va olib tashlaydigan, shuningdek chiqindilarni qayta ishlovchi pudratchilar haqida gapiramiz. Loyiha davomida maxsus tayinlangan inspektorlar uchun shahar xizmatlarining 300 ta asosiy ko’rsatkichlari ishlab chiqildi, ular asosida har kuni 1,5 ming xil tekshiruv va o’lchovlar amalga oshiriladi. Bundan tashqari, shahar Madrid iNTeligente (MiNT) - Smarter Madrid deb nomlangan innovatsion texnologik platformadan foydalanishni boshlaydi.
Katta ma’lumotlar(Big Data) "muammo" so’zi bilan birlashtirilib, ushbu mavzu sirini yanada kuchaytiradi. Shu vaqt ichida "muammo" yirik ishlab chiqaruvchilarning katta qismining diqqat markaziga aylandi, echim topish umidida ko’plab startaplar yaratilmoqda va barcha etakchi sanoat tahlilchilari raqobatbardoshlikni ta’minlash uchun katta hajmdagi ma’lumotlar bilan ishlash qobiliyati qanchalik muhimligini karnay qilishdi. Bunday, juda asosli bo’lmagan ommaviy xarakter norozilikni keltirib chiqaradi va shu mavzu bo’yicha ko’plab shubhali bayonotlarni topish mumkin, ba’zan esa Big Data hatto qizil seld deb ataladi (so’zma-so’z "dudlangan seld" yolg’on iz, chalg’ituvchi narsa). Xo’sh, Big Data nima? Eng oson yo’li - bu Big Data-ni o’z-o’zidan qulab tushgan va yo’q joydan tushgan ma’lumotlar ko’chkisi shaklida tasavvur qilish yoki muammoni axborot muhitini tubdan o’zgartiradigan yangi texnologiyalarga kamaytirish yoki ehtimol Big Data bilan birgalikda biz texnologik inqilobning yana bir bosqichini boshdan kechirayapmizmi? Ehtimol, bu ham, boshqasi ham, uchinchisi va hali noma’lum. Katta ma’lumotlar iborasini o’z ichiga olgan to’rt milliondan ortiq veb-sahifalarning bir millionida ta’rif so’zi borligi ahamiyatlidir - Big Data haqida yozuvchilarning kamida to’rtdan biri o’z ta’rifini berishga harakat qilmoqda. Bunday ommaviy qiziqish, katta ma’lumotlarda, ehtimol, kundalik ong oldinga surayotgan narsadan sifat jihatidan farq qiladigan narsa borligini tasdiqlaydi.
Big Data-ning zikr qilingan aksariyat qismi qandaydir tarzda biznes bilan bog’liqligi noto’g’ri bo’lishi mumkin. Aslida, bu atama korporativ muhitda tug’ilgan emas, balki tahlilchilar tomonidan ilmiy nashrlardan olingan. Big Data - bu tug’ilgan kunining to’liq ishonchli sanasiga ega bo’lgan kam sonli ismlardan biri - 2008 yil 3 sentyabrda Britaniyaning eng qadimgi "Nature" ilmiy jurnalining "Katta hajmlar bilan ishlash imkoniyatlarini ochadigan texnologiyalar ilm-fan kelajagiga qanday ta’sir qilishi mumkin" degan savolga javob topishga bag’ishlangan maxsus soni chiqarildi. ma’lumotlar? " Ushbu maxsus nashr ma’lumotlarning umuman ilm-fandagi va xususan elektron fanlarda tutgan o’rni haqidagi oldingi bahslarni sarhisob qiladi.
Ma’lumotlarning fandagi o’rni juda uzoq vaqt davomida muhokama mavzusiga aylandi - ingliz astronomi Tomas Simpson 18-asrda "Astronomik kuzatishlarda raqamlardan foydalanishning afzalliklari to’g’risida" asarida birinchi bo’lib ma’lumotlarni qayta ishlash haqida yozgan, ammo faqat o’tgan asrning oxirida ushbu mavzuga qiziqish sezilarli bo’lib qoldi va ma’lumotlarni qayta ishlash o’tgan asrning oxirida, arxeologiyadan yadro fizikasiga qadar deyarli barcha fanlarda kompyuter usullari qo’llanilishi mumkinligi aniqlanganda paydo bo’ldi. Natijada, ilmiy uslublarning o’zi sezilarli darajada o’zgarib bormoqda. Kutubxona va laboratoriya so’zlaridan tashkil topgan neologizm kutubxonasi paydo bo’lishi bejiz emas, bu tadqiqot natijalari deb hisoblanishi mumkin bo’lgan tushunchadagi o’zgarishlarni aks ettiradi. Xozirgi kunga qadar faqat xomashyo eksperiment ma’lumotlari emas, balki olingan yakuniy natijalar hamkasblar hukmiga taqdim etilgan va hozirda turli xil ma’lumotlar "raqamli" ga tarjima qilinishi mumkin bo’lganida, har xil raqamli ommaviy axborot vositalari mavjud bo’lganda, nashr ob'ekti har xil o’lchovli ma’lumotlar bo’lishi mumkin va kutubxonada ilgari to’plangan ma’lumotlarni qayta ishlash imkoniyati alohida ahamiyatga ega. Va keyin ijobiy teskari aloqa rivojlanadi, buning natijasida ilmiy ma’lumotlarni to’plash jarayoni doimo tezlashadi. Shu sababli, bo’lajak o’zgarishlar ko’lamini anglagan holda, Nature Clifford Lynch muharriri Big Data yangi paradigmasi uchun maxsus nomni taklif qildi, u bu kabi metaforalar bilan o’xshashligini tanladi Big Ref, Big Ore va boshqalar, bu juda ko’p miqdordagi narsani aks ettiradi, miqdordan sifatga o’tish qancha.
Katta ma’lumotlar va biznes
Bir yildan kam vaqt o’tgach, Big Data atamasi etakchi biznes nashrlarining sahifalarida paydo bo’ldi, ammo bu erda mutlaqo boshqa metafora ishlatilgan. Big Data mineral resurslar bilan taqqoslanadi - yangi neft (yangi neft), oltin zirh (oltin shoshilinch), ma’lumotlar qazib olish (ma’lumotlar qazib olish), bu maxfiy ma’lumot manbai sifatida ma’lumotlarning rolini ta’kidlaydi; tabiiy ofatlar bilan - ma’lumotlar tornado (ma’lumotlar bo’roni), ma’lumotlar to’foni (ma’lumotlar toshqini), ma’lumotlarning to’lqin to’lqini (ma’lumotlar toshqini), ularni tahdid sifatida ko’rish; sanoat ishlab chiqarish bilan aloqani ushlab turish - ma’lumotlar egzozi, o’t o’chirish shnuri, sanoat inqilobi Biznesda, ilm-fan singari, katta hajmdagi ma’lumotlar ham mutlaqo yangi narsa emas - ular uzoq vaqtdan beri katta hajmdagi ma’lumotlar bilan ishlash zarurligi haqida gaplashib kelmoqdalar, masalan, radiochastota identifikatsiyasi (RFID) va ijtimoiy tarmoqlarning tarqalishi bilan bog’liq va h.k. va fanda unga nima bo’layotganini aniqlash uchun faqat yorqin metafora etishmadi. Shuning uchun 2010 yilda Big Data toifasiga kiritilganligini da’vo qilgan birinchi mahsulotlar paydo bo’ldi - allaqachon mavjud bo’lgan narsalar uchun mos nom bor edi. 2011 yilgi yangi texnologiyalarning holati va istiqbollarini tavsiflovchi Hype Cycle versiyasida Gartner tahlilchilari yana bitta pozitsiyani taqdim etgani katta ma’lumotlar va ekstremal axborotni qayta ishlash va boshqarish tegishli echimlarni ikki yildan besh yilgacha ommaviy ravishda amalga oshirish davrini baholash bilan.
Nima uchun Big Data muammoga duch kelmoqda?
Big Data atamasi paydo bo’lgandan keyin ham Big Data-ning biznesdagi o’rni noaniq bo’lib qolmoqda, ular shunchaki "Katta ma’lumotlar muammosi" haqida gapirishlari bejiz emas, shunchaki muammo emas, balki qolgan hamma narsa ham noto’g’ri aniqlangan. Ko’pincha, muammo sodda qilib, Mur qonuni singari talqin qilinmoqda, faqat bitta farq shundaki, bu holda biz ma’lumotlarning yiliga ikki baravar ko’payishi yoki giperbolizatsiya, deyarli tabiiy ofat sifatida namoyon bo’lish fenomeniga duch kelmoqdamiz, bu shoshilinch ravishda qandaydir tarzda hal qilinishi kerak. Haqiqatan ham ma’lumotlar ko’payib bormoqda, ammo bularning barchasi muammoning hech qanday tashqi tomonga ega emasligini e'tibordan chetda qoldirmaydi, chunki bu juda ko’p miqdordagi qulab tushgan ma’lumotlar emas, balki eski usullarning yangi jildlarga bardosh bera olmasligi va eng muhimi, biz o’zlari tomonidan yaratilgan. G’alati nomutanosiblik mavjud - ma’lumotlarni ishlab chiqarish qobiliyati ularni qayta ishlash qobiliyatidan kuchliroq. Ushbu buzilishning sababi, ehtimol, 65 yillik kompyuter tarixida biz ma’lumotlar nima ekanligini va ularni qayta ishlash natijalari bilan qanday bog’liqligini hali tushunmaganligimizdir. Asrlar davomida matematiklar o’zlarining fanlari bo’yicha raqamlar va sanoq tizimlari kabi asosiy tushunchalar bilan shug’ullanib, faylasuflarni bunga jalb qilishgani ajablanarli emas va bizning holatlarimizda ma’lumotlar va ma’lumotlar hech qanday ahamiyatsiz narsalarga e'tibor berilmaydi va intuitiv in'ikosning rahm-shafqatiga topshiriladi. Shunday qilib, 65 yil davomida ma’lumotlar bilan ishlash texnologiyalari juda tez rivojlandi va kibernetika va axborot nazariyasi juda rivojlanmadi, bu 50-yillarda saqlanib qoldi, lampalar kompyuterlari faqat hisoblash uchun ishlatilgan. Darhaqiqat, Big Data atrofidagi hozirgi shov-shuv ehtiyotkorlik bilan, shubhali tabassumni keltirib chiqaradi.
Big dataning o’'lchash va saqlash darajalari.
Bulut, katta ma’lumotlar, tahlillar - zamonaviy ITning uchta omillari nafaqat o’zaro bog’liq, balki bugungi kunda ular bir-birisiz mavjud bo’lmaydilar. Bulutli saqlash va bulutli hisoblashlarsiz Big Data bilan ishlash mumkin emas - bulutli texnologiyalarning paydo bo’lishi nafaqat g’oya shaklida, balki allaqachon tugallangan va amalga oshirilgan loyihalar ko’rinishida Big Data analitikasiga bo’lgan qiziqishning ortishi spiralining yangi turini boshlash uchun omil bo’ldi. Agar umuman olganda sohaga ta’siri haqida gapiradigan bo’lsak, bugungi kunda masshtab saqlash tizimlariga talablarning oshishi aniq bo’ldi. Bu haqiqatan ham zarur shart - axir qaysi analitik jarayonlar uchun u yoki bu ma’lumotlarga ehtiyoj borligini va mavjud xotira qanchalik intensiv yuklanishini oldindan taxmin qilish qiyin. Bundan tashqari, har ikkala vertikal va gorizontal miqyoslash talablari bir xil ahamiyatga ega bo’ladi. Saqlash tizimlarining yangi avlodida Fujitsu miqyosi va darajali saqlash jihatlariga katta e'tibor berdi. Amaliyot shuni ko’rsatadiki, bugungi kunda tahliliy vazifalarni bajarish uchun tizimlarni katta yuklash talab etiladi, ammo biznes barcha xizmatlar, dasturlar va ma’lumotlarning o’zi doimo mavjud bo’lishini talab qiladi. Bundan tashqari, bugungi kunda analitik tadqiqotlar natijalariga qo’yiladigan talablar juda yuqori - malakali, to’g’ri va o’z vaqtida olib borilgan tahliliy jarayonlar umuman biznes natijalarini sezilarli darajada yaxshilashi mumkin. – Aleksandr Yakovlev (Alexander.Yakovlev@ts.fujitsu.com), Fujitsu mahsulot marketing bo’yicha menejeri (Moskva). Ma’lumotlar va ma’lumotlarning tadqiqot mavzusi sifatida ahamiyatini inobatga olmasdan, ehtiyojlar o’zgargan bir paytda, kompyuterlarda hisoblash yuki ma’lumotlar bo’yicha bajariladigan ishlarning boshqa turlariga qaraganda ancha kam bo’lib chiqqanda, xuddi shu portlash sodir bo’ldi va bu harakatlarning maqsadi mavjud ma’lumotlar to’plamidan yangi ma’lumotlar va yangi bilimlarni olishda. Shuning uchun Big Data muammosini "ma’lumotlar - ma’lumot - bilim" zanjiri zanjirlarini tiklashdan tashqarida hal qilish haqida gapirish ma’nosizdir. Ma’lumotlar ma’lumot olish uchun qayta ishlanadi, bu etarli bo’lishi kerak, shunda odam uni bilimga aylantirishi mumkin.
So’nggi o’n yilliklarda xom ma’lumotlarni foydali ma’lumotlar bilan bog’lash bo’yicha jiddiy ish olib borilmadi va biz odatdagidek Klod Shannonning axborot nazariyasi deb ataydigan narsa signallarni uzatishning statistik nazariyasidan boshqa narsa emas va odamlar tomonidan qabul qilinadigan ma’lumotlarga aloqasi yo’q. Muayyan nuqtai nazarlarni aks ettiruvchi ko’plab alohida nashrlar mavjud, ammo to’liq zamonaviy axborot nazariyasi mavjud emas. Natijada, mutaxassislarning aksariyati ma’lumot va ma’lumotni umuman farqlamaydilar. Ma’lumotlarning ko’pligi yoki ko’pligi haqida hamma shunchaki ta’kidlaydilar, ammo hech kim aniq nima borligi, paydo bo’lgan muammoni qanday hal qilish haqida etuk tasavvurga ega emas - va buning hammasi ma’lumotlar bilan ishlashning texnik imkoniyatlari ulardan foydalanish qobiliyatining rivojlanish darajasidan ancha ustun bo’lganligi bilan bog’liq. Faqat bitta muallif, Web 2.0 Journal muharriri Dion Xinchkliff Big Data tasnifiga ega, bu bizga texnologiyani Big Data-dan ishlashni kutish natijasi bilan bog’lashga imkon beradi, ammo bu qoniqarli emas. Xinchliff Big Data-ga yondashuvlarni uch guruhga ajratadi: Tez ma’lumotlar, ularning hajmi terabaytlarda o’lchanadi; Big Analytics - Petabayt ma’lumotlari va Deep Insight - Exabayt, zettabayt. Guruhlar bir-birlari orasida nafaqat ishlaydigan ma’lumotlar miqdori, balki ularni qayta ishlash uchun echimning sifati bilan ham ajralib turadi. Tez ma’lumotlarga ishlov berish yangi bilimlarni o’zlashtirishni anglatmaydi, uning natijalari apriori bilimlari bilan o’zaro bog’liq va ba’zi jarayonlarning qanday davom etayotganligini baholashga imkon beradi, bu sizga nima bo’layotganini yaxshiroq va batafsilroq ko’rish, ba’zi farazlarni tasdiqlash yoki rad etish imkonini beradi. Hozirgi kunda mavjud bo’lgan texnologiyalarning faqat ozgina qismi "Fast Data" vazifalarini hal qilish uchun javob beradi; ba’zi saqlash texnologiyalari (Greenplum, Netezza, Oracle Exadata, Teradata, Verica va kdb kabi DBMS mahsulotlari). Ushbu texnologiyalarning tezligi ma’lumotlar hajmining o’sishi bilan sinxronlashtirilishi kerak. Big Analytics tomonidan hal qilingan vazifalar sezilarli darajada farq qiladi va nafaqat miqdoriy, balki sifat jihatidan ham mos keladi va tegishli texnologiyalar yangi bilimlarni olishga yordam berishi kerak - ular ma’lumotlarda qayd etilgan ma’lumotlarni yangi bilimlarga aylantirishga xizmat qiladi. Biroq, ushbu o’rta darajada echimlar yoki analitik tizimning har qanday avtonom harakatlarini tanlashda sun'iy intellektning mavjudligi taxmin qilinmaydi - bu "o’qituvchi bilan o’rganish" tamoyili asosida qurilgan. Boshqacha qilib aytganda, uning barcha analitik salohiyati o’quv jarayonida unga sarflanadi. Eng aniq misol - Jeopardy o’ynaydigan mashina!. Bunday analitiklarning klassik vakillari MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache va Mahout.
Eng yuqori darajadagi Deep Insight nazoratsiz o’rganishni va zamonaviy tahlil usullaridan hamda turli xil vizualizatsiya usullaridan foydalanishni o’z ichiga oladi. Ushbu darajada, oldindan noma’lum bo’lgan bilimlarni va naqshlarni kashf etish mumkin.
Katta ma’lumotlar tahlili
Vaqt o’tishi bilan kompyuter dasturlari har xilligi bilan real dunyoga yaqinlashmoqda, shu sababli kirish ma’lumotlari hajmi ortib bormoqda va shu sababli ularning analitiklariga ehtiyoj sezilmoqda va real vaqt rejimiga iloji boricha yaqinroq rejimda. Ushbu ikki tendentsiyaning yaqinlashishi yo’nalishning paydo bo’lishiga olib keldi big Data analitikasi (Big Data Analytics). Watson kompyuterining g’alabasi Big Data Analytics imkoniyatlarining yorqin namoyishi bo’ldi - biz kompyuter birinchi marta hisob-kitoblarni tezlashtirish vositasi sifatida emas, balki ma’lumot tanlash va qaror qabul qilishda inson imkoniyatlarini kengaytiruvchi yordamchi sifatida foydalaniladigan qiziqarli davrga kirmoqdamiz. Vannevar Bush, Jozef Liklider va Dag Engelbartning utopik tuyulgan g’oyalari ro’yobga chiqa boshladi, ammo bu bir necha o’n yillar oldin sodir bo’lganidek amalga oshmayapti - kompyuterning kuchi mantiqiy imkoniyatlari jihatidan odamlarga nisbatan ustunlikda emas, olimlar ayniqsa umidvor bo’lishgan, ammo juda katta qobiliyat juda katta miqdordagi ma’lumotlarni qayta ishlash. Xuddi shunga o’xshash narsa Garri Kasparovning Deep Blue bilan to’qnashuvida sodir bo’ldi, kompyuter mahoratli o’yinchi emas edi, lekin u tezroq ko’proq imkoniyatlardan foydalanishi mumkin edi. Big Data Analytics-ni boshqa dasturlardan ajratib turadigan yuqori tezlik bilan birlashtirilgan ulkan hajmlar to’g’ri kompyuterlarni talab qiladi va bugungi kunda deyarli barcha yirik ishlab chiqaruvchilar ixtisoslashtirilgan dasturiy ta’minot va apparat tizimlarini taklif qilishadi: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine va Oracle Exalytics Business Intelligence Machine, Teradata Extreme Performance Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance, EMC Greenplum, Vertica Analytics Platform powered by HP Converged Infrastructure. Bundan tashqari, ko’plab kichik va boshlang’ich kompaniyalar o’yinga kirishdi: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.
Big datada qayta aloqa va komponentlar. Big datada asosiy etkazib
beruvchilar va yangi imkoniyatlar
Sifatida yangi Big Data Analytics dasturlari nafaqat yangi texnologiyalarni, balki tizimning turli darajadagi fikrlash darajasini ham talab qiladi, ammo bu bilan qiyinchiliklar mavjud - Big Data Analytics echimlarini ishlab chiquvchilar ko’pincha 50-yillardan beri ma’lum bo’lgan haqiqatlarni qayta kashf etadilar. Natijada, tahlil ko’pincha odamga natijalar berish uchun dastlabki ma’lumotlarni, vizualizatsiya va boshqa texnologiyalarni tayyorlash vositalaridan ajratib olinadi. Ma’lumotlarni saqlash ombori instituti singari nufuzli tashkilot ham analitikni hamma narsadan ajratib ko’rib chiqadi: uning ma’lumotlariga ko’ra, korxonalarning 38 foizi menejment amaliyotida Advanced Analytics-dan foydalanish imkoniyatlarini o’rganib chiqishmoqda va yana 50 foizi kelgusi uch yil ichida buni amalga oshirish niyatida. Ushbu qiziqish biznesdan ko’plab dalillarni keltirib chiqarish bilan oqlanadi, garchi buni osonroq deyish mumkin bo’lsa - yangi sharoitda korxonalar yanada mukammal boshqaruv tizimiga muhtoj va uni yaratish qayta aloqa o’rnatishdan, ya’ni qaror qabul qilishga yordam beradigan tizimdan boshlanishi kerak va kelajakda, ehtimol haqiqiy qaror qabul qilishni avtomatlashtirish mumkin bo’ladi. Ajablanarlisi shundaki, aytilganlarning barchasi 60-yillardan beri ma’lum bo’lgan texnologik ob'ektlarni avtomatlashtirilgan boshqarish tizimlarini yaratish metodologiyasiga mos keladi. Yangi tahlil vositalari talab qilinadi, chunki avvalgidan ko’ra ko’proq ma’lumotlar emas, balki ularning tashqi va ichki manbalari ko’proq, endi ular ancha murakkab va xilma-xildir (tuzilgan, tuzilmasiz va kvaziturumli), indekslashning turli sxemalaridan foydalaniladi (relyatsion, ko’p o’lchovli, noSQL). Ma’lumotlar bilan eski usullar bilan kurashish endi mumkin emas - Big Data Analytics katta va murakkab massivlarga tarqaladi, shuning uchun ular Discovery Analytics (kashfiyotlar analitikasi) va Explorator Analytics (tushuntirishli analitik) atamalaridan ham foydalanadilar. Siz nima deb atasangiz ham, mohiyati bir xil - teskari aloqa, qaror qabul qiluvchilarni har xil jarayonlar haqida ma’lumot bilan maqbul shaklda ta’minlaydi.
Xom ma’lumotlarni yig’ish uchun mos keladigan apparat va dasturiy texnologiyalar qo’llaniladi, bu aniq boshqarish ob'ektining xususiyatiga bog’liq (RFID, ijtimoiy tarmoqlardan olingan ma’lumotlar, turli xil matnli hujjatlar va boshqalar). Ushbu ma’lumotlar analitik dvigatelning kirish qismiga beriladi (agar biz kibernetika bilan o’xshashlikni davom ettirsak, teskari aloqa tizimidagi regulyator). Ushbu regulyator analitik dasturiy ta’minotning o’zi ishlaydigan apparat va dasturiy platformaga asoslangan bo’lib, u avtomatik boshqarish uchun etarli bo’lgan boshqarish harakatlarini ta’minlamaydi, shuning uchun ma’lumotlar olimlari yoki ma’lumotlar muhandislari ushbu tsiklga kiritilgan. Ularning funktsiyasini, masalan, elektr mashinalarini qurish uchun fizikadan olgan bilimlaridan foydalangan holda elektr muhandislari o’ynagan rol bilan taqqoslash mumkin. Muhandislarning vazifasi ma’lumotni qaror qabul qilish uchun ishlatiladigan ma’lumotga aylantirish jarayonini boshqarishdir - ular qayta aloqa tizimini ham to’ldirishadi. Big Data Analytics-ning to’rtta tarkibiy qismidan bizni faqat bitta - dasturiy va apparat platformasi qiziqtiradi (ushbu turdagi tizimlar Analytic Appliance yoki Data Warehouse Appliance deb nomlanadi).
Bir necha yillar davomida Teradata ixtisoslashgan analitik mashinalarning yagona ishlab chiqaruvchisi edi, ammo bu birinchi emas - 70-yillarning oxirlarida, o’sha paytdagi ingliz kompyuter sanoatining etakchisi ICL Tarkibga yo’naltirilgan ma’lumotlar do’konini yaratish uchun juda muvaffaqiyatli urinish qilmadi. bu DBMS IDMS-ga asoslangan edi. Ammo Britton-Li birinchi bo’lib Zilog Z80 protsessorlar oilasining ko’p protsessorli konfiguratsiyasi asosida 1983 yilda "ma’lumotlar bazasi dvigatelini" yaratdi. Keyinchalik Britton-Lini Teradata sotib oldi, u 1984 yildan beri qarorlarni qo’llab-quvvatlash tizimlari va ma’lumotlar omborlari uchun MPP kompyuterlarini ishlab chiqardi. Va bunday komplekslarni etkazib beruvchilarning yangi avlodining birinchi vakili Netezza edi - uning Netezza Performance Server echimida standart pichoq serverlari ixtisoslashtirilgan Snippet Processing Unit pichoqlari bilan birgalikda ishlatilgan.
Analitika birinchi o’rinda turadi bashorat, yoki bashorat qiluvchi (Bashoratli tahlil, RA). Amaldagi dasturlarning aksariyatida RA tizimlari uchun dastlabki ma’lumotlar ma’lumotlar omborlarida ilgari to’plangan ma’lumotlardir. Tahlil qilish uchun ma’lumotlar dastlab qidiruv ma’lumotlar martiga (IDM) ko’chiriladi, bu erda ma’lumotlar taqdimoti uni ishlatadigan dasturlarga bog’liq emas, so’ngra xuddi shu ma’lumotlar ixtisoslashgan analitik martga (ADM) o’tkaziladi va mutaxassislar allaqachon ular bilan ishlaydi turli xil ishlab chiqish vositalari yoki ma’lumotlar qazib olish (Data Mining) yordamida. Bunday ko’p bosqichli model nisbatan kam miqdordagi ma’lumotlar uchun juda maqbuldir, ammo ularning ko’payishi va bunday modellarda samaradorlikka bo’lgan talablarning ortishi bilan bir qator kamchiliklar aniqlanadi. Ma’lumotlarni ko’chirish zarurligidan tashqari, ko’plab mustaqil ADMlarning mavjudligi jismoniy va mantiqiy infratuzilmaning murakkablashishiga olib keladi, foydalaniladigan modellashtirish vositalari soni ko’payib bormoqda, turli tahlilchilar tomonidan olingan natijalar bir-biriga mos kelmaydi, hisoblash quvvati va kanallari maqbul darajada ishlatilishidan yiroq. Bundan tashqari, omborlar va ADM-ning alohida mavjudligi analitikani real vaqtga deyarli imkonsiz qiladi. Chiqish usuli ma’lumotlar bazasida to’g’ridan-to’g’ri ma’lumotlar bazasidan analitik maqsadlarda foydalanishni nazarda tutadigan In-Database Analytics yoki No-Copy Analytics deb nomlangan yondashuv bo’lishi mumkin. Bunday DBMSlarni ba’zan analitik va parallel deb ham atashadi. MapReduce va Hadoop texnologiyalarining paydo bo’lishi bilan yondashuv ayniqsa jozibador bo’lib qoldi. In-Database Analytics sinfining yangi avlod dasturlarida ma’lumotlar muhandisligining barcha turlari va boshqa intensiv ish turlari to’g’ridan-to’g’ri omborda joylashgan ma’lumotlar ustida amalga oshiriladi. Shubhasiz, bu jarayonlarni sezilarli darajada tezlashtiradi va naqshlarni tanib olish, klasterlash, regressiya tahlili va har xil bashorat qilish kabi real vaqtda dasturlarga imkon beradi. Akseleratsiyaga nafaqat omborxonadan do’kon peshtaxtalariga o’tishdan xalos bo’lish hisobiga, balki asosan har xil parallellashtirish usullaridan, shu jumladan cheksiz miqyosli klaster tizimlaridan foydalanish hisobiga erishiladi. In-Database Analytics kabi echimlar analitik dasturlarda bulutli texnologiyalardan foydalanish imkoniyatini ochib beradi. Keyingi qadam SAP HANA (High Performance Analytic Appliance) texnologiyasi bo’lishi mumkin, uning mohiyati RAM uchun tahlil qilish uchun ma’lumotlarni joylashtirishdir.
Ma’lumotlar bazasi tahlillari uchun 2010 yilga kelib Aster Data (Aster nCluster), Greenplum (Greenplum Database), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL) , Oracle (Oracle ma’lumotlar bazasi 11g / 10g, Oracle Exadata), SenSage (SenSage / columnar), Sybase (Sybase IQ), Teradata and Vertica Systems (Vertica Analytic Database). Bularning barchasi taniqli kompaniyalardir, Silikon vodiysining SenSage startapi bundan mustasno. Mahsulotlar ular ishlashi mumkin bo’lgan ma’lumotlar turi, funktsional imkoniyatlari, interfeyslari, foydalanadigan analitik dasturiy ta’minoti va bulutlarda ishlash qobiliyatlari bilan sezilarli darajada farq qiladi. Teradata eritmaning etukligi bo’yicha etakchi, Aster Data esa avangardda. Analitik dasturiy ta’minot sotuvchilarining ro’yxati qisqaroq - KXEN, SAS, SPSS va TIBCO mahsulotlari mahalliy konfiguratsiyalarda ishlashi mumkin, Amazon, Cascading, Google, Yahoo! va Cloudera. 2010 yil IBM Cognos, SAP Business Object va Oracle Hyperion kompaniyalarini sotib olgan 2007 yilga taqqoslanadigan prognozli tahlilda muhim yil bo’ldi. Bularning barchasi EMC Greenplum-ni sotib olishdan, keyin IBM-dan Netezza-ni, HP-dan Vertica-ni, Teradata-dan Aster Data-ni va SAP-dan Sybase-ni sotib olishdan boshlandi.
Analitik paradigma yangi imkoniyatlarni ochib beradi, buni ParStream (rasmiy nomi empulse GmbH) kompaniyasini yaratgan Kölnning ikkita muhandisi muvaffaqiyatli isbotladi. Ular birgalikda umumiy maqsadlar uchun ham, GPU protsessorlari asosida ham o’zlarining oldingilari bilan raqobatlashadigan tahliliy platforma yaratishga muvaffaq bo’lishdi. To’rt yil oldin, ilgari "Accenture" da ishlagan Maykl Xummepl va Yorg Binert nemis sayyohlik kompaniyasidan buyurtma olishdi, bu 100 millisekundada 6 milliard yozuvlar bazasidan 20 parametrli yozuvni tanlashi mumkin bo’lgan turlar yaratish tizimiga muhtoj edi. Mavjud echimlarning hech biri bunday vazifani uddalay olmaydi, ammo juda katta ma’lumotlar bazalari tarkibini onlayn tahlil qilish zarur bo’lgan joyda ham shunga o’xshash muammolar yuzaga keladi. ParStream HPC texnologiyalarini Big Data Analytics-ga qo’llash shartlaridan kelib chiqqan. Hümmepl va Binert ma’lumotlar oqimlarini parallel oqimlar shaklida qo’llab-quvvatlaydigan x86-arxitektura klasterida ishlashga mo’ljallangan o’zlarining ma’lumotlar bazalari dvigatellarini yozishni boshladilar, shuning uchun ParStream nomi berildi. Dastlabki o’rnatish sifatida ular faqat tuzilgan ma’lumotlar bilan ishlashni tanladilar, bu aslida nisbatan sodda parallellashtirish imkoniyatini ochadi. Dizayn jihatidan ushbu ma’lumotlar bazasi MapReduce yoki Hadoop-ga qaraganda yangi Google Dremel loyihasiga yaqinroq bo’lib, ular real vaqtda so’rovlarga moslashtirilmagan. X86 / Linux platformasidan boshlab, Gummepl va Binert ko’p o’tmay ularning ma’lumotlar bazasini nVidia Fermi GPUlari ham qo’llab-quvvatlashi mumkinligiga amin bo’lishdi.

Download 0.54 Mb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7