Data mining (ma'lumotlarni topish) - biron qonuniyatni topish maqsadida ma'lumotlarni intellektual analiz qilishga aytiladi. Isroillik matematik Grigoriy Pyatetskiy-Shapiro 1989-yilda bu atamani fanga kiritgan.
Texnologiyalar, avvalari noma'lum va foydali bo'lgan qayta ishlanmagan(hom) ma'lumotlarni topish jarayoniga data mining(ma'lumotlarni topish) deyiladi. Data mining metodlari ma'lumotlar ombori, statistika va sun'iy intellekt tutashgan nuqtada joylashadi.
Data Mining tushunchasiga ta’rif bering
Data mining (ma'lumotlarni topish) - biron qonuniyatni topish maqsadida ma'lumotlarni intellektual analiz qilishga aytiladi. Isroillik matematik Grigoriy Pyatetskiy-Shapiro 1989-yilda bu atamani fanga kiritgan.
Texnologiyalar, avvalari noma'lum va foydali bo'lgan qayta ishlanmagan(hom) ma'lumotlarni topish jarayoniga data mining(ma'lumotlarni topish) deyiladi. Data mining metodlari ma'lumotlar ombori, statistika va sun'iy intellekt tutashgan nuqtada joylashadi.
|
Data Scinetistlarning muhim kompetensiyalari
|
Data Scinetistlarning vazifalari
|
Deep learning(chuqur o'qitish) tushunchasi
|
Diskriminant tahlili: Model va umumiy ijro tartibi
|
Dispersion tahlilining asosiy g’oyasi
|
Eng kichik kvadratlar usuli.
|
Eng kichik kvadratlar usuli.
|
Ijtimoiy tarmoqlarda big data
Ijtimoiy tarmoqlar uchun katta ma'lumotlardan foydalanishning afzalliklari. Omnikanal manbalari. AI strategiyasi bir nechta kanallardan keladigan ma'lumotlarni qayta ishlashga imkon beradi, ayniqsa tizimga kirish va sinxronizatsiya juda yaxshi yoyilgan texnologiyani amalga oshirish bilan. Ko'pgina biznes veb-saytlari Google yoki Facebook akkauntlari orqali ro'yxatdan o'tishni taklif qiladi, shuning uchun bu sotuvchilarga ijtimoiy media faoliyati, brauzer tarixi, ish stoli va mobil ilovalar, bulutli xotiralar va boshqalardan mijozlar haqida ma'lumot to'plash imkonini beradi. Haqiqiy vaqtda o'zaro ta'sir. Foydalanuvchilarning ijtimoiy tarmoqlardagi faoliyati, masalan, bosilgan reklamalar, tashrif buyurilgan va kuzatilgan sahifalar, e'lon qilingan sharhlar, saqlangan havolalar, qo'shilgan do'stlar bozorni muvaffaqiyatli o'rganishning etakchi yo'lidir. Boshqa hech bir savdo nuqtalari bozor talabining yangilangan va aniq tasvirini bera olmaydi. U shunchalik tez o'zgaradiki, asosiy nuqta vaziyatni raqobatchilarga qaraganda tezroq ishlatishdir.Maqsadli mijozlar. Boshqa har qanday biznes tashabbuslari singari, ijtimoiy media marketingi ham daromadni oshirishga qaratilgan, ammo vegetarianlarga go'sht taklif qilishning foydasi yo'q. Shunday qilib, maqsadli auditoriyangizni bilish hamma narsani anglatadi. ML yechimlari uzoqqa cho'ziladi va shaxsiy ma'lumotlar, millionlab fotosuratlar, musiqa afzalliklari, joylashuvlar va boshqa ko'plab ijtimoiy tarmoq faoliyatidan qimmatli tushunchalarni olish imkoniyatini beradi. Kelajakdagi bashoratlar. Katta ma'lumotlar strategiyasi va ommaviy axborot vositalaridagi bashoratli tahlillar o'tmish tarixi asosida qaror qabul qilishni yaxshilashga imkon beradi. Ma'lumotlarga asoslangan biznes katta muvaffaqiyatga erishadi, chunki kompyuterlar mijozlarning kelajakdagi tanlovlarini ta'minlay oladi. Vaqt o'tishi bilan qiziqishlar va odatlar o'zgarsa ham, umuman olganda, ular bir-biriga bog'liq bo'lib qoladi. Ijtimoiy tarmoq foydalanuvchisi biror narsa sotib olgach, shunga o'xshash mahsulotlarni tanlash imkoniyati katta.Xavfsizlik masalalari. Ijtimoiy tarmoqlarning gullab-yashnashi va shaxsiy ma'lumotlar namoyish etilayotganligi sababli, maxfiylik mijozlar uchun hamma narsa, garchi g'alati tuyulishi mumkin. Garchi bu jihat hali ham ko'p narsani orzu qilgan bo'lsa-da, aksariyat korxonalar xavfsizlik masalalarini birinchi o'rinda turadi. Ma'lumotlar sotuvchilari sotuvchilar va biznes egalari bilan birgalikda ma'lumotlar xavfsizligini mijozlar ruxsatisiz uchinchi tomon qo'llariga oqib ketishidan ta'minlashlari shart. Katta ma'lumotlar echimlari himoya qilishning turli usullarini taklif qiladi, masalan, yuz va ovozni aniqlash, avtorizatsiya, ro'yxatdan o'tish bildirishnomalari va boshqalar.Kampaniyani baholash. Katta ma'lumotlar tahlili ROI ko'rsatkichlarining arra dinamikasini samarali kuzatish imkonini beradi. Natijada, sotuvchilar ijtimoiy media kampaniyasi qanchalik muvaffaqiyatli bo'lganligi haqida tushunchaga ega bo'lishlari mumkin. Mijozlar qanday mahsulot va xizmatlarni xohlashlarini taxmin qilishda bashoratli analitik vositalar juda yaxshi ishlaydi. Turli xil ijtimoiy media kanallari bo'ylab foydalanuvchi faoliyatini o'lchash, xususan, ularning o'zaro ta'siri va onlayn reklamalarga munosabati mijozlarning xatti-harakatlari va ularning xarid qilish afzalliklari haqida ko'p gapirishi mumkin. Umuman olganda, kampaniya foydali bo'ladimi yoki yo'qmi, oldingi mijozlarning ijtimoiy media xatti-harakatlari tahlili, veb-sayt tarixi ma'lumotlari, elektron pochta obunalari va boshqa raqamli o'zaro ta'sirlardan olingan tajribasi asosida aniqlanishi mumkin.O'rtacha narxlar. Darhaqiqat, narx qarorlari ba'zida asabiylashishi mumkin, chunki ko'plab omillarni yodda tutish kerak. Odatda mahsulot tannarxi, raqobat muammolari, bozor talabi, ijobiy daromadlar, valyuta va inflyatsiya darajasi bilan boshlanadi va dunyodagi umumiy iqtisodiy vaziyat bilan yakunlanadi. Ijtimoiy media orqali mustahkam Big Data strategiyasi nafaqat Instagram ta'sirchanlariga pul to'lashni, balki sodiq mijozlaringiz bilan, aytaylik, A/B testi yoki onlayn so'rovlar orqali ular qancha pul sarflashga tayyorligini aniq tushunishni ham o'z ichiga olishi kerak. mahsulotlaringizda. Bularning barchasi sotuvchilarga narxlarni yanada moslashuvchan va to'g'ri yo'l bilan moslashtirishda yordam berishi mumkin.
|
Jahon bozoridagi Big Datani tavsiflab bering
|
Jahon bozoridagi katta hajmli ma’lumotlarni tavsiflab bering
|
Katta hajmli ma’lumotlar - “Big data”ga kirish.
Big data — bu strukturalangan va strukturalanmagan ma’lumotlarni, konkret masalalar va maqsadlarda ularni qо‘llash uchun, ishlov berish metodlari, turli instumentlar va yondashuvlar. Strukturalanmagan ma’lumotlar - bu ma’lum tartibda tashkillashtirilmagan yoki oldindan aniq strukturaga ega bо‘lmagan axborot. «Katta ma’lumotlar» terminini Nature jurnalining redaktori Klifford Linch 2008 yilda, dunyoda axborot xajmlarining о‘sishiga bag‘ishlangan maxsus nashrida kiritgan edi. Shunga qaramasdan, albatta «Katta ma’lumotlar» oldinroq xam mavjud edi.Mutaxassislarning fikricha Big data kategoriyasiga kuniga 100 Gb ortiq barcha ma’lumotlar oqimi kiradi. Bugunda bu oddiy termin ostida ikkitagina sо‘z yotadi – ma’lumotlarga ishlov berish va saqlash. Zamonaviy dunyoda Big data — katta miqdordagi ma’lumotlarni taxlil qilish uchun yangi texnologiyalar paydo bо‘lishi bilan bog‘liq ijtimoiy-iqtisodiy fenomen. Inson konkret va unga kerakli bо‘lgan natijalarni olish uchun va ularni kelajakda samarali qо‘llashi uchun katta xajmdagi axborotlarga ishlov beriladi. Big data — bu muammoni yechimi va an’anaviy ma’lumotlarni boshqarish tizimlariga alternativdir.
Big data ga qо‘llaniladigan texnika va taxlil metodlari.
Data Mining
Kraudsorsing
Ma’lumotlarni siljitish va integratsiya
Mashinali о‘qitish
Su’niy neyron turlar
Tasvirlarni tanish
Bashoratli analitika
Imitatsion modellashtirish
Fazoviy
Taxlil
Statistik
|
Katta hajmli ma’lumotlarni analiz qilish bosqichlari.
Katta ma'lumotlar it mahsulotlarini ishlab chiqish uchun ishlatiladi. Misol uchun, Netflix yangi onlayn kino xususiyatlari uchun bashoratli modellar orqali iste'mol talabini taxmin qilmoqda. Oqim platformasi mutaxassislari filmlar va seriyalarning mashhurligining asosiy xususiyatlarini tasniflashadi, mahsulot va xususiyatlarning tijorat muvaffaqiyatini tahlil qiladi. Bu bunday xizmatlarning asosiy xususiyati — foydalanuvchilarning manfaatlarini bashorat qiluvchi tavsiya tizimlari.Gamdevda o'yinchilarning afzalliklarini hisoblash va video o'yinlardagi xatti-harakatlarni tahlil qilish uchun katta ma'lumotlardan foydalaning. Bunday tadqiqotlar o'yin tajribasini va monetizatsiya sxemalarini yaxshilashga yordam beradi.Har qanday yirik ishlab chiqarish uchun Big Data mijozlar daromadlari va mulohazalarini tahlil qilish, ishlab chiqarish zanjirlari va logistika ma'lumotlarini batafsil tahlil qilish imkonini beradi. Bunday omillar talabning prognozini yaxshilaydi, xarajatlarni kamaytiradi va uzilishlarni kamaytiradi.Big Data ehtiyot qismlar va uskunalar haqida kam tuzilgan ma'lumotlarga yordam beradi. Jurnallardagi yozuvlar va sensorlardan olingan ma'lumotlar tez buzilish ko'rsatkichlari bo'lishi mumkin. Agar siz uni o'z vaqtida bashorat qilsangiz, bu uskunaning funktsionalligi, ishlash muddati va samaradorligini oshiradi.Savdo sohasida katta ma'lumotlarni tahlil qilish mijozlarning xulq-atvori haqida chuqur bilim beradi. Ijtimoiy tarmoqlar va veb-saytlardan ma'lumotlarni tahlil qilish xizmat sifatini yaxshilaydi, sodiqlikni oshiradi va xaridorlarning chiqishi muammosini hal qiladi.Tibbiyotda Big Data giyohvand moddalarni iste'mol qilish statistikasini, taqdim etilayotgan xizmatlarning samaradorligini, bemorlar bilan ishlashni tashkil etishga yordam beradi.Banklar firibgarliklarni aniqlash va xizmatlarning ishlashini yaxshilash uchun foydali bo'lgan tranzaktsion ma'lumotlar bilan ishlash uchun tarqatilgan hisob-kitoblardan foydalanadilar.Davlat tuzilmalari fuqarolarning xavfsizligini oshirish va shahar infratuzilmasini takomillashtirish, uy-joy va jamoat transporti sohalarini yaxshilash uchun katta ma'lumotlarni tahlil qiladi.Bu katta ma'lumot tahlillariga bo'lgan talab ortib borayotgan sohalarning bir qismi. Qiziqishlarda nafaqat texnik yo'nalishlar, balki media, marketing, sotsiologiya, yollash sohasi, ko'chmas mulk ham mavjud.
|
Katta hajmli ma’lumotlarni tahlil qilish bosqichlari.
Ma'lumotlarni to'plash-bu tasniflash, modellashtirish va prognozlashga yondashuvlar to'plami.Tahlil matn, rasm, audio va video ma'lumotlardan qat'i nazar, har xil turdagi ma'lumotlarni ishlab chiqarishni o'z ichiga olishi mumkin. Internet va ijtimoiy tarmoqlar bilan ishlaydigan veb-kon va ijtimoiy media konlarini alohida ajratib turadi. Relyatsion ma'lumotlar bazalari bilan ishlash uchun saqlangan ma'lumotlarni yaratish, o'zgartirish va olish uchun mos bo'lgan SQL dasturlash tili ishlatiladi.Neyron tarmoqlari. O'qitilgan neyron tarmoq katta hajmdagi ma'lumotlarni yuqori tezlik va aniqlik bilan boshqarishi mumkin. Tahlilda neyron tarmog'idan foydalanish uchun uni o'rgatish kerak.Mashinani o'rganish A. I. ni mustaqil ishlashga o'rgatish va bilim va imkoniyatlarini kengaytirish fanidir. Ml sohasi tajriba orttirish bilan avtonom ravishda yaxshilanadigan tizimlarni qanday yaratishni o'rganadi. Mashinani o'rganish algoritmlari murakkab vazifalarni bajarish uchun mavjud misollarni umumlashtiradi. Ushbu texnologiya yordamida sun'iy aql tahlil qiladi, prognozlarni tuzadi, modellarni takrorlaydi va yaxshilaydi.Tahlildan so'ng ma'lumotlar mumkin bo'lgan echimlar bo'yicha takliflar bilan tahliliy hisobot shaklida taqdim etiladi. Katta ma'lumotlarni o'qiladigan shaklga o'tkazish usullari Business intelligence deb nomlanadi. BI ning asosiy vositasi-dashboards, rasm va grafikalar ko'rinishidagi tahlillarni sharhlash va ingl. Dashboards KPI-ga e'tiborni qaratishga, biznes modellarini yaratishga va qarorlarning natijalarini kuzatishga yordam beradi.Ushbu fikr-mulohaza va Big Data yordamida erishish mumkin bo'lgan biznesni rivojlantirish uchun imkoniyatlar yaratadi. Ilgari aniq bo'lmagan naqshlar biznes jarayonlarini yaxshilashga va foyda o'sishiga yordam beradi.
|
Katta hajmli ma'lumotlar xavfsizligi muammolari
|
Katta ma'lumot manbalari va ular turlari?
Odamlar tomonidan yaratilgan ijtimoiy ma'lumotlar, ularning asosiy manbalari ijtimoiy tarmoqlar, veb-saytlar, GPS ma'lumotlari. Bundan tashqari, Big Data mutaxassislari shahar va mamlakatlarning statistik ko'rsatkichlaridan foydalanadilar: tug'ilish, o'lim, turmush darajasi va inson hayotining ko'rsatkichlarini aks ettiruvchi boshqa ma'lumotlar.Tranzaksiya ma'lumotlari har qanday pul operatsiyalari va bankomatlar bilan o'zaro aloqada bo'ladi: pul o'tkazmalari, xaridlar, etkazib berish.Mashina ma'lumotlarining manbai smartfonlar, IoT-gadjetlar, avtomobillar va boshqa uskunalar, sensorlar, kuzatuv tizimlari va yo'ldoshlardir.Dastlabki bosqich-ma'lumotlarni tozalash-xatolarni, ahamiyatsiz ma'lumotlarni va ma'lumotlarning nomuvofiqligini aniqlash, tozalash va tuzatish. Jarayon bilvosita ko'rsatkichlarni, xatolarni, o'tkazib yuborilgan qiymatlarni va og'ishlarni baholashga imkon beradi. Odatda, qazib olish paytida ma'lumotlar o'zgartiriladi. Big Data mutaxassislari qo'shimcha metadata, vaqt belgilari yoki geolokatsiya ma'lumotlarini qo'shadilar.Tuzilgan ma'lumotlarni olishda ikkita yondashuv mavjud:O'zgarishlarni kuzatib borish kerak bo'lmagan to'liq qazib olish. Jarayon osonroq, ammo tizimdagi yuk yuqoriroq.Qo'shimcha qazib olish. Dastlabki ma'lumotlarning o'zgarishi oxirgi muvaffaqiyatli qazib olingan paytdan boshlab kuzatiladi. Buning uchun o'zgarish jadvallarini yarating yoki vaqt belgilarini tekshiring. Ko'pgina omborlarda ma'lumotlar holatlarini saqlashga imkon beradigan ichki o'zgarishlarni saqlash funktsiyasi (CDC) mavjud. Qo'shimcha qazib olish mantig'i yanada murakkab, ammo tizimdagi yuk kamayadi.Tuzilmagan ma'lumotlar bilan ishlashda ko'p vaqt qazib olishga tayyorgarlik ko'rishga sarflanadi. Ma'lumotlar keraksiz bo'shliqlar va belgilardan tozalanadi, natijalarning dublikatlarini olib tashlaydi va etishmayotgan qiymatlarni qayta ishlash usulini aniqlaydi.
|
Katta ma'lumotlar nima uchun kerak?
Katta ma'lumotlardan tibbiyotda foydalanish mumkin. Shunday qilib, bemorga tashxisni nafaqat tibbiy tarix ma'lumotlari asosida, balki boshqa shifokorlar tajribasi, bemorning yashash joyining ekologik holati to'g'risidagi ma'lumotlar va boshqa ko'plab omillarni hisobga olgan holda aniqlash mumkin.Katta ma'lumot texnologiyalaridan uchuvchisiz transport vositalarining harakatini tashkil qilish uchun foydalanish mumkin.Katta hajmdagi ma'lumotlarni qayta ishlash paytida fotosuratlar va video materiallardagi yuzlarni tanib olish mumkin. Big Data texnologiyalaridan chakana sotuvchilar foydalanishlari mumkin - savdo kompaniyalari o'zlarining reklama kampaniyalarini samarali sozlash uchun ijtimoiy tarmoqlardan ma'lumotlar qatoridan faol foydalanishlari mumkin, ular ma'lum bir iste'molchilar segmentiga maksimal darajada yo'naltirilishi mumkin. Ushbu texnologiya saylovoldi tashviqotlarini tashkil etishda, shu jumladan jamiyatdagi siyosiy imtiyozlarni tahlil qilishda faol qo'llaniladi. Big Data texnologiyalaridan foydalanish daromadlarni kafolatlash (RA) klassi echimlari uchun juda muhimdir, ularda moliyaviy natijalarning pasayishiga olib keladigan ehtimoliy yo'qotishlarni yoki buzilishlarni o'z vaqtida aniqlashga imkon beradigan ma'lumotlarni chuqur tahlil qilish kiradi. Telekommunikatsion provayderlar katta ma'lumotlarni, shu jumladan geolokatsiya to'g'risida ham ma'lumot to'plashlari mumkin; o'z navbatida, bu ma'lumot reklama agentliklari uchun maqsadli va mahalliy reklama namoyish qilishda foydalanishi mumkin bo'lgan tijorat qiziqishlari bo'lishi mumkin, shuningdek, chakana sotuvchilar va banklar uchun.Katta ma'lumotlar ma'lum bir joyda odamlarning kuchli maqsadli oqimining mavjudligiga asoslanib, savdo nuqtasini ochishda muhim rol o'ynashi mumkin.Shunday qilib, Big Data texnologiyalarini amaliy qo'llash marketing sohasida yotadi. Internetning rivojlanishi va barcha turdagi aloqa vositalarining tarqalishi tufayli xatti-harakatlar ma'lumotlari (masalan, qo'ng'iroqlar soni, xarid qilish odatlari va xaridlar) real vaqtda mavjud bo'ladi.Katta ma'lumot texnologiyalaridan moliya, sotsiologik tadqiqotlar va boshqa ko'plab sohalarda samarali foydalanish mumkin. Mutaxassislarning ta'kidlashicha, katta ma'lumotlardan foydalanishning barcha imkoniyatlari bu aysbergning ko'rinadigan qismidir, chunki bu texnologiyalar katta hajmlarda razvedka va kontr-razvedkada, harbiy ishlarda, shuningdek, axborot urushi deb ataladigan barcha narsalarda qo'llaniladi.Umuman olganda, Big Data bilan ishlashning ketma-ketligi ma'lumotlarni to'plash, hisobotlar va boshqaruv paneli yordamida olingan ma'lumotlarni tuzish, shuningdek harakatlar bo'yicha tavsiyalarni shakllantirishdan iborat.Marketingda Big Data texnologiyalaridan foydalanish imkoniyatlarini qisqacha ko'rib chiqing. Ma'lumki, marketolog uchun ma'lumot bashorat qilish va strategiyani tuzishning asosiy vositasidir. Ma'lumotlarning katta tahlili uzoq vaqtdan beri maqsadli auditoriya, qiziqish, talab va iste'molchilarning faolligini aniqlash uchun muvaffaqiyatli ishlatilgan. Katta ma'lumotlarni tahlil qilish, xususan, reklama (RTB kim oshdi savdosi modeli asosida - Real vaqt savdosi) faqat mahsulot yoki xizmatga qiziqqan iste'molchilarga namoyish qilish imkonini beradi.Marketingda Big Data-dan foydalanish ishbilarmonlarga:- iste'molchilar bilan tanishish, Internetda shunga o'xshash auditoriyani jalb qilish yaxshiroqdir;- mijozlarning qoniqishini baholash;- taklif etilayotgan xizmat istiqbol va ehtiyojlarga javob berishini tushunish;- mijozlar ishonchini oshiradigan yangi usullarni topish va amalga oshirish;- talabga javob beradigan loyihalarni yaratish va boshqalar.Masalan, Google.trends xizmati sotuvchiga ma'lum bir mahsulotga mavsumiy talab faolligi, tebranishlar va chertish geografiyasini bashorat qilishi mumkin. Agar siz ushbu ma'lumotni o'z saytingizdagi tegishli plagin tomonidan to'plangan statistika bilan taqqoslasangiz, oylik, mintaqa va boshqa parametrlar bilan reklama byudjetini taqsimlash rejasini tuzishingiz mumkin.
|
Katta ma'lumotlar va axborot xavfsizligi
Keng ma'noda, axborot xavfsizligi bu tabiiy yoki sun'iy tabiatning tasodifiy yoki qasddan salbiy ta'siridan axborot xavfsizligi va yordamchi infratuzilma.Axborot xavfsizligi sohasida Big Data quyidagi muammolarga duch keladi:- ma'lumotlarni himoya qilish va ularning yaxlitligini ta'minlash muammolari;- maxfiy ma'lumotlarni buzish va yashirinish xavfi;- maxfiy ma'lumotlarni noto'g'ri saqlash;- ma'lumotni yo'qotish xavfi, masalan, boshqa birovning zararli harakatlari tufayli;- shaxsiy ma'lumotlardan uchinchi shaxslar tomonidan noto'g'ri foydalanish xavfi va boshqalar.Blokchain echishga mo'ljallangan katta ma'lumotlarning asosiy muammolaridan biri, axborot xavfsizligi sohasida. Uning barcha asosiy tamoyillariga rioya qilinishini ta'minlash, taqsimlangan ro'yxatga olish texnologiyasi ma'lumotlarning yaxlitligi va ishonchliligini kafolatlashi mumkin va bitta nosozlik nuqtasi yo'qligi sababli blockchain axborot tizimlarini barqaror qiladi. Tarqalgan ro'yxatga olish texnologiyasi ma'lumotlarga bo'lgan ishonch muammosini hal qilishga yordam beradi, shuningdek, ularni umumiy ravishda baham ko'rish imkoniyatini beradi.Axborot muhim ahamiyatga ega, demak, axborot xavfsizligining asosiy jihatlarini ta'minlash masalasi birinchi o'rinda turadi. Raqobatda omon qolish uchun kompaniyalar vaqtni bosib o'tishlari kerak, ya'ni ularni blockchain texnologiyasi va Big Data vositalari mavjud bo'lgan imkoniyatlar va afzalliklarga e'tibor bermaslik kerak.Faqat dangasa Big ma'lumotlar haqida gapirmaydi, lekin u nima ekanligini va qanday ishlashini deyarli tushunmaydi. Eng sodda - terminologiyadan boshlaylik. Rus tilida gapirsangiz, Katta ma'lumotlar bu har xil vositalar, yondashuvlar va tarkibiy tuzilmalar va ishlov berilmagan ma'lumotlardan ularni aniq vazifa va maqsadlarda foydalanish uchun ishlatishdir.Tuzilmaydigan ma'lumotlar - bu oldindan belgilangan tuzilishga ega bo'lmagan yoki ma'lum tartibda tashkil etilmagan ma'lumotlar."Katta ma'lumotlar" atamasi 2008 yilda Tabiat muharriri Clifford Lynch tomonidan dunyo miqyosidagi ma'lumotlar hajmining keskin o'sishiga bag'ishlangan maxsus sonida kiritilgan. Albatta, katta ma'lumotlarning o'zi oldin ham mavjud edi. Mutaxassislarning fikriga ko'ra, kuniga 100 Gb dan ortiq ma'lumotlar oqimining katta qismi Katta ma'lumotlar toifasiga kiradi.
|
Katta ma'lumotlardan foydalanishning asosiy muammolari
Katta narxga qo'shimcha ravishda, Big Data-ni turli sohalarda amalga oshirishga to'sqinlik qiluvchi asosiy omillardan biri bu qayta ishlanadigan ma'lumotni tanlash muammosi, ya'ni qaysi ma'lumotni olish, saqlash va tahlil qilish kerakligini aniqlash va bu hisobga olinmasligi kerak.Yana bir katta ma'lumotlar muammosi axloqiy masaladir. Boshqacha qilib aytganda, mantiqiy savol tug'iladi: bunday ma'lumotlarni yig'ish (ayniqsa foydalanuvchini bilmasdan) shaxsiy hayotning chegaralarini buzish deb hisoblash mumkinmi?Google va Yandex qidiruv tizimlarida saqlanadigan ma'lumotlar IT gigantlariga doimiy ravishda o'z xizmatlarini takomillashtirish, foydalanuvchilarga qulay va yangi interfaol dasturlarni yaratishga imkon beradi. Buning uchun qidiruv tizimlari Internetda foydalanuvchi faoliyati to'g'risidagi ma'lumotlar, IP manzillari, joylashuv ma'lumotlari, qiziqishlar va onlayn xaridlar, shaxsiy ma'lumotlar, pochta xabarlari va hokazolarni to'playdi. Bularning barchasi Internetda foydalanuvchi harakatlariga qarab kontekstual reklama namoyish qilish imkonini beradi. Bunday holda, odatda foydalanuvchilarning roziligi so'ralmaydi va o'zingiz haqingizda qanday ma'lumotlarni taqdim etishni tanlash imkoniyati berilmaydi. Ya'ni, sukut bo'yicha, Big Data keyinchalik sayt ma'lumot serverlarida saqlanadigan barcha narsalarni to'playdi.Shundan kelib chiqib, ma'lumotlarni saqlash va ulardan foydalanish xavfsizligi bilan bog'liq quyidagi muhim masala kelib chiqadi. Masalan, iste'molchilar o'z ma'lumotlarini avtomatik ravishda uzatadigan bu yoki boshqa tahliliy platforma xavfsizmi? Bundan tashqari, ko'plab biznes vakillari katta hajmdagi ma'lumotlarni samarali boshqarish va ularning yordami bilan muayyan biznes muammolarini hal qilishga qodir yuqori malakali tahlilchilar va marketologlarning etishmasligini ta'kidlamoqdalar.Big Data-ni amalga oshirishdagi barcha qiyinchiliklarga qaramay, biznes ushbu yo'nalishga investitsiyalarni ko'paytirishni rejalashtirmoqda. Gartner tadqiqotiga ko'ra, ommaviy axborot vositalari, chakana savdo, telekommunikatsiya, bank va xizmat ko'rsatish kompaniyalari Big Data investitsiya sohalarida etakchi hisoblanadi.
|
Klassifikatsiya masalasi.
|
Klassifikatsiyaga doir masala
|
Klaster tahlil
Klaster tahlilida tasnifdagi ko'p o'zgaruvchan tahlilning xususiyatlari, omillarni tahlil qilish - muloqotni o'rganishda eng aniq aks ettirilgan.Ba'zida klaster tahlilining yondashuvi adabiyotda raqamli taksonomiya, raqamli tasnif, o'z-o'zini o'rganishni tan olish va boshqalar deb ataladi.Klaster tahlilining birinchi qo'llanilishi sotsiologiyada topilgan. Klaster nomini tahlil qilish inglizcha klaster so'zidan kelib chiqqan - to'da, klaster. Birinchi marta 1939 yilda klaster tahlilining predmeti tadqiqotchi Trion tomonidan aniqlangan va tasvirlangan. Klaster tahlilining asosiy maqsadi o'rganilayotgan ob'ektlar va xususiyatlar to'plamini tegishli ma'noda bir hil guruhlarga yoki klasterlarga bo'lishdir. Bu shuni anglatadiki, ma'lumotlarni tasniflash va undagi tegishli tuzilmani aniqlash vazifasi hal qilinmoqda. Klasterlarni tahlil qilish usullari har xil holatlarda qo'llanilishi mumkin, hatto oddiy guruhlashda ham, hamma narsa miqdoriy o'xshashlikka asoslangan guruhlarning shakllanishiga bog'liq.Klaster tahlilining katta afzalligi shundaki, u ob'ektlarni bitta parametr bo'yicha emas, balki butun funktsiyalar to'plami bo'yicha ajratish imkonini beradi. Bundan tashqari, klasterli tahlil, aksariyat matematik va statistik usullardan farqli o'laroq, ko'rib chiqilayotgan ob'ektlar turiga hech qanday cheklovlar qo'ymaydi va deyarli ixtiyoriy xarakterdagi har xil dastlabki ma'lumotlarni ko'rib chiqishga imkon beradi. Bu, masalan, kon'yunkturani prognoz qilish uchun, ko'rsatkichlar xilma -xil shaklga ega bo'lsa, bu an'anaviy ekonometrik yondashuvlarni qo'llashni qiyinlashtiradi.Klasterlarni tahlil qilish bizga juda katta hajmdagi ma'lumotlarni ko'rib chiqish va ijtimoiy-iqtisodiy ma'lumotlarning katta hajmini keskin qisqartirish, siqish, ularni ixcham va vizual qilish imkonini beradi.Klasterlar tahlili iqtisodiy rivojlanishni tavsiflovchi vaqt qatorlari yig'indisiga (masalan, umumiy iqtisodiy va tovarlik holatiga) nisbatan katta ahamiyatga ega. Bu erda mos keladigan ko'rsatkichlarning qiymatlari etarlicha yaqin bo'lgan davrlarni ajratish, shuningdek, dinamikasi eng o'xshash bo'lgan vaqt qatorlari guruhlarini aniqlash mumkin.Klaster tahlilini davriy ravishda ishlatish mumkin. Bunday holda, tadqiqot kerakli natijalarga erishilgunga qadar amalga oshiriladi. Bundan tashqari, bu erdagi har bir tsikl klaster tahlilini yanada qo'llash yo'nalishi va yondashuvlarini sezilarli darajada o'zgartirishi mumkin bo'lgan ma'lumotlarni taqdim etishi mumkin. Bu jarayon teskari aloqa tizimi bilan ifodalanishi mumkin.
|
Klaster tahlilining mohiyati
|
Klasterizatsiya masalasi.
|
Klasterizatsiyaga keltiriladigan masalalar.
|
Ko'p omilli korrelyatsion tahlil.
|
Ko'p omilli korrelyatsion-regression tahlil.
|
Ko'p omilli regression tahlil.
|
Korrelyatsiya
|
Korrelyatsiya koyeffitsiyenti
|
Korrelyatsiya tahlilining asosiy g‘oyasini tavsiflab bering
|
Korrelyatsiya va regressiyaning katta hajmli ma’lumotlarni tahlil qilishdagi roli.
|
Korrelyatsiya, koyeffitsiyentini hisoblash
|
Korrelyatsiyaning katta hajmli ma’lumotlarni tahlil qilishdagi roli.
|
Ma’lumotlar tahlilchilari (Data Scinetist) ning o’rni.
|
Ma’lumotlar tahlilchilarining o’rni.
|
Ma’lumotlarni analiz qilish bosqichlari.
|
Ma’lumotlarning modellari
|
Ma’lumotlarning qanday modellarini bilasiz?
|
Machine learning(mashinali o'qitish) tushunchasi
|
Ma'lumot tahlilchisi nima qiladi?
|
Ma'lumotlarni tahlil qilish nima?
|
Ma'lumotlarni tahlil qilish turlari: texnikasi va usullari
|
Ma'lumotlarni tahlil qilish uchun dasturiy vositalar: Statistica, SPSS, Excel; ularning afzalliklari va kamchiliklari
|
NoSql tushunchasi
NoSQL ma'lumotlar bazalari maxsus uchun maxsus yaratilgan ma'lumotlar modellari va zamonaviy dasturlarni yaratish uchun moslashuvchan jadvallarga ega. NoSQL ma'lumotlar bazalari rivojlanish qulayligi, funktsionalligi va ishlashi uchun keng tan olingan Katta ma'lumot. Ular hujjat, diagramma, kalit qiymati, xotira va qidirish kabi turli xil ma'lumotlar modellaridan foydalanadilar. NoSQL (relaksatsiz) ma'lumotlar bazasi qanday ishlaydi? NoSQL ma'lumotlar bazalari hujjatlar, diagrammalar, asosiy qiymatlar, xotira ichidagi va qidiruv kabi ma'lumotlarga kirish va ularni boshqarish uchun turli xil ma'lumotlar modellaridan foydalanadi. Bundan tashqari, ushbu turdagi ma'lumotlar bazalari katta hajmdagi ma'lumotlarni talab qiladigan ilovalar uchun maxsus optimallashtirilgan, past kechikish va moslashuvchan ma'lumotlar modellari. Biz bunga, xususan, boshqa ma'lumotlar bazalarida ma'lum bo'lgan ma'lumotlarning mustahkamligi cheklovlarini engillashtirish orqali erishamiz.Oddiy kitoblar bazasi jadvalini tuzish misolini ko'ring:Relyatsion ma'lumotlar bazasida ko'pincha kitob yozuvi normallashadi va alohida jadvallarda saqlanadi. Shuningdek, biz aloqalarni asosiy va chet el kalitlari bilan aniqlaymiz. Ushbu misolda Kitoblar jadvalida ISBN, Kitob nomi va Bosib chiqarish raqami uchun ustunlar mavjud. Mualliflar jadvalida Mualliflar identifikatori va Muallifning ismi uchun ustunlar mavjud. Va nihoyat, Muallif ID va ISBN uchun ustunlar bilan Muallif-ISBN jadvali mavjud. Relyatsion model ma'lumotlar bazasida ma'lumotlar bazasidagi jadvallar orasidagi ma'lumotlarning yaxlitligini ta'minlashga imkon berish uchun mo'ljallangan, ortiqcha miqdorni kamaytirish uchun normallashtirilgan va saqlash uchun optimallashtirilgan. NoSQL ma'lumotlar bazasida biz odatda kitob yozuvini JSON hujjati sifatida saqlaymiz. Har bir kitob uchun: buyum, ISBN, kitob nomi, bosma raqami, muallifning ismi va muallifning identifikatori. Biz ularni bitta hujjatda atributlar sifatida saqlaymiz. Ushbu modelda ma'lumotlar intuitiv rivojlanish va gorizontal miqyosi uchun optimallashtirilgan.
|
NPL tushunchasi
|
O’zbekistondagi Big Datadan foydalanadigan soxalarni tavsiflab bering
|
O’zbekistondagi katta hajmli ma’lumotlarni tavsiflab bering
|
Omilli tahlilning vazifalari
|
Parametrik, noparametrik va nominal usullarning farqlarini aniqlang
|
Python dasturlash tili asosiy tushunchalari
Python dasturlash tili sodda va o’qilishi oddiy bo’lgan dasturlash tili bo’lib u inglizcha so’zlarni qo’llab quvvatlaydi kalit so’zlar o’rnida shuning uchun bu boshqacha ko’rinishga ega.Python Interpretori: Bu tarjimon tomonidan ish vaqtida qayta ishlanganligini va uni bajarishdan oldin dasturni kompilyatsiya qilishning hojati yo’qligini bildiradi. Bu PERL va PHP ga o’xshaydi.Python Interaktiv: Bu siz aslida Python buyrug’ida o’tirib, dasturlarni yozish uchun to’g’ridan-to’g’ri tarjimon bilan aloqa o’rnatishingiz mumkin degan ma’noni anglatadi.Python Ob’ektga Yo’naltirilgan: Python Ob’ektga yo’naltirish uslubini yoki dasturiy texnikasini qo’llab-quvvatlaydi.Python Boshlovchilar tili: Python – boshlang’ich dasturchilar uchun ajoyib til bo’lib, oddiy matnni ishlashdan WWW brauzerlariga o’yinlarga keng ko’lamdagi ilovalarni ishlab chiqishni qo’llab-quvvatlaydiPythonning xususiyati quyidagilarni o’z ichiga oladi:O’qish oson: Python nisbatan kam kalit so’zlar, oddiy tuzilish va aniq belgilangan sintaksisga ega. Bu o’rganuvchini qisqa vaqt ichida yodlab olish imkonini beradi.O’qish oson: Python kodi juda aniq va ko’zga ko’rinadigan bo’ladi.Oson ishlash: Pythonning muvaffaqiyati – manba kodi juda oson.Keng standart kutubxona: Pythonning eng qudratli jihatlaridan biri kutubxonaning asosiy qismi juda portativ va UNIX, Windows va Macintosh-da o’zaro faoliyat platformalar bilan mos keladi.Interaktiv usul: Pythonda ishlashda terminalda ishlash uchun juda qulay terminalda test qilib ko’rsa bo’ladi.Portativ: Python keng apparat platformalarida ishlaydi va barcha platformalarda bir xil interfeysga ega.Kengaytirilgan: Python tarjimoniga past darajadagi modullarni qo’shishingiz mumkin. Ushbu modullar dasturchilarni o’zlarining vositalarini samaraliroq bo’lishiga qo’shish yoki sozlash imkonini beradi.Ma’lumotlar bazasi: Python barcha ma’lumotlar bazasini qo’llab quvvatlaydi.GUI dasturlash: Python Windows MFC, Unix, X Window kabi platformalarga GUI dasturlar tuzishni qo’llab quvvatlaydi.Moslashuvchan: Python, qobiq buyruq fayliga qaraganda katta dasturlarga yanada yaxshi tuzilish va qo’llab-quvvatlash imkonini beradi.
|
Python dasturlash tili sintaksisi
|
Python dasturlash tilida big data kutubxonalari
1. Pandas.Pandas - bu ma'lumotlarni tahlil qilish va ma'lumotlarni qayta ishlash uchun bepul Python dasturiy ta'minot kutubxonasi. U jamoat kutubxonasi loyihasi sifatida yaratilgan va dastlab 2008-yilda chiqarilgan. Pandas raqamli jadvallar va vaqt qatorlari koʻrinishidagi maʼlumotlarni manipulyatsiya qilish uchun turli yuqori samarali va foydalanish uchun qulay maʼlumotlar tuzilmalari va operatsiyalarini taqdim etadi. Pandas shuningdek, xotiradagi ma'lumotlar tuzilmalari va turli fayl formatlari o'rtasida ma'lumotlarni o'qish va yozish uchun bir nechta vositalarga ega. Muxtasar qilib aytganda, bu ma'lumotlarni tez va oson manipulyatsiya qilish, ma'lumotlarni yig'ish, o'qish va yozish, shuningdek ma'lumotlarni vizualizatsiya qilish uchun juda mos keladi. Pandalar, shuningdek, CSV, excel va boshqalar kabi turli turdagi fayllardan yoki SQL ma'lumotlar bazasidan ma'lumotlarni olishi va ma'lumotlar ramkasi sifatida tanilgan Python ob'ektini yaratishi mumkin. Ma'lumotlar ramkasi qatorlar va ustunlarni o'z ichiga oladi va undan qo'shilish, birlashtirish, guruhlash, birlashtirish va h.k. kabi operatsiyalar bilan ma'lumotlarni manipulyatsiya qilish uchun foydalanish mumkin.NumPy .NumPy - bu katta massivlar va ko'p o'lchovli matritsalar shaklida bo'lishi mumkin bo'lgan ma'lumotlar bo'yicha raqamli hisoblash uchun bepul Python dasturiy ta'minot kutubxonasi. Ushbu ko'p o'lchovli matritsalar NumPy-ning asosiy ob'ektlari bo'lib, ularning o'lchamlari eksa deb ataladi va o'qlar soni daraja deb ataladi. NumPy shuningdek, ushbu massivlar bilan ishlash uchun turli vositalarni va ushbu ma'lumotlarni chiziqli algebra, Furye o'zgartirishlari, tasodifiy sonlarni kesish va hokazolar yordamida boshqarish uchun yuqori darajadagi matematik funktsiyalarni taqdim etadi. NumPy yordamida bajarilishi mumkin bo'lgan ba'zi asosiy massiv operatsiyalariga qo'shish, kesish, massivlarni ko'paytirish, tekislash, shaklini o'zgartirish va indekslash. Boshqa ilg'or funktsiyalar qatorlarni stacking, ularni bo'limlarga bo'lish, translyatsiya massivlari va boshqalarni o'z ichiga oladi.SciPy.SciPy - bu ma'lumotlar bo'yicha ilmiy hisoblash va texnik hisoblash uchun bepul dasturiy ta'minot kutubxonasi. U jamoat kutubxonasi loyihasi sifatida yaratilgan va dastlab 2001-yilda chiqarilgan. SciPy kutubxonasi NumPy massivi obyektida qurilgan va u NumPy stekining bir qismi boʻlib, u Matplotlib, SymPy, pandalar va boshqalar kabi boshqa ilmiy hisoblash kutubxonalari va vositalarini ham oʻz ichiga oladi. NumPy stekida GNU Octave, MATLAB, GNU Octave, Scilab va boshqalar kabi oʻxshash ilovalardan foydalanadigan foydalanuvchilar mavjud. SciPy maʼlumotlarni optimallashtirish, maʼlumotlar integratsiyasi, maʼlumotlar interpolyatsiyasi va chiziqli algebra, Furye oʻzgarishlari yordamida maʼlumotlarni oʻzgartirish bilan shugʻullanadigan turli ilmiy hisoblash vazifalarini bajarishga imkon beradi. , tasodifiy sonlar yaratish, maxsus funksiyalar va boshqalar. Xuddi NumPy kabi ko'p o'lchovli matritsalar SciPy-ning asosiy ob'ektlari bo'lib, ular NumPy modulining o'zi tomonidan taqdim etiladi.
|
Python dasturlash tilida ma’lumotlar tahlili kutubxonalari
|
Python dasturlash tilida ma’lumotlar tahlili kutubxonalaridan amaliy masalalarni yechishda foydlanaish
|
Python dasturlash tilida ma’lumotlarni qayta ishlash
|
Python dasturlash tilida ma’lumotlarni vizualizatsiya qilish
|
Python dasturlash tilida NumPy kutubxonasi bilan ishlash
NumPy .NumPy - bu katta massivlar va ko'p o'lchovli matritsalar shaklida bo'lishi mumkin bo'lgan ma'lumotlar bo'yicha raqamli hisoblash uchun bepul Python dasturiy ta'minot kutubxonasi. Ushbu ko'p o'lchovli matritsalar NumPy-ning asosiy ob'ektlari bo'lib, ularning o'lchamlari eksa deb ataladi va o'qlar soni daraja deb ataladi. NumPy shuningdek, ushbu massivlar bilan ishlash uchun turli vositalarni va ushbu ma'lumotlarni chiziqli algebra, Furye o'zgartirishlari, tasodifiy sonlarni kesish va hokazolar yordamida boshqarish uchun yuqori darajadagi matematik funktsiyalarni taqdim etadi. NumPy yordamida bajarilishi mumkin bo'lgan ba'zi asosiy massiv operatsiyalariga qo'shish, kesish, massivlarni ko'paytirish, tekislash, shaklini o'zgartirish va indekslash. Boshqa ilg'or funktsiyalar qatorlarni stacking, ularni bo'limlarga bo'lish, translyatsiya massivlari va boshqalarni o'z ichiga oladi.
|
Python tilida ma’lumotlar tahlili kutubxonalari
|
Python tilida ma’lumotlar tahlili kutubxonalaridan amaliy masalalarni yechishda foydlanaish
|
Python tilida ma’lumotlarni qayta ishlash
|
Python tilida ma’lumotlarni vizualizatsiya qilish
|
Pythonda ma’lumotlarni qayta ishlash kutubxonalari
|
Pythonda Matplotlib kutubxonasi bilan ishlash
|
|
Do'stlaringiz bilan baham: |