Katta ma'lumotlarni qayta ishlash, ularning tahlili va ta’minot zanjiri xavfini nazorat qilishni baholash


Download 28.51 Kb.
Sana22.02.2023
Hajmi28.51 Kb.
#1220575
Bog'liq
Katta ma


Katta ma'lumotlarni qayta ishlash, ularning tahlili va ta’minot zanjiri xavfini nazorat qilishni baholash
(Muhammad al-Xorazmiy nomidagi TATU Urganch filiali magistranti A.P.Xaitbayev)

Abstrakt
Katta ma'lumotlar butun dunyo bo'ylab zamonaviy iqtisodiy va ijtimoiy o'zgarishlar asosi hisoblanmoqda. Bu qarorlar qabul qilish, sog'liq, ijtimoiy jarayonlar va ta'lim uchun javobgarlikni o'z zimmasiga olishdir. Ma'lumotlarning miqdori, xilma-xilligi, tezligi va ishonchliligi oshgan bo'lsa-da, ma'lumotlarning murakkabligi ham ortib bormoqda. "Katta ma'lumotlar orqali ma'lumotlarning qiymatini" aniqlash qobiliyatimiz eng katta ta'sirga ega bo'ladi. Katta ma'lumotlar bilan bog'liq muammolarni hal qilish natijasida Big Data IT sektorida inqilob qilmoqda. Bu maqolada yoritib o’tiladigan asosiy maqsad katta hajmli ma’lumotlarni xavfsizligi va ularni baholash. Hozirgi ma'lumotlar bazasini boshqarish vositalari bilan ishlov berish uchun juda katta bo'lgan ma'lumotlar bazalariga ishora qiluvchi Big Data turli xil muhim dasturlarda, jumladan, internet qidiruvi, biznes, ijtimoiy tarmoq, genomika va meteorologiyada o'z o'rnini topmoqda. Ushbu kontseptsiya asosiy tadqiqot muammolari va noaniqlik sharoitida qaror qabul qilish uchun noaniq, mashinali o'qitish va chuqur o'rganishni organik ravishda birlashtirgan ma'lumotlarga asoslangan optimallashtirish va'dasini ta'kidlaydi va zamonaviy ma'lumotlar orqali noaniqlik sharoitida Bayes optimallashtirish biznes sohasidagi potentsial tadqiqot imkoniyatlarini aniqlaydi. Katta ma'lumotlar fan va ma'lumotlar bazasi ma'lumotlarini qazib olish uchun katta muammodir. Bu erda biz katta ma'lumotlar muammosi haqida suhbatlashish uchun ushbu konferentsiyada mening hamjamiyatim amalga oshirayotgan qiziqarli tadbirlarni ko'rib chiqamiz. Natijada, asosiy e'tibor Big Datani turli yo'llar bilan shaxslar bilan bog'lashdir.


Kalit so'zlar
Katta ma'lumotlar, Noaniqlik, Xulq-atvor tadqiqoti, O'rganish, Haqiqat, Belgilanmagan ma'lumotlar, Mashinali o'qitish, Katta ma'lumotlar tahlili

Kirish
Katta ma'lumotlar - bu katta hajmdagi ma'lumotlar, ma'lumotlarni boshqarish imkoniyatlari, ijtimoiy media monitoringi va real vaqtda ma'lumotlarni o'z ichiga olgan ulkan va murakkab ma'lumotlar to'plami va hajmlari. Katta ma'lumotlar tahlili - bu katta hajmdagi ma'lumotlarni tahlil qilish usuli. Raqamli ma'lumotlarning katta va xilma-xil miqdori mavjud. Katta ma'lumotlar deganda terabayt yoki petabaytlarda o'lchanadigan ulkan ma'lumotlar to'plami va hajmlari tushuniladi. Ushbu hodisa Big Data sifatida tanilgan. Katta hajmdagi ma'lumotlarni tahlil qilgandan so'ng, bilim Big Data analitikasi sifatida tarqaldi . Katta ma'lumotlar - bu katta ma'lumotlar to'plamini olish, muvofiqlashtirish, tahlil qilish va to'plash uchun zarur bo'lgan noan'anaviy usullar va texnologiyalar uchun barchani qamrab oluvchi atama. Bitta kompyuterning hisoblash yoki saqlash imkoniyatlaridan oshib ketadigan ma'lumotlar bilan ishlash muammosi yangi bo'lmasada, so'nggi yillarda bu turdagi hisoblashning tarqalishi, hajmi va ahamiyati o'sdi. Sotuvchilar, ekspertlar va texnologiya rahbarlari ishtirok etganligi sababli, "Katta ma'lumotlar" ning aniq ta'rifini aniqlash qiyin. "Katta ma'lumotlar" atamasi butun dunyo bo'ylab eng yuqori tezlikda yaratilgan barcha ma'lumotlarni anglatadi. Ushbu ma'lumot tartibga solinishi mumkin yoki yo'q. Endilikda korxonalar o‘z muvaffaqiyatlarining katta qismini bilimga asoslangan barqaror iqtisodiyot bilan bog‘lashadi.


Katta ma'lumotlarda katta potentsial mavjud, yangi kashfiyotlar qilish potentsiali birinchi marta katta hajmdagi ma'lumotlar orqali amalga oshirildi. Ma'lumotlarning yangi shakllari paydo bo'lishi bilan ma'lumotlarni o'ylash va tahlil qilishning yangi usullari paydo bo'ldi, bu tahlil qilish uchun yangi platformalarni talab qiladi. Katta ma'lumotlar boshqa ma'lumotlar shakllariga qaraganda yuqori chastotalarda ishlab chiqariladi, masalan, ijtimoiy so'rovlar va milliy ro'yxatga olishlar tadqiqotchilarga taqdim etilishi uchun bir necha oy va hatto yillar talab qilinishi mumkin. Ma'lumotlarning boshqa shakllari uchun turli, ba'zan uzoq, dastur jarayonlarida navigatsiya qilish uchun odatlangan tadqiqotchilar uchun ishlab chiqarish ko'lami va tezligi va kirishning qulayligi katta ma'lumotlarni hisoblash qobiliyati va uni boshqarish qobiliyatiga ega bo'lganlar uchun jozibali istiqbolga aylantiradi.
Ma'lumotni "katta" qiladigan narsa bo'yicha yagona konsensus yo'q, lekin katta ma'lumotlar haqida fikr yuritishning umumiy usuli shundaki, u muhim hajmdagi ma'lumotlar manbasini yaratish uchun birlashtirilgan yoki aniq bog'langan bir nechta ma'lumot manbalaridan iborat. Katta ma'lumotni bir nechta asosiy xususiyatlarga ega deb hisoblash mumkin: hajm, xilma-xillik va tezlik. Hajm o'z-o'zidan tushunarli bo'lib, u ba'zi bir bog'lovchi o'zgaruvchi orqali birlashtirilgan bir nechta ma'lumotlar manbalaridan hosil bo'lgan ma'lumotlar to'plamining hajmini anglatadi. Ular ijtimoiy so'rov ma'lumotlar to'plamidan ancha katta va sezilarli darajada ko'proq hisoblash quvvatini talab qiladi. Ma'lumotlar manbalarining kombinatsiyasi ikkinchi xususiyatga - xilma-xillikka olib keladi. Katta ma'lumotlar to'plami odamlar hayotining ko'plab turli tomonlari haqida ma'lumotni o'z ichiga oladi. Masalan, raqamli kuzatuv ma'lumotlari chakana savdo operatsiyalari, mobil telefonning GPS yordamida to'plangan joylashuv tarixi , tashrif buyurilgan veb-saytlar va boshqalar haqidagi ma'lumotlarni birlashtirishi mumkin. Yakuniy xarakteristika, tezlik bilan ma'lumotlarni yig'ish va qayta ishlash tezligini oshiradi.
Katta ma'lumotlar katta imkoniyatlarni taqdim etishi aniq, ammo bu bir ijobiy emas. Ma'lumotlarning barcha shakllari kabi katta ma'lumotlar bilan bog'liq muammolar va tashvishlar mavjud va ular keng muhokama qilingan. Katta ma'lumotlar bilan bog'liq, rozilik va maxfiylik masalalari atrofida ko'plab axloqiy muammolar ko'tarilgan. Dunyo bo'ylab ko'plab xavfsiz ma'lumotlarga kirish xizmatlari mavjud. Ushbu xizmatlar ma'muriy, rasmiy manbalardan hamda keng ko'lamli ijtimoiy so'rovlardan olingan juda batafsil, nozik ma'lumotlarni tayyorlashga ixtisoslashgan. Ma'lumotlarning tafsiloti va sezgirligi tufayli bu ma'lumotlar to'plamlari potentsial oshkor bo'lishi mumkin. Ya'ni, alohida ma'lumotlar sub'ektlarining ma'lumotlardan foydalanishdan qayta identifikatsiya qilinishi xavfi mavjud. Ko'p yillar davomida xavfsiz ma'lumotlarga kirish xizmatlari ushbu ma'lumotlardan xavfsiz foydalanishni ta'minlash uchun infratuzilma va texnikani ishlab chiqdi, shuning uchun katta ma'lumotlarning oshkor etilishidan qanday himoyalanishni ko'rib chiqishda bu muhim. 

Katta ma'lumotlar tahlili (BDA)


Katta ma'lumotlar ko'p turdagi hukmlarga yordam berish uchun juda ko'p kuzatuv ma'lumotlarini o'z ichiga oladi. Katta ma'lumotlar besh "ya'ni, hajm, tezlik, xilma-xillik, haqiqat va qiymat(volume, velocity, variety, veracity, and value) bilan tavsiflanadi. Holbuki, BDA - bu murakkab statistik va hisoblash vositalaridan foydalangan holda qaror qabul qilish uchun ishonchli ma'lumotlarni taqdim etish uchun ma'lumotlarni to'plash va tahlil qilish usulini bildiruvchi atama

Katta ma'lumotlarni tahlil qilish usullari - tavsifiy tahlil, qiziquvchan tahlil, bashoratli tahlil , retseptiv tahlil va oldindan tahlil qilish. BDA tahliliy texnikasi firmalarga “Biznesda nima yuz berdi?” kabi savollarga javob berishga yordam beradi; "Nega biznesda biror narsa yuz bermoqda"; "Kelajakda nima bo'lishi kutilmoqda?"; "Hozir nima qilish kerak?" va "ko'proq qilish uchun qanday talablar bor?" . Firmalar tomonidan qo'llaniladigan tahlil qilish uchun turli xil katta ma'lumotlar vositalariga Xplenty, Adverity, Dataddo, Apache Hadoop , CDH kiradi.


Qo'shimcha ishlab chiqarish (QICH)
Qo'shimcha ishlab chiqarish eng tez rivojlanayotgan va istiqbolli ishlab chiqarish texnologiyalaridan biri bo'lib, an'anaviy protseduralarga nisbatan sezilarli afzalliklarga ega.
Ushbu texnologiyaning asosiy sharti shundaki, uch o'lchovli kompyuter quvvatli dizayn tizimi bilan yaratilgan model jarayonni rejalashtirish talabisiz bevosita ishlab chiqarilishi mumkin. Shuning uchun, batafsil rejalashtirish shart emas va Qo'shimcha ishlab chiqarish materiallari va uskunalarini tushunish bilan birga asosiy o'lchamlar Qo'shimcha ishlab chiqarish asosidagi mahsulotlarni ishlab chiqarish uchun yetarli. Umumiy  Qo'shimcha ishlab chiqarish jarayoni SAPR faylini ishlab chiqish va keyinchalik STL fayl formatiga o'tkazishni, so'ngra Qo'shimcha ishlab chiqarish mashinasiga o'tkazishni, so'ngra mashinani sozlashni, qismni qurishni va keyin qismni mashinadan olib tashlashni, nihoyat, keyingi ishlov berish va foydalanishni o'z ichiga oladi. Texnologik taraqqiyot (mashinalarning aniqligi va tezligi) Qo'shimcha ishlab chiqarish mahsulotlarini iqtisodiy jihatdan samarali ishlab chiqish imkonini berdi. 
2.3 . Xatarlarni nazorat qilish
Buzilish xavfini nazorat qilish izlanishlarda yaxshi tan olingan. Tabiiy va texnogen ofatlar ta'minot zanjiri uchun turli xil xavflarni keltirib chiqaradi. Ta'minot zanjiri xatarlari ortib borayotganligi sababli, firmalar odatdagidek biznesni davom ettirishda tez va samarali javob berishga tayyor (qobiliyatli) bo'lish imkonini beradigan logistika jarayonlari va ko'nikmalarini yaratishi kerak. Shunga qaramay, SC dalgalanma effekti ofatlar tufayli yuzaga kelgan asosiy muammodir. SC to'lqinining ta'siri ofatlarning davomiyligi va jiddiyligiga bog'liq. SC ripple effektini boshqarish moslashuvchan SClarni oldindan loyihalashtirish va rejalashtirishni talab qiladi. Buzuvchi hodisalarga reaktsiya quyidagi strategiyalardan biri yordamida amalga oshirilishi mumkin - parametrikmoslashish (inventarizatsiya), jarayonni moslashtirish (imkoniyatlarning moslashuvchanligi) va tizimli moslashuv (zaxira ob'ekti).
2.4 . Ta'minot zanjirining mustahkamligi
Chidamlilik ko'p qirrali va xilma-xil tushunchadir. Bir tomondan, chidamlilik ko'p yillar davomida rivojlanish psixologiyasi va ekotizim kabi sohalarda ilmiy tadqiqot mavzusi bo'lib kelgan. Boshqa tomondan, bu hali ham rivojlanayotgan xavflarni boshqarish va ta'minot zanjiri boshqaruvi kabi sohalarda dolzarb mavzudir Ponomarov va Xolkomb (2009) SC kontekstida chidamlilikni " ta'minot zanjirining kutilmagan hodisalarni oldindan bilish va ularga javob berish, shuningdek, operatsiyalarni kerakli darajada bog'liqlik va tuzilma va funktsiyani nazorat qilish orqali tiklash qobiliyati" deb ta'riflagan. 
2.5 . Ta'minot zanjiri dalgalanma effekti
“ Dalgalanish effekti uzilishning tarqalishining ta'minot zanjiri ishlashiga ta'sirini hamda ta'minot tarmog'ining strukturaviy dizayni va rejalashtirish parametrlarida uzilishlarga asoslangan o'zgarishlarning kengligini tushuntiradi ." Dolgui (2018)
2.7.1 . Katta ma'lumotlar tahlili va qo'shimcha ishlab chiqarish
Rivojlangan hisoblash quvvati va axborot-kommunikatsiya texnologiyalarining rivojlanishi tufayli katta ma'lumotlarning to'lib ketishiga sabab bo'ldi (Bag va boshq., 2020b). Katta ma'lumotlar yuqori hajm, yuqori tezlik, yuqori xilma-xillik, o'zgaruvchanlik va qiymat taklifi bilan tavsiflanadi ( Riggins va Wamba, 2015 , Kamble va Gunasekaran, 2020 ). Katta ma'lumotlar asosan real vaqt rejimida yaratiladi. Bu, asosan, smartfonlar, Twitter, Instagram, Facebook kabi ijtimoiy tarmoqlar, radiochastotani identifikatsiyalash va boshqa simsiz sensor tarmoqlari yordamida amalga oshirilishi tufayli amalga oshiriladi.
4IRda mashhurlikka erishgan yana bir qiziqarli texnologiya bu qo'shimcha ishlab chiqarish (AM) ( Haleem va Javaid, 2019 ). AM kompyuter quvvatli dizayn dasturi orqali ishlab chiqilgan model yordamida uch o'lchovli mahsulotlarni yaratish uchun ishlatilishi mumkin ( Yılmaz, 2020 ). Dizayn ilg'or muhandislik dasturlari yordamida chizilgan bo'lishi mumkin yoki namunali mahsulot barcha o'lchamlarni olish uchun 3D skanerlar yordamida to'g'ridan-to'g'ri skanerlanishi va keyin kompyuter tizimiga o'tkazilishi mumkin. Shuning uchun AM ma'lumotlar to'plamlariga bog'liq va endi ma'lumotlarga tezda kirish va yangi mahsulotni ishlab chiqish uchun ularni qayta ishlash mumkin. AM jismoniy ob'ektni qurish uchun materialni qatlam-qatlam qo'shadi ( Haleem va Javaid, 2019 ).
Katta ma'lumotlarning bir qismi butun jarayonda muhim ahamiyatga ega va katta ma'lumotlarsiz AM muvaffaqiyatga erisha olmaydi ( Majeed va boshq., 2019 ; 2021). Demak, Katta ma'lumotlar tahlili firmaning qo'shimcha ishlab chiqarishni amalga oshirish qobiliyatiga ijobiy ta'sir ko'rsatadi.

2.2 . Akademik muammolar


Institutsional chegaralardan tashqarida integratsiya: Umuman olganda, K-12 maktablari akademik fanlar atrofida tashkil etilgan. Turli kafedralar, kollejlar va maktablar universitetlarni tashkil qiladi. Oddiylik uchun ushbu birliklarning har biri atributlarni almashish paytida boshqalardan mustaqil ravishda ishlaydi. Ushbu tashkiliy chegaralar bo'ylab bilimlarni birlashtirish qiyin vazifa bo'ladi. Hech bir tashkilot o'z vakolatlarining bir qismini tark etmaydi. O'z-o'ziga xizmat ko'rsatish tahlili va ma'lumotlarni vizualizatsiya qilish: rejalashtirishchilar va siyosatchilarga o'zlarining tadqiqotlarini o'tkazishlari va tadqiqot natijalarini grafik tarzda ko'rsatishlari uchun zarur bo'lgan texnologik resurslarni taqdim etish bolalar o'yini bo'lardi [6]. Ushbu resurslardan foydalangan holda o'qishni tugatishni talab qiladigan madaniyatni yaratish juda qiyin bo'ladi. Ular intuitiv ravishda qaror qabul qilishga odatlanganligi sababli, tadqiqot natijalari bilan qaror qabul qilish jarayonini xabardor qiladigan muhitni yaratish yanada katta muammo bo'ladi
2.3 . Qiyinchiliklar va ma'lumotlarni tahlil qilishning analitik usuli
Qaror qabul qilishni yaxshilash uchun muhim bilimlarni baholashda foydali bo'lgan Big Data (BD) yaqinda akademiklar va amaliyotchilarning qiziqishini uyg'otdi. Big Data Analytics (BDA) tezda BDni qo'llab-quvvatlovchi kompaniyalarni aniqlash va qimmatli tushunchalarga ega bo'lish uchun qulay tendentsiyaga aylanmoqda. Garchi bu strategik imkoniyat bo'lsa-da, tashkilotlar BDA vositalarini qabul qilish va ulardan foydalanishni o'z ichiga olgan tadqiqot jarayonini operatsion samaradorlikni oshirish usuli sifatida ko'rib chiqadilar. Potentsial, yangi daromad manbalarini yaratish va bir vaqtning o'zida raqobatdosh ustunliklarni qo'lga kiritish. Biroq, ko'rib chiqilishi kerak bo'lgan boshqa turdagi analitik ilovalar mavjud. Tashkilotlar qimmatbaho BD-lardan foydalanish va joylashtirishning asoschisi bo'lish uchun birinchi navbatda BDA landshaftini ishlab chiqishlari kerak. 
3.2 . Cheklovlar
Katta ma'lumotlarning nosozliklarini qidirish ko'plab bunday vaziyatlarni ochib beradi, ularning har biri inson ishtirokisiz ma'lumotlar tahliliga tayanishdan kelib chiqadi. Muammo Big Data va analitikada emas, balki biz ulardan qanday foydalanishni xohlayotganimizda. Yana bir misol - tashkilot samaradorligini baholash uchun svetoforga asoslangan paneldan foydalanish. Yuz millionlab yillar davomida evolyutsiya miyamizga tahdid va muammolarni aniqlash mexanizmini ishlab chiqishda yordam berdi . Bizning omon qolish instinktlarimiz bizni xavfdan qochishga majbur qiladi. Ushbu mexanizmlar bizni bir nechta "muammolar" choralariga e'tibor qaratishimizga sabab bo'ladi, ular odatda "yashil" ko'rsatkichlar bilan ifodalanadigan potentsial yuqori imkoniyatlar hisobiga qizil rangga ega. Rahbarlar, shuningdek, bilimga juda ko'p tayanishga va Big Data natijasida qaror qabul qilishga e'tibor bermaslikka moyil. Bu e'tiborga olinadigan muqobil variant bo'lsa-da, noto'g'ri ishlatilsa, u xavfli bo'lishi mumkin.
3.3 . Katta ma'lumotlarning kelajakdagi istiqbollari
Internet, sun'iy intellekt, IoT , Big Data va boshqa zamonaviy texnologiyalarning joriy etilishi bilan moliya sanoati, xususan, bank sektori misli ko'rilmagan darajada rivojlanmoqda [15] . Bu, shuningdek, bozor ishtirokchilariga misli ko'rilmagan texnik muammolarni keltirib chiqardi. Misol uchun, an'anaviy bank tizimi raqamli sohada rivojlangan texnologik murakkablikka rioya qilish uchun kurashmoqda. Quyida moliyaviy sektorda Big Dataning ba'zi oqibatlari keltirilgan.
3.4 . Big Dataning sanoatdagi o'rni
Aksariyat o'yinchilar, xususan, banklar o'z bizneslari uchun raqobatdosh ustunlikka erishish uchun Big Datadan foydalanadilar.
3.5 . Nazorat va xavflarni modellashtirish
Ta'sirchan modellarni yaratish orqali firmalar Big Data Analytics yordamida xavflarni cheklashlari mumkin. Kompaniyaning potentsial risklarini yumshatish uchun to'g'ri tahlil qilingan ma'lumotlar bozor tendentsiyalarining o'zgarishi, sotib olish xatti-harakati va ijtimoiy media munosabati kabi ko'plab jihatlarni hisobga oladi [16] .
3.7 . Belgilanmagan ma'lumotlarda noaniqlik bilan ishlash
Dalillar, ehtimol, nomuvofiq va noaniq, chunki haqiqat haqiqatning boshqa so'zidir. Bu haqiqat yoki shubhali faktlar tushunchasi, menimcha, asosiy tendentsiya bo'ladi. Agar biz hozir qayerda ekanligimizga qarasak, biz globusdagi ma'lumotlar miqdorini ko'rishimiz mumkin va o'sish tezligiga qarasak, biz sensorlar va qurilmalardan juda ko'p noaniqlik bilan ko'p ma'lumotlarni ko'rishimiz mumkin. Ijtimoiy tarmoqlardagi matnni tahlil qilish uchun siz odamlar nima deyayotganini tushunishingiz kerak, bu juda ko'p nuanslarni, shuningdek ovozli IP va korporativ ma'lumotlarni o'z ichiga oladi [17] .
Noaniq ma'lumotlarning kengayish tezligi va tezligi tez sur'atlar bilan o'sib bormoqda va Katta ma'lumotlardan foydalanish uchun siz ushbu noaniqlik darajasiga dosh bera olishingiz kerak. Asosiy misolni olaylik: Sara - eri Real Madrid tarafdori bo'lgan ayol. u birinchi bo'lib xayoliga kelgan narsa: "U nima qilishni xohlaydi va nima qilishni xohlaydi?" "Ertaga tug'ilgan kuni, "Real Madrid" formasini qidirmoqda", deb yozdi u Twitterda [17]. Avvalo, u har doim ham to'liq inglizcha emas; bir nechta qisqartmalar va jargon atamalar mavjud, masalan, hubby, bu turmush o'rtog'i uchun inglizcha jargondir. Bu erdan xulosa qilishimiz kerakki, u eri uchun, ehtimol, Real Madrid uchun, ertangi kun uchun va aniq, erkak uchun ko'ylak olishni xohlaydi. Endi biz u onlayn aloqada bo'lishi mumkin bo'lgan odamlarni, shuningdek, biz ta'sir o'tkazuvchilar deb ataydigan ko'plab narsalarni ko'rib chiqmoqdamiz, agar siz odamlarga sotuvchi bo'lsangiz, izlashingiz kerak. Bugungi kunda sotuvchilar to'g'ridan-to'g'ri iste'molchilarga sotmaydilar; Buning o'rniga ular o'zlarining marketingini o'tkazadigan ta'sirchanlarga sotadilar. Shunday qilib, ta'sir qiluvchilarni kashf qilish imkoniyati; masalan, Ronaldu asosiy ta'sir o'tkazuvchi hisoblanadi va agar siz Ronalduni mahsulot haqida hayajonlantira olsangiz, uning izdoshlari ham shunday bo'ladi.
Yana bir qiyinchilik - bu nuans bilan shug'ullanish, shuning uchun Saraning so'nggi bayonoti: "Ehtimol, men samolyot chiptalari va o'yindagi o'rindiqlar uchun xarajat qilaman" Siz tushunishingiz kerakki, u nima qilmoqchi yoki nimaga erishmoqchi? motiv, orzu va hazil o'rtasidagi farqni bilish uchun qiziqarli nuqta shundaki, tegishli narsani ochish uchun yaxshi tashkilot har kuni 250 million tvitni tahlil qilishi kerak, bu esa ko'lamli bo'lishi kerak. Boshqa jihat shundaki, bu ishonch sizning potentsial mijozlaringiz nimani o'ylayotganiga asoslanadi [18] . Bu siz foydalanishingiz mumkin bo'lgan biznes aktivi; siz uni saqlab qolishingiz va biznes qarorlarini qabul qilish va raqobatbardosh ustunlikka erishish uchun foydalanishingiz mumkin. 2-rasm noaniqlik bilan ishlashni tasvirlaydi.
3.8 . Ma'lumotlarning noaniqliklari turlari
CJ Date [1] ga ko'ra , barcha noaniqliklar bir xil emas. Uni uch toifaga bo'lish mumkin: kelib chiqish omillari, kelib chiqish tabiati va talqin qilish qobiliyati. Imkonsizligi sababli qiymat mavjud bo'lmagan holatlar, qiymat mavjud bo'lgan, ammo noma'lum bo'lgan holatlar va qiymat mavjud bo'lgan va ma'lum bo'lgan, ammo nomuvofiq yoki qarama-qarshi bo'lgan holatlar o'rtasida farq qilish kerak. CJ Date nazariyasiga ko'ra, noaniqlikning to'rtta toifasi mavjud: qiymat hozircha shakllanmagan,
Ø
Hali shakllanmagan qiymat.
Ø
Mavjud bo'lmagan ma'lumotlar elementi qiymati.
Ø
Qiymati bor, lekin noma'lum.
Ø
Qiymat bor, lekin u qabul qilinmayapti (olinmayapti).
Ø
Qiymat noto'g'ri (qabul qilib bo'lmaydi).
Ø
Hali aniqlanmagan qiymat.
Ø
Qiymat tartibsiz (buzilgan).
Ø
"Qimmat" atamasi chalkash.
Ø
Qiymat etarlicha aniq emas.
Ø
Qiymat bo'sh satr va hokazo.
Roʻyxat tugallanmagan va qoʻshimcha elementlar qoʻshilishi mumkin. Katta ma'lumotlar manbasining mazmuni va xususiyatlariga qarab ma'lumotlar noaniqligining turli sabablari bo'lishi mumkin. Resursdagi ma'lumotlar ziddiyatini nima uchun tasniflashimiz kerak? Birinchidan, noaniqlikni bartaraf etish usuli noaniqlikning kelib chiqish tabiati va omillariga bog'liq. Agar qiymat mavjud bo'lsa, lekin noma'lum bo'lsa, masalan, uni yana tekshirish mumkin. Agar qiymat mos bo'lmasa, uni o'zgartirish mumkin. Agar qiymat hali shakllanmagan bo'lsa, u keyinroq yetkazib beriladi. va hokazo. Ikkinchidan, agar noaniqlikni bartaraf etish qiyin bo'lsa, manbani qayta ishlash mos ravishda tuzilishi mumkin. Qiymat noto'g'ri, xato yoki nol bo'lsa, uni qayta ishlashdan chiqarib tashlash mumkin. Agar qiymat xato yoki ziddiyatli bo'lsa, aniqlik yoki ishonch darajasi o'zgartirilishi mumkin va hokazo. Natijada,.
3.9 . Katta ma'lumotlar manbalari uchun ma'lumotlar noaniqligi muammosini hal qilish algoritmi
Noaniqlikni bartaraf etish uchun Big Data manbasiga bo'lgan ehtiyojga javoban muayyan usul taklif etiladi. Algoritmning uchta bosqichi mavjud. Bosqichlar har xil turdagi vazifalar uchun echimlarni belgilash uchun ishlatiladi: (1) ommaviy ma'lumotlar manbalarining oldindan aytib bo'lmaydiganligi yo'q qilinadi (yoki hech bo'lmaganda kamayadi); (2) Ma'lumotlar noaniqligini yo'q qilish jarayoni davomida yuzaga kelgan muammoli vaziyatlar tahlil qilindi va aniqlandi; (3) Ekzistensial o'rganish va takomillashtirish. Maksimal samaradorlik uchun birinchi va 2-bosqichlarni bajarish kerak. 3-bosqich katta ma'lumotlar manbasidagi noaniqliklar bartaraf etilgandan va muammoli holatlar hal qilingandan keyin amalga oshirilishi mumkin. Algoritmning tavsifi endi mavjud.
1-qadam: Ma'lumotlar resursini o'rganing (sub-resurs, birlik). Keyingi bosqich ma'lumotlarning nomuvofiqligini aniqlashdir. Agar 2-bosqich muvaffaqiyatli bo'lsa (noaniqlik aniqlansa), joriy qadam resursning keyingi ma'lumotlar birligi uchun takrorlanishi kerak; agar u foydali bo'lmasa (noaniqliklar topilmasa), joriy qadam resursning keyingi ma'lumotlar birligi (sub-resurs) uchun takrorlanishi kerak. Barcha ma'lumotlar birliklari to'liq o'rganilgandan so'ng, 8-bosqichga o'ting.
2-qadam: noaniqlikni turkumlash. Noaniqlikni ekzistensial ravishda belgilangan turlarga qarab uning turini aniqlash uchun baholash kerak. Agar tur aniqlansa, 3-bosqichga o'ting; aks holda, 6-bosqichga o'ting.
3-qadam: noaniqlikni hal qilish yo'lini izlang. Ushbu bosqich ekzistensial noaniqlikning o'ziga xos shaklini olib tashlash uchun zarur bo'lgan strategiya uchun ta'rifga ega yoki yo'qligini ko'rishdir. Agar mos usul ko'rsatilgan bo'lsa, 4-bosqichni bajarish kerak; aks holda, 6-bosqichga o'ting.
4-qadam: Noma'lum narsadan xalos bo'lishga qaror qilish. Ma'lumotlar birligi va noaniqlik turiga rioya qilish qoidasi, shuningdek, uni yo'q qilish strategiyasi qoidalar to'plami orasida aniqlanishi kerak, qoida topildi, 5-bosqichga o'ting, agar bo'lmasa (ekzistensialda hech qanday qoida topilmadi), o'ting. 6-qadam.
5-qadam: noaniqliklarni bartaraf etish qoidasini amalga oshirish. Ushbu bosqich oldindan belgilangan protsedurani chaqirish bilan yakunlanadi, ma'lumotlarga o'zgartirishlar noaniqlik hal qilingandan so'ng amalga oshiriladi. Keyin, keyingi ma'lumotlar birligi uchun 1-bosqichga qayting. Agar noaniqlik hali ham mavjud bo'lsa, 6-bosqichga o'ting.
6-qadam: Muammoli vaziyat qayta ishlanmoqda. Ushbu bosqich ma'lumotlar noaniqligini qayta ishlash jarayonida yuzaga kelgan muammoni aniqlash va hal qilishdir. Bu masalalarni qayerdan kelib chiqqanligiga qarab tasniflash mumkin: Ekzistensialda ma'lumotlar birligi (sub-resurs) tavsifi yo'q;
Ø
Ekzistensialda ma'lumotlar birligi uchun noaniqlik turini tushuntirish yo'q.
Ø
Noaniqlikning ba'zi shakllarini yoki ma'lum bir ma'lumotlar birligida olib tashlash usuli haqida hech qanday gap yo'q.
Ø
Muayyan ma'lumotlar birligi uchun noaniqlikni olib tashlash qoidasining tavsifi yo'q.
Ø
Noaniqlikni bartaraf etish uchun reglamentni qo'llash hech qanday ta'sir ko'rsatmadi.
7-qadam: Muammoni aniqlang va hal qiling. Stsenariy aniqlangandan va tasniflangandan so'ng, u ma'lum bir formatga amal qiladigan maxsus jurnalga (yoki registrga) yozilishi mumkin. Muammoni hal qilganingizdan so'ng 1-bosqichga qayting.
8-qadam: Agar 1–7-bosqichlar natijasida jurnalda (registrda) hech qanday tuzatilgan muammolar yoki qayta ishlanmagan maʼlumotlar boʻlmasa, ekzistensial asoslangan algoritm tugallangan hisoblanadi. Agar jurnalda yozuvlar bo'lsa, 2-bosqichga o'ting . 3-rasmda taklif qilingan algoritmning sxemasi ko'rsatilgan.
Shubhali ma'lumotlarning rivojlanish tezligi va harakati sezilarli darajada kengayib bormoqda va katta ma'lumotlarni boshqarishda ustunlik qilish uchun siz haqiqatan ham bunday zaiflikni boshqarish imkoniyatiga ega bo'lishingiz kerak. Biz bu erda asosiy modelni qilishimiz kerak; Bizda Sara ismli ayol bor va uning yarmi Real Madrid muxlisi [19]. U nima qilishi kerak va u nima qilishni xohlaydi, degan asosiy savol, bizda uning so'zlashuv so'zlaridan "Xobining tug'ilgan kuni yaqinlashmoqda, "Real Madrid" futbolkasini qidirmoqda" deb nomlangan Twitter kanali bor. Bu erda e'tiborga olish kerak bo'lgan bir nechta narsa, birinchi navbatda, bu butunlay inglizcha emas, juda ko'p qisqartirishlar mavjud va argo - turmush o'rtog'i uchun inglizcha jargon. Bu erdan biz tushunib olishimiz kerakki, u pullover sotib olishi kerak, Real Madrid ertaga uning uchun muhim va aniq erkak uchun [20]. Hozirda biz u internetda muloqot qilishi mumkin bo'lgan shaxslarni va biz ta'sir qiluvchilar deb ataydigan ko'plab narsalarni ko'rib chiqamiz va agar siz reklama beruvchi bo'lsangiz va jismoniy shaxslarga taklif qilsangiz, buni qidirasiz. Bugungi kunda reklama beruvchilar to'g'ridan-to'g'ri jismoniy shaxslarga sotmaydilar, ular o'zlari uchun reklama qiluvchi ta'sir o'tkazuvchilarga taklif qilishadi. Shunday qilib, ta'sir qiluvchilarni tan olish imkoniyati; Ronaldu o'ziga xos ta'sir o'tkazuvchi va agar siz Ronalduni biror narsaga qiziqtirsangiz, o'sha paytda uning tarafdorlari ham bunga qiziqib qolishadi. Namunalarning noaniqligi 1-jadvalda ko'rsatilgan .

4.2 . Chuqur o'rganish


Sun'iy intellekt (AI) - bu kompyuterlarga inson xatti-harakatlarini taqlid qilish imkonini beradigan usullarni bildiruvchi keng atama. Ma'lumotlarga o'rgatilgan algoritmlar to'plami buni amalga oshiradi. Buning o'rniga chuqur o'rganish - bu inson miyasi funktsiyasi qobiliyatini aks ettiruvchi mashinani o'rganish. Berilgan mantiqiy ko'p qatlamli tuzilgan, chuqur neyron tarmoqlari ushbu murakkab neyron tarmoq bizga klasterlash, tasniflash, regressiya kabi bir nechta vazifalarni bajarishga imkon beradi. Namuna o'xshashliklariga ko'ra, biz etiketlanmagan ma'lumotlarni saralashimiz mumkin . Shu bilan bir qatorda, biz ushbu ma'lumotlar to'plamidagi namunalarni turli toifalarga tasniflash uchun tarmoqni sozlashimiz mumkin [ 24 , 25 ].
Lingvistik kvantifikatorlardan foydalangan holda , loyqa mantiq noaniqlik muammolari (ya'ni, noaniq to'plamlar) uchun Big Data tahlilida taxminiy fikrlash va sifatli ma'lumotlarni modellashtirish usulini taqdim etadi . I Tashqi ob'ektlar loyqa mantiqiy tizimlar ma'lumotlarning noaniqliklarini samarali hal qilishini ko'rsatdi va Big Data Analytics juda noaniq vaziyatlarda ma'lumotlarda shovqin mavjudligi sababli qiyinchiliklarni keltirib chiqaradi. Boshqa bir tadqiqotda Map Reduce va loyqa mantiqqa asoslangan taalukli algoritmlardan foydalanilganBig Data tahlillari yordamida klinik qarorlar qabul qilishda yordam berish. Yaratilgan arxitektura turli manbalardan ma'lumotlarni boshqarishga kelganda juda moslashuvchan edi. Murakkab muammoga eng yaxshi yechim(lar)ni topish uchun nomzodlik yechimlarini bosqichma-bosqich ishlab chiqish orqali evolyutsiya jarayonini taqlid qiluvchi EAlar Big Data Analytics muammolarini hal qilish uchun yana bir foydali CI texnikasi hisoblanadi. EA katta xilma-xilligi tufayli katta ma'lumotlarni tahlil qilishning ajoyib usullaridir. Harakat, shovqin va oldindan aytib bo'lmaydigan sharoitlar CI-ga asoslangan algoritmlarning natijalariga ta'sir qilishi mumkin [25] . Bundan tashqari, agar bir nechta omillar mavjud bo'lsa, ushbu muammolardan birini hal qilish uchun mo'ljallangan algoritm muvaffaqiyatsiz bo'lishi mumkin.

4.3 . Kelajak doirasi



Ma'lumotlarning noaniqligi nuqtai nazaridan, tadqiqot teskari aloqa jarayonlarini modelga asoslangan tizimlarga, ma'lumotlarga asoslangan tizimlarga bo'lish, ma'lumotlarga asoslangan stsenariyga asoslangan optimallashtirish uchun chuqur generativ modellar qobiliyatidan foydalanish va nihoyat haqiqiy ma'lumotlarga asoslangan matematik ramkalarni qurishdan iborat bo'ladi. - vaqt ma'lumotlari.

Natijalarning ishonchliligini oshirish uchun cheklovlarning moslashuvchanligi va modellashtirish maqsadlarining qiymatini baholash kerak.

Boshqa tomondan, meta-evristik yondashuvlar operatsion va tadqiqot sozlamalari, shuningdek narxlash tizimlarining ta'siri, sotish va ta'minotni tanlash aspektlaridan qayta foydalanish nuqtai nazaridan ishlab chiqiladi.
5 . Xulosa
Ushbu maqola noaniqlikning bir nechta Big Data Analytics metodologiyalariga ta'sirini ko'rib chiqdi. Biz juda katta ma'lumotlar bo'yicha statistik usullardan foydalanganda, biz chiqaradigan xulosalar tizimli xatolik tufayli yanada shubhali bo'lib qolishini aniqlaymiz.(bias) yoki yuqori darajadagi tasodifiylik (ko'tarilgan dispersiya). Biz Big Data tomonidan beriladigan eng qiyin vazifa uni yangi muammolarni hal qilish uchun qanday ishlatish emas, balki yangi tahdidlar bilan bog'lanish uchun vositalar va tartiblarni yaratishdir. Banklar katta hajmdagi ma'lumotlardan foydalanishga asoslangan mashinani o'rganish algoritmlari yordamida firibgarlik harakatlarini aniqlaydi va oldini oladi. Muammoli qarzdorlarni aniqlaydigan bir nechta tendentsiyalar mavjud va ular ijtimoiy tarmoqlarda ushbu tendentsiyalarni aniqlashlari mumkin. Yakuniy tadqiqotlarni shaxsan ishlab chiqish uzoq vaqt talab qilishi mumkin bo'lsa-da, Big Data talab qilinadigan vaqt va kuchni qisqartiradi. Katta ma'lumotlar moliyaviy xizmat ko'rsatuvchi provayderlar tomonidan tahdidlarni halokatli holga keltirguncha boshqarish uchun ishlatilishi mumkin.
Download 28.51 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling