DataMiningNima? Ma'ruzadaDataMiningkontseptsiyasibatafsilmuhokamaqilinadi. Kelibchiqishi, istiqbollari, muammolariDataqazibolishtasvirlanadi. Ma'lumotlartexnologiyalaribozoriningbirqismisifatidaDataMiningtexnologiyasigaqarashberilgan

Ma'lumotlarni ishlab chiqarish dasturi

bet	3/8
Sana	24.01.2023
Hajmi	133.82 Kb.
	#1116034

1 2 3 4 5 6 7 8

Bog'liq
BIG DATA ga yozmalar 11474

Malumotlarni qidirish jarayoni

Ma'lumotlarni ishlab chiqarish dasturi

Ma'lumotlarni qazib olish vositalari foydalanuvchilarning so'ragan narsalariga qarab ma'lumotlardagi munosabatlarni va naqshlarni tahlil qiladi. Masalan, Data Mining dasturi yordamida axborot sinflarini yaratish mumkin. Tasavvur qiling, restoran ba'zi maxsus mahsulotlarni menyuga qachon qo'yish kerakligini aniqlash uchun ma'lumotlarni qazib olishni ishlatmoqchi. Dastur o'zi to'plagan ma'lumotlarga qaraydi va buyurtma va buyurtmalar asosida sinflar yaratadi.
Boshqa hollarda, ma'lumot ishlab chiqaruvchilar mantiqiy munosabatlarga asoslangan ma'lumot klasterlarini topadilar. Shuningdek, ular iste'molchilar xatti-harakatlaridagi tendentsiyalar to'g'risida xulosa chiqarish uchun assotsiatsiyalar va ketma-ketlik modellariga qarashadi.

Ma'lumotlarni qidirish jarayoni

Ma'lumotlarni qidirish jarayoni olti bosqichdan iborat.

Birinchidan, tashkilotlar ma'lumotlarni yig'adilar va ularni o'zlarining omborlariga yuklaydilar.
Keyin ular ma'lumotlarni ichki serverlarda yoki bulutda saqlaydi.
Boshqaruv tashkil etilgan.
Ma'lumotlarga biznes tahlilchilari, menejment guruhlari va mutaxassislar kirish imkoniyatiga ega. Shuningdek, ular buni qanday tashkil qilishni xohlashlarini aniqlaydilar.
So'ngra ma'lumotlarni qidirish dasturi foydalanuvchi so'roviga binoan ma'lumotlarni tartiblaydi.
Va nihoyat, foydalanuvchi ma'lumotlarni grafikalar yoki jadval kabi mavjud bo'lgan taqdimotda taqdim etadi.

Data Mining nima

Zamonaviy kompyuter atamasi Data Mining "axborot qazib olish" yoki "ma'lumotlar qazib olish" deb tarjima qilingan. Ko'pincha Data Mining bilan bir qatorda Knowledge Discovery ("bilimlarni kashf etish") va Data Warehouse ("ma'lumotlar ombori") atamalari topiladi. Data Miningning ajralmas qismi bo'lgan ushbu atamalarning paydo bo'lishi ma'lumotlarni qayta ishlash va saqlash vositalari va usullarini ishlab chiqishning yangi bosqichi bilan bog'liq. Shunday qilib, Data Mining maqsadi katta (juda katta) hajmdagi ma'lumotlarda yashirin qoidalar va naqshlarni aniqlashdir.

Gap shundaki, inson ongining o'zi turli xil ma'lumotlarning ulkan massivlarini idrok etishga moslashmagan. O'rtacha, bir kishi, ba'zi shaxslar bundan mustasno, hatto kichik namunalarda ham ikki yoki uchtadan ortiq munosabatlarni qo'lga kirita olmaydi. Ammo uzoq vaqt davomida ma'lumotlarni tahlil qilish uchun asosiy vosita rolini o'ynagan an'anaviy statistika ham real hayotdagi muammolarni hal qilishda muvaffaqiyatsizlikka uchraydi. U ko'pincha xayoliy qiymatlar bo'lgan namunaning o'rtacha xarakteristikalari bilan ishlaydi (mijozning o'rtacha to'lov qobiliyati, agar xavf funktsiyasi yoki yo'qotish funktsiyasiga qarab, mijozning to'lov qobiliyati va niyatlarini bashorat qilish kerak bo'lganda; o'rtacha signal intensivligi, siz xarakteristikalari va signal cho'qqilari fon manfaatdor esa, va hokazo. d.).
Shuning uchun matematik statistika usullari asosan oldindan tuzilgan gipotezalarni sinab ko'rish uchun foydalidir, gipotezani aniqlash esa ba'zan ancha murakkab va ko'p vaqt talab qiladigan vazifadir. Zamonaviy Data Mining texnologiyalari heterojen ko'p o'lchovli ma'lumotlarning har qanday bo'laklariga xos bo'lgan naqshlarni (naqshlarni) avtomatik ravishda izlash uchun ma'lumotlarni qayta ishlaydi. Onlayn tahliliy ma'lumotlarni qayta ishlashdan (OLAP) farqli o'laroq, Data Mining-da gipotezalarni shakllantirish va noodatiy (kutilmagan) naqshlarni aniqlash yuki odamdan kompyuterga o'tkaziladi. Ma'lumotni qazib olish - bu bitta emas, balki ko'p sonli turli xil bilimlarni kashf qilish usullarining kombinatsiyasi. Usulni tanlash ko'pincha mavjud ma'lumotlar turiga va qanday ma'lumotlarni olishga harakat qilayotganingizga bog'liq. Bu erda, masalan, ba'zi usullar: assotsiatsiya (birlashtirish), tasniflash, klasterlash, vaqt seriyalarini tahlil qilish va prognozlash, neyron tarmoqlar va boshqalar.
Keling, ta'rifda berilgan kashf qilinadigan bilimlarning xususiyatlarini batafsil ko'rib chiqaylik.
Bilim yangi, ilgari noma'lum bo'lishi kerak. Foydalanuvchiga allaqachon ma'lum bo'lgan bilimlarni kashf qilish uchun sarflangan harakatlar o'zini oqlamaydi. Shuning uchun, bu yangi, ilgari noma'lum bo'lgan bilimdir.
Bilim ahamiyatsiz bo'lishi kerak. Tahlil natijalari yashirin bilimlarni tashkil etuvchi ma'lumotlarda aniq bo'lmagan, kutilmagan naqshlarni aks ettirishi kerak. Oddiyroq usullar bilan (masalan, vizual ko'rish) olinishi mumkin bo'lgan natijalar kuchli Data Mining usullaridan foydalanishni oqlamaydi.
Bilim amaliy jihatdan foydali bo'lishi kerak. Topilgan bilimlar, shu jumladan yangi ma'lumotlarga nisbatan, etarlicha yuqori darajadagi ishonchlilik bilan qo'llanilishi kerak. Foydaliligi shundaki, bu bilim uni qo'llashda qandaydir foyda keltirishi mumkin.
Bilim inson tushunchasi uchun ochiq bo'lishi kerak. Topilgan naqshlar mantiqan tushuntirilishi kerak, aks holda ular tasodifiy bo'lish ehtimoli mavjud. Bundan tashqari, kashf etilgan bilimlar inson tushunadigan shaklda taqdim etilishi kerak.
Data Mining-da modellar olingan bilimlarni ifodalash uchun ishlatiladi. Modellarning turlari ularni yaratish usullariga bog'liq. Eng keng tarqalganlari: qoidalar, qarorlar daraxtlari, klasterlar va matematik funktsiyalar.
Data Mining ko'lami cheklanmagan - Data Mining har qanday ma'lumot mavjud bo'lgan joyda kerak bo'ladi. Ko'pgina bunday korxonalar tajribasi shuni ko'rsatadiki, Data Mining-dan foydalanish rentabelligi 1000% ga yetishi mumkin. Masalan, 350 dan 750 ming dollargacha bo'lgan dastlabki xarajatlardan 10-70 baravar yuqori iqtisodiy samara haqida xabarlar mavjud. 20 million dollarlik loyiha haqida maʼlumot berilgan, u bor-yoʻgʻi 4 oyda oʻzini oqladi. Yana bir misol - yiliga 700 000 dollar tejash. Buyuk Britaniyadagi supermarketlar tarmog'ida Data Mining joriy etish orqali. Ma'lumotlarni qidirish menejerlar va tahlilchilar uchun ularning kundalik faoliyatida katta ahamiyatga ega. Ishbilarmonlar Data Mining usullari yordamida sezilarli raqobatdosh ustunliklarga ega bo'lishlari mumkinligini tushundilar.

Ma'lumotlarni qidirish vazifalarining tasnifi

DataMining usullari tahlilchi duch keladigan ko'plab muammolarni hal qilishga imkon beradi. Ulardan asosiylari: tasniflash, regressiya, assotsiatsiya qoidalarini izlash va klasterlash. Quyida ma'lumotlarni tahlil qilishning asosiy vazifalarining qisqacha tavsifi keltirilgan.

1) Tasniflash vazifasi ob'ektning xususiyatlariga ko'ra sinfini aniqlashga qisqartiriladi. Shuni ta'kidlash kerakki, bu masalada ob'ektni belgilash mumkin bo'lgan sinflar to'plami oldindan ma'lum.
2) Regressiya vazifasi, xuddi tasniflash vazifasi kabi, ob'ektning ma'lum xususiyatlaridan kelib chiqib, uning ayrim parametrlarining qiymatini aniqlash imkonini beradi. Tasniflash masalasidan farqli o'laroq, parametrning qiymati cheklangan sinflar to'plami emas, balki haqiqiy sonlar to'plamidir.
3) Assotsiatsiya vazifasi. Assotsiatsiya qoidalarini qidirishda maqsad ob'ektlar yoki hodisalar o'rtasidagi tez-tez bog'liqliklarni (yoki assotsiatsiyalarni) topishdir. Topilgan bog'liqliklar qoidalar ko'rinishida taqdim etilgan va tahlil qilingan ma'lumotlarning mohiyatini yaxshiroq tushunish uchun ham, voqealar sodir bo'lishini bashorat qilish uchun ham ishlatilishi mumkin.
4) Klasterlashning vazifasi mustaqil guruhlar (klasterlar) va ularning xususiyatlarini tahlil qilinayotgan ma'lumotlarning butun majmuasida izlashdan iborat. Ushbu muammoni hal qilish ma'lumotlarni yaxshiroq tushunishga yordam beradi. Bundan tashqari, bir hil ob'ektlarni guruhlash ularning sonini kamaytirishga va natijada tahlilni osonlashtirishga imkon beradi.
5) Ketma-ket naqshlar - vaqt bilan bog'liq bo'lgan hodisalar o'rtasida qonuniyatlarni o'rnatish, ya'ni. Agar X voqea sodir bo'lsa, Y hodisasi ma'lum vaqtdan keyin sodir bo'lishiga bog'liqlikni aniqlash.
6) og'ishlarni tahlil qilish - eng xarakterli bo'lmagan naqshlarni aniqlash.
Sanab o'tilgan vazifalar maqsadiga ko'ra tavsiflovchi va bashoratli bo'linadi.
Ta'riflash vazifalari tahlil qilinayotgan ma'lumotlarni tushunishni yaxshilashga qaratilgan. Bunday modellardagi asosiy nuqta - natijalarning inson idroki uchun qulayligi va shaffofligi. Ehtimol, topilgan naqshlar o'rganilayotgan aniq ma'lumotlarning o'ziga xos xususiyati bo'lib, boshqa joyda topilmaydi, lekin u hali ham foydali bo'lishi mumkin va shuning uchun ma'lum bo'lishi kerak. Ushbu turdagi muammolar klasterlash va assotsiatsiya qoidalarini qidirishni o'z ichiga oladi.
Bashoratli masalalarni yechish ikki bosqichga bo'linadi. Birinchi bosqichda ma'lum natijalarga ega bo'lgan ma'lumotlar to'plamiga asoslangan model quriladi. Ikkinchi bosqichda u yangi ma'lumotlar to'plamiga asoslangan natijalarni bashorat qilish uchun ishlatiladi. Bunday holda, albatta, qurilgan modellarning iloji boricha aniq ishlashi talab qilinadi. Ushbu turdagi muammolar tasniflash va regressiya muammolarini o'z ichiga oladi. Bu, shuningdek, assotsiatsiya qoidalarini topish muammosini o'z ichiga oladi, agar uni hal qilish natijalaridan ma'lum voqealar sodir bo'lishini taxmin qilish uchun foydalanish mumkin bo'lsa.
Muammolarni hal qilish usullariga ko'ra ular nazorat ostida o'qitish (o'qituvchi bilan o'qitish) va nazoratsiz ta'lim (o'qituvchisiz o'rganish) ga bo'linadi. Bu nom ingliz tilidagi adabiyotlarda tez-tez ishlatiladigan va barcha Data Mining texnologiyalariga ishora qiluvchi Machine Learning (mashinalarni o'rganish) atamasidan kelib chiqqan.
Nazorat ostida o'qitishda ma'lumotlarni tahlil qilish muammosi bir necha bosqichda hal qilinadi. Birinchidan, har qanday Data Mining algoritmidan foydalanib, tahlil qilingan ma'lumotlarning modeli - klassifikator quriladi. Keyin klassifikator o'qitiladi. Boshqacha aytganda, uning ish sifati tekshiriladi va agar u qoniqarsiz bo'lsa, tasniflagich qo'shimcha ravishda o'qitiladi. Bu talab qilinadigan sifat darajasiga erishilgunga qadar yoki tanlangan algoritm ma'lumotlar bilan to'g'ri ishlamasligi yoki ma'lumotlarning o'zi aniqlanishi mumkin bo'lgan tuzilishga ega emasligi aniq bo'lgunga qadar davom etadi. Ushbu turdagi muammolar tasniflash va regressiya muammolarini o'z ichiga oladi.
Nazoratsiz ta'lim yirik do'konda xaridorlar tomonidan amalga oshirilgan xaridlar naqshlari kabi tavsifiy naqshlarni aniqlaydigan vazifalarni birlashtiradi. Shubhasiz, agar bu naqshlar mavjud bo'lsa, unda model ularni ifodalashi kerak va uni o'rganish haqida gapirish o'rinli emas. Shuning uchun nom - nazoratsiz o'rganish. Bunday muammolarning afzalligi tahlil qilingan ma'lumotlar haqida oldindan ma'lumotga ega bo'lmasdan ularni hal qilish imkoniyatidir. Bularga klasterlash va assotsiatsiya qoidalarini qidirish kiradi.

Tasniflash va regressiya muammosi

Tahlil qilishda ko'pincha o'rganilayotgan ob'ektlarning ma'lum sinflarning qaysi biriga tegishli ekanligini aniqlash, ya'ni ularni tasniflash kerak bo'ladi. Misol uchun, shaxs kredit olish uchun bankka murojaat qilganda, bank xodimi potentsial mijozning kreditga layoqatli yoki yo'qligini hal qilishi kerak. Shubhasiz, bunday qaror o'rganilayotgan ob'ekt (bu holda shaxs): uning ish joyi, ish haqi, yoshi, oila tarkibi va boshqalar to'g'risidagi ma'lumotlar asosida qabul qilinadi. Ushbu ma'lumotlarni tahlil qilish natijasida bank Xodim ushbu shaxsni ikkita taniqli "kreditga layoqatli" va "kreditga layoqatsiz" toifalaridan biriga kiritishi kerak.

Tasniflash vazifasining yana bir misoli elektron pochtani filtrlashdir. Bunday holda, filtrlash dasturi kiruvchi xabarni spam (keraksiz elektron pochta) yoki xat sifatida tasniflashi kerak. Ushbu qaror xabarda ma'lum so'zlarning paydo bo'lish chastotasiga qarab qabul qilinadi (masalan, oluvchining ismi, shaxssiz manzili, so'z va iboralar: sotib olish, "qozon", "eng yaxshi taklif" va boshqalar).
Umumiy holda, tasniflash masalalarida sinflar soni ikkitadan ko'p bo'lishi mumkin. Masalan, raqamlar tasvirini tanib olish vazifasida 10 ta shunday sinf bo'lishi mumkin (o'nlik sanoq sistemasidagi raqamlar soniga ko'ra). Bunday vazifada tasniflash ob'ekti taniqli raqamning tasvirini ifodalovchi piksellar matritsasi hisoblanadi. Bunday holda, har bir pikselning rangi tahlil qilinadigan ob'ektning xarakteristikasi hisoblanadi.
Data Mining-da tasniflash vazifasi tahlil qilinadigan ob'ektning parametrlaridan birining qiymatini boshqa parametrlarning qiymatlari asosida aniqlash vazifasi sifatida qaraladi. Aniqlanayotgan parametr ko'pincha bog'liq o'zgaruvchi deb ataladi va uni aniqlashda ishtirok etuvchi parametrlar mustaqil o'zgaruvchilar deb ataladi. Ko'rib chiqilgan misollarda mustaqil o'zgaruvchilar quyidagilar edi:

ish haqi, yoshi, bolalar soni va boshqalar;
ma'lum so'zlarning chastotasi;
matritsa piksel rang qiymatlari.

Ushbu misollardagi bog'liq o'zgaruvchilar:

mijozning kreditga layoqatliligi (ushbu o'zgaruvchining mumkin bo'lgan qiymatlari "ha" va "yo'q");
xabar turi (ushbu o'zgaruvchining mumkin bo'lgan qiymatlari "spam" va "pochta");
rasm raqami (ushbu o'zgaruvchining mumkin bo'lgan qiymatlari 0, 1,..., 9).

Shuni ta'kidlash kerakki, ko'rib chiqilgan barcha misollarda mustaqil o'zgaruvchi cheklangan qiymatlar to'plamidan qiymat oldi: {ha, no}, {spam, mail}, {0, 1,..., 9}. Agar mustaqil va bog'liq o'zgaruvchilarning qiymatlari haqiqiy sonlar bo'lsa, muammo regressiya muammosi deb ataladi. Regressiya muammosiga misol sifatida bank tomonidan mijozga berilishi mumkin bo'lgan kredit miqdorini aniqlash muammosi keltiriladi.
Tasniflash va regressiya muammosi ikki bosqichda hal qilinadi. Birinchisi - mashg'ulot to'plami. U mustaqil va qaram o'zgaruvchilarning qiymatlari ma'lum bo'lgan ob'ektlarni o'z ichiga oladi. Yuqorida tavsiflangan misollarda bunday o'quv namunalari bo'lishi mumkin:

ilgari turli miqdorlarda kredit olgan mijozlar to‘g‘risidagi ma’lumotlar va ularning qaytarilishi to‘g‘risidagi ma’lumotlar;
qo'lda spam yoki elektron pochta sifatida tasniflangan xabarlar;
raqamli tasvirlarning ilgari tan olingan matritsalari.

O'quv namunasi asosida qaram o'zgaruvchining qiymatini aniqlash modeli quriladi. U ko'pincha tasniflash yoki regressiya funktsiyasi deb ataladi. Eng aniq funktsiyani olish uchun o'quv namunasiga quyidagi asosiy talablar qo'yiladi:

namunaga kiritilgan ob'ektlar soni etarlicha katta bo'lishi kerak. Ob'ektlar qanchalik ko'p bo'lsa, uning asosida tuzilgan tasniflash yoki regressiya funktsiyasi shunchalik aniq bo'ladi;
namunada tasniflash muammosi bo'lgan taqdirda barcha mumkin bo'lgan sinflarni yoki regressiya muammosi bo'lgan taqdirda barcha qiymatlar diapazonini ifodalovchi ob'ektlar bo'lishi kerak;
tasniflash muammosidagi har bir sinf yoki regressiya muammosidagi har bir diapazon oralig'i uchun namunada etarli miqdordagi xususiyatlar bo'lishi kerak.

Ikkinchi bosqichda tuzilgan model tahlil qilinayotgan ob'ektlarga (tobe o'zgaruvchining aniqlanmagan qiymatiga ega bo'lgan ob'ektlarga) qo'llaniladi.
Tasniflash va regressiya muammosi geometrik talqinga ega. Keling, buni ikkita mustaqil o'zgaruvchiga ega bo'lgan misol yordamida ko'rib chiqaylik, bu bizga uni ikki o'lchovli fazoda tasvirlash imkonini beradi (2.1.1-rasm). Har bir ob'ektga tekislikdagi nuqta beriladi. "+" va "-" belgilari ob'ektning ikkita sinfdan biriga tegishli ekanligini ko'rsatadi. Ko'rinib turibdiki, ma'lumotlar aniq belgilangan tuzilishga ega: "+" sinfining barcha nuqtalari markaziy mintaqada to'plangan. Tasniflash funktsiyasining qurilishi markaziy mintaqani o'rab turgan sirtni qurishga qisqartiriladi. Bu doira ichida "+" va tashqarida "-" qiymatlariga ega bo'lgan funksiya sifatida aniqlanadi.

Guruch. Ikki o'lchovli tasniflash

Rasmdan ko'rinib turibdiki, zarba maydonini qurish uchun bir nechta imkoniyatlar mavjud. Funktsiyaning turi qo'llaniladigan algoritmga bog'liq.

Tasniflash va regressiya muammolarini hal qilishda duch keladigan asosiy muammolar dastlabki ma'lumotlarning qoniqarsiz sifati bo'lib, unda noto'g'ri ma'lumotlar va etishmayotgan qiymatlar, har xil turdagi atributlar - raqamli va kategorik, atributlarning har xil ahamiyati, shuningdek, - haddan tashqari o'rnatish va to'ldirish muammolari deb ataladi. Ulardan birinchisining mohiyati shundan iboratki, tasniflash funktsiyasi "juda yaxshi" tuzilganida ma'lumotlarga moslashadi va ularda uchraydigan xatolar va anomaliyalarni ichki ma'lumotlar strukturasining bir qismi sifatida izohlashga harakat qiladi. Shubhasiz, bunday model kelajakda boshqa ma'lumotlar bilan to'g'ri ishlamaydi, bu erda xatolarning tabiati biroz boshqacha bo'ladi. Noto'g'ri ishlash atamasi o'quv majmuasida tasniflagichni tekshirishda xatolar soni juda yuqori bo'lgan vaziyatni anglatadi. Bu shuni anglatadiki, ma'lumotlarda maxsus naqshlar topilmadi va ular umuman yo'q yoki ularni aniqlashning boshqa usulini tanlash kerak.

Ko`p o`lchovli malumotlar modeli

Download 133.82 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8