Va ularni olish usullari
Download 122.22 Kb.
|
Reja m a’lumotlar va bilimlar. Asosiy tushunchalar-fayllar.org
Analytical Processing) vositalari, ya’ni operativ analitik qayta ishlash vositalari
orasidagi farq haqidagi savol. OLAP - bu qarorni qabul qilishni qo'llab - quvvatlashga yo'nalgan texnologiyalar qismi. Buyurtma va hisobotlarni loyihalashtirishning oddiy vositalari ma’lumotlar bazasining o'zini tavsiflaydi. Bunda foydalanuvchining o'zi ma’lumotlar yoki ma’lumotlar orasidagi munosabatlar orqali modelni shakllantiradi va shundan so'ng farazlarni tasdiqlash yoki rad qilish uchun ma’lumotlar bazasi buyurtmalari seriyasidan foydalaniladi. Data Mining vositalari OLAP vositalaridan shu bilan farq qiladiki, foydalanuvchi faraz qilayotgan o'zaro bog’lanishlarni tekshirish o'rniga ular mavjud ma’lumotlar asosida turli tadqiq etilayotgan omillarning berilgan xossaga ta’sir darajasini miqdoriy baholashga imkon beruvchi modellarni ishlab chiqishlari mukin. Bundan tashqari, Data Mining vositalari noma’lum, lekin ma’lumotlarda real mavjud munosabatlar xarakteri haqida yangi gipotezalarni ishlab chiqishga imkon beradi. OLAP vositalaro KDD jarayonining turli bosqichlarida qo'llaniladi, chunki ular tadqiqotchi e’tiborini eng muhim o'zgaruvchilariga qaratishsa, o'zgaruvchilarning chiqarib tashlanuvchi yoki qiziqarli qiymatlarini aniqlash asosida ma’lum ma’lumotlarni tushunishga yordam beradi. 95 KDD ning qisqacha tarixi [23, 24]. KDD usullari oxirgi 20-asr oxirlari va 21-asr boshlarida juda tez rivojlandi. Hozirgi kunda ma’lumotlar bazasini kompyuterda tahlil qilish masalalari bajarilmoqda. Kompyuter paydo bo'lgunga qadar turli statistik usullardan foydalanilgan holda amalga oshirilgan. Shuning uchun kompyuter ularni qo'llanilish imkoniyatlarini osonlashtirdi va kengaytirdi. Hozir foydalanilayotgan ma’lumotlarni intellektual tahlil qilish usullari ikki yo'nalishdagi evalyutsiya natijasidir: bir tamondan - bu statistika usullarining chuqurlashtirilgan, intellektuallashtirish saviyasi xususida, ikkinchi tamondan - natijasi nerv to'qimalarini eslatuvchi va sun’iy neyron to'rlar deb ataluvchi sun’iy sistemalarni yaratishga yordam beradigan odam va hayvon nerv to'qimasini modellashtirishga urinishdir. Birinchidan, bunday real harakat qiluvchi sistema bit rastrli ketma-ketliklar ko'rinishida bo'lgan oddiy vizual tasvirlarni taniy olish qobilyatiga ega bo'lgan perseptronlar 1960-yillarning oxirlarida qurilgan. Bu yo'nalish 1980-yillar oxirida yana ham yuksak rivojlandi va neyroto'rlar asosida ma’lumotlar bazasini tahlil qilish kommersiya sistemalari qurildi. Hozirgi paytda KDD sistemasi usullarini ishlab chiqish va yaratish bilan shuullanuvchi juda ko'p yirik tadqiqot markazlari mavjud. Bu markazlarning ko'pchiligi 1990- yillarda (1992-93y.) tashkil etila boshlagan. Tadqiqot guruhlari sonining o'sishi 1996-2010 yillarda eksponensial ko'rinishga ega. Shuning uchun tadqiqot markazlari yaqin kelajakda turlicha shakllarda universitetlarda, inistitutlarda va ilmiy markazlarda juda ham ko'payadi. Bu muammo bilan intensiv shuullanadigan yirik kompaniyalar sifatida IBM va Microsoft kompaniyalarini ko'rsatish mumkin. IBM to'liq o'zining yirik tadqiqot markazini Almaden shahridagi dasturiy ta’minot texnologiyalari sohasini KDD algoritmlarini ishlab chiquvchi va ishlovchi KDD sistemalarini qurishga yo'naltirdi. Buning natijasida asosan meynffreym va qudratli ishchi stansiyalar uchun mo'ljallangan maxsus KDD sistemalarining butun bir oilasini ishlab chiqdi. Masalan, Advanced Scout deb ataluvchu maxsuslashgan sistemalardan biri jamoalarda o'yinchilar turli kombinatsiyalari samaradorligini tahlil qilish uchun va o'yin strategiyasini boshqarish uchun AQSh ning Milliy basketbol assotsatsiyasida qo'llanilmoqda. Bu maxsuslashtirilgan sistema million dollordan ortiq turadi va MBA ning bir nechta jamoalari foydalanmoqda. Micrisoft firmasi bevosita Redmond shahridagi shtab - kvartirasi binosida joylashgan firmasida KDD markazini tashkil etdi va bu muammo bilan universitet va ilmiy akademiya markazlarida shuullangan mashxur mutaxassislarni taklif etdi. Bu markazni avval NASA reaktiv harakat laboratoriyasida ishlagan va 1996 yilda fanni rivojlantirish bo'yicha eng faxrli amerika mukofotlaridan birini olgan professor Usama Fayadd boshqarmoqda. Microsift misolida ko'rish mumkinki, eng yirik kompyuter kompaniyasi ham bu yangi texnologiyaga katta ahamiyat bermoqda va ma’lumotlarning intellektual tahlil qilish uchun yangi qudratli mahsulotlar chiqarmoqda. Bundan tashqari, KDD texnologiyalari rivojlantirish bilan shuullanuvchi uncha katta bo'lmagan juda ko'p firmalar mavjud. Bu kompaniyalar AQSh da juda ko'p, lekin 96 Yevropa, Angliya, Fransiyada ham mavjud. Bunday firmalardan biri - eng qadimgi va mashxur IDIS dasturini ishlab chiqadigan IntelligenceWare kompaniyasi. Yana Acknosoft (Fransiya), Integral Solutions (Angliya) va boshqa ko'plab firmalarni olish mumkin. Bu muammolar bilan universitetlarda ham shuullanadilar. Eng qadimgi tadqiqot guruhlari: AQShda Wichita State University, Germaniyada - GMD guruhi hisoblanadi. Hozir bu tadqiqotlarni ta’minlovchi yetarlicha rivojlangan axborot infratuzulmalar mavjud va muntazam halqaro anjumanlar o'tkazilmoqda. KDD masalalariga bashlangan jurnal nashr etilmoqda. KDD usullarini biologiya va tibbiyotda qo'llashga katta e’tibor berilmoqda. Base4 Bioinformatics, BioDiscovery, DNA Star, Molecular Simulations, Anvil Informatics, Bioreason, Cellomics, Incyte Pharmaceuticals firmalari ham yangi tadqiqot vositalarni yaratish bilan bog'q rivojlanishlar olib bormoqda. Keltirilgan ma’lumotlardan ko'rinadiki hozirgi paytda KDD tadqiqotlari rivoji yuqori darajaga ko'tarilda. KDD turli bilim sohalarining sintezi sifatida [23, 24]. Statistik tamondan va neyron to'rlari tamondan ma’lumotlar bazasini intellektual tahlil qilish sistemalari, ya’ni KDD sistemalari o'z usullari va maqsadlariga ko'ra ikkita turli sinflarga ajratishga asos bo'ldi. KDD usullari statistik usullarga nisbatan qanday munosabatda turadi? Ayrim statistik usullar KDD usullariga qaraganda kichikroq qurollar bo'lib hisoblanadi. KDD usullari tamonidan tipik masalalarni yechishda standart xossalarida kombinatsiya tarzida foydalaniladi. Shuning uchun KDD ilmiy vazifasi yuqori darajada yechish sistemalarini ishlab chiqish hisoblanadi. Buni misol bilan tushuntirib berish mumkin. Avvaldan qo'llaniluvchi va ommoviy bog’lanishlarni chiziqli regressiya kabi topish statistik usullari mavjud. Bu usul ma’lumotlarda bir o'zgaruvchilarni boshqalari orqali chiziqli ifodalar ko'rinishida, ya’ni faqat erkin o'zgaruvchilar bo'yicha chiziqli hadlarning faqat chiziqli hadlar orqali bog’lanishlarini topishga imkon beradi. Lekin avval regression formula chiquvchi o'zgaruvchilar ro'yxati tayinlangan bu modelga kiruvchi regression koeffitsentlar standart algoritmlardan birida joylashgan bu usulning talqinidan foydalanilgan. Shunday qilib, qandaydir bashorat qilinga formula olingan. KDD tasnifida bu usulning rivojlanishi bo'lib, juda ko'p sondagi mavjud erkin parametrlardan eng muhumlari faqat birinchi o'zgaruvchi, ya’ni kuchli ta’sir ko'rsatuvchilarini tanlashga imkon beruvchi erkin o'zgaruvchilarni avtomatik tanloviga ega multichiziqli regression usul hisoblanadi. Haqiqatan bu usul biror qo'llash sxemasi doirasida chiziqli regressiv standart usuldan foydalaniladi. Bu bilan izlanayotgan model haqida yanada kamroq bilishga imkon beradi. Oldindan modelga kiruvchi erkin o'zgaruvchilar aniq jamlanmasi haqida farazlarni ilgari surmaslik lozim. Usullarning umumiy konsepsiyasi - inson aralashuvini minimallashtirish, tahlilni imkon boricha avtomatik bajarishdir. Barcha mavjud KDD usullari alohida, elementar amallar sifatida klassik statistik usullardan foydalanadi. KDD usullari bevosita ma’lumotlar bazasi nazariyasi bilan bog'q, chunki biror arxitekturasi relatsion yoki qandaydir boshqacha real ma’lumotlar bazasi 97 bilan ishlashlari lozim. Bu KDD algoritmlari odatda hisoblashlar vaqtida juda ko'p vaqt sarflashni talab qiladi, chunki ulardan ko'plarini ko'p o'lchovli fazolarda adaptiv izlashga asoslangan hisoblashlarni, turli xil farazlar massivli tanlashini o'z ichiga oladi. Bu jarayonlar juda katta hisoblash quvvatini talab etadi. Shuning uchun KDD usullarini kompyuterda amalga oshirish samaradorligini ta’minlash uchun axborot parallel qayta ishlashi, ko'p sondagi masalalarni bir vaqtda yechishni ta’minlovchi algoritmlarni yaratish masalalariga e’tibor qaratiladi. KDD usullarining rivojiga sun’iy intellektni tadqiq etish bo'yicha ishlar kushli ta’sir ko'rsatmoqda. Sun’iy intellektning ana’anaviy masalalari asosan predmet sohasidan ekspert mutaxassislar mavjud bilimlardan samarali foydalanish va bu bilimlar asosida qandaydir zid bo'lmagan mantiqiy xulosalar chiqarish, ekspert yaratgan modellarni murakkablashtirishdan iborat. KDD usullarida qandaydir jihatdan masala teskaricha qo'yilgan. Eng qizii, ma’lumotlar haqida bilish lozim bo'lgan narsa hech kimga, hatto ekspertlarga ham oldindan ma’lum emas. Faqat berilgan yoki boshqacha aytganda “xom” ma’lumotlar bor, aksincha, ma’lumotlardan muhum qoidalar, bog’lanishlar, modellarni chiqarib olish kerak. Shu bilan birga ma’lumotlardan olingan modellar qarorlarini qabul qilish uchun foydalanilishi sababli ular odatda ekspertlar bergan ma’lum modellar bilan muvofiqlashishi lozim. Boshqachi aytganda, KDD usullarini amalga oshiruvchi sistemalar mavjud bilimlar ombori va ekspert sistemalari bilan interfeysga ega bo'lishi lozim. Shuning uchun bu sohaning sun’iy intellekt bilan o'zaro aloqasi juda kuchli. Ba’zi KDD usullari sun’iy intellektning ta’limiy sistemalari sohalaridan olingan. Xususan, sinflash masalalarini yechishda ta’lim sistemalarini yaratishda ishlab chiqilgan ba’zi usullardan foydalaniladi. Nihoyat, KDD algoritmlari ma’lum darajada ma’lumotlarni tahlil qilishning turli maxsuslashtirilgan usullaridan va ular qo'llaniladigan sohalarda foydalaniladi. Bu moliyaviy tahlilda va oqsil strukturasi tahlili, yangi dorilar sintezi yoki boshqa o'ziga xos tashkil etilgan ma’lumotli sohalarda qo'llaniladigan KDD usullari juda turlicha va ma’lum darajada bu sohalar xususiyati va yechiladigan masalalar tipi bilan aniqlanadi. KDD-masala tu rlari va molellarning tuzulishlari [23, 24]. Turli xil KDD usullari bilan yechiladigan va turlicha samaradorlikdagi masalalarni ikki turga ajratish mumkin: 1. Birinchi masalalar sinfi model chiqarishda ma’lumotlar mavjud bo'lmagan vaziyatga duch kelganda, kelgusidagi qarorni bashorat qilish va qabul qilish uchun foydalanishi mumkin bo'lgan ma’lumotlardan turli modellarni topish va qurishdan iborat. Bunda tabiiyki, model imkon boricha aniqroq ishlashi, u statistik ahamiyatli va oqlanishi lozim. 2. Ikkinchi turdagi masalalarda ma’lumotlarda bog’lanishlar mohiyatini, turli omillarning o'zaro ta’sirini, ya’ni turli sistemalarning emperik modellarini qurishga asosiy etibor qaratiladi, bu yerda asosiy moment - qurilayotgan modellarning inson qabul qilishi uchun osinligi va ochiqligi hisoblanadi. Bu yerda biz uchun sistema yaxshi boshoratlashi va kelgusida yaxshi ishlashi muhim emas, lekin mavjud ma’lumotlar massivida aniqlanadigan omillarning o'zaro ta’sirini 98 tushunish muhimdir. Topilgan qonuniyatlar konkret tahlil etiladigan ma’lumotlarning o'zaro xos belgisi bo'ladi va hech joyda boshqa o'rganilmaydi, lekin bizga baribir ularni bilishimiz zarur. Bu turli tipdagi masalalar ekanligini ta’kidlaymiz va shuning uchun ular turli vositalar bilan yechilishi lozim. Masalan, neyron to'rlari birinchi turdagi masalalarni yaxshi yechadi, lekin bashoratlash masalalarini ikkinchi turdagi masalalarni yechishga hech qanday yordam bera olmaydi. Haqaqatan, bunday sistemalarni o'qitish natijasida olingan bilimlar strukturali tashkil etilgan neyronlar orasidagi bog’lanishlar vazni ko'rinishida avtomatik qayd etiladigan neyron to'ri olinadi. Neyronlarning umumiy soni yuzlab yoki undan ham ko'proq bo'lishi mumkin. Bunday sistema bevosita inson tamonidan qabul qilingan va tushunish uchun mos emas. Modellar qurish masalasiga to'xtalamiz. Uni ikkita muhum qismiy tipga ajratamiz. Birinchi - bu siflashtirish masalasidir. Qandaydir yozuvlar yoki obyektlar tasvirlari mavjud va ularning har biri haqida sinflarning tayinlangan chekli to'plamidagi biror sinfga tegishli ekanligi oldindan ma’lum. Ixtiyoriy obyektni bu sinflardan biriga tegishli bo'lishini aniqlab boradigan qoida yoki qoidalar majmuasini ishlab chiqish kerak. Masalan, bunday turdagi klassik masala - bu tibbiy tashxislash. Bizda mijozlar tavsifi - qandaydir tibbiy testlar, so'rovnoma ma’lumotlari, ma’lumotlar tahlili va boshqalar oldindan ma’lum sinflar - kasalliklar tashxislari berilgan bo'lsin. Biz aniq bilamizki, ba’zi mijozlar diabed bilan kasallangan, qolganlari esa kasallanmagan. Keyin biz yangi mijoz uchun o'sha tibbiy tahlildan ma’lumotlarni yiishimiz va tahlillar asosida qanday qilib bilish mumkinligi masalasini qo'yamiz. Ikkinchi qismiy tur esa qandaydir uzluksiz sonli parametrni bashoratlash masalalaridan iborat. Bunga masalan, ayrim bemor muolajasini yoki klinik xarajat va daromadlarini bashoratlash masalasini olish mumkin. Bu bashoratdan tibbiy davolanishni davom ettirish, yoki almashtirish, yoki yangi jixozni sotib olish haqidagi bizning qarorimizga bog'q bo'ladi. Boshqa ko'pchilik sohalarda uzluksiz qiymatlarni bashoratlash muhum ahamiyatga ega. Hozirda mavjud KDD tijorat sistemalari asosan sinflash masalalarini yechadi. Lekin bunday vaziyatda sinflash masalalari uzluksiz qiymatlarni bashorat qilish masalalariga nisbatan ko'pligidan emas, sinflash usullari ko'proq o'rganilgan va uzluksiz son qiymatini bashoratlash usullariga qaraganda amalga oshirish qulay. Endi ikkinchi tur masalasalarini, ya’ni mavjud ma’lumotlarni tavsiflash, ularda unson tamonidan fikrlay olish maqsadida ularda bog’lanishlarni topish masalalarini qaraymiz. Bu sinf masalalari quyidagicha qo'yiladi: • Birinchidan, turli ko'rsatkichlar va o'zgaruvchilar orasidan funksional bog’lanishlarni inson tavsiflaydigan shaklda topish masalasidir. Odatda funksional bog’lanish haqida gapirganda uzulish sonli qiymatlari orasidagi bog’lanishlar tushuniladi. Lekin usul jihatidan oddiy sonli bo'ladi (“ha / yo'q”) va odatdagi toifali o'zgaruvchilarni o'z ichiga oluvchi bog’lanishlarni qarash mumkin. • Ikkinchidan, qaralayotgan turga umumlashgan holda klasterlash masalalari kiradi. Obyektlar tavsiflarining qandaydir majmuasi berilgan bo'lsin. Bu obyektlar 99 biror yagona massani tashkil etmaydi va tabiiy ravishda qandaydir guruhlarga ajraladi. Masalan, o'pka kasalliklari, dermatitam yoki qon aylanish sistemalari buzulishi bilan jabrlanayotgan bemorlar guruhlari. M a’lumotlar bazasidagi mavjud axborotlar asosida bu tabiiy guruhlarni guruhlarga yoki klasterlarga ajratishni xoxlar edik. Bu klasterlar aniq tibbiy ma’niga ega, bunday guruhlash nimani anglatadi va u nima bilan bog'qligini tushunish qiziqarli. Bemorlar butun to'plamining ba’zi xarakterli guruhlarga bo'linishi tibbiy muassasa ishini to'ri tashkil etishga yordam berishi mumkin. • M a’lumotlar tavsifiga talluqli uchunchi masala favqulotda vaziyatlar, yozuvlar, fovqulotdagi holatlarni topish masalasidir. Ular asosiy yozuvlar to'plami (bemorlar guruhi)dan qandaydir keskin farq qiladigan favqulotdagi hollarni bilishda foydalanishi mumkin. Bu yozuvlar tasodifiy ko'rinishda bo'lishi mumkin. Masalan, kompyuterga ma’lumotlarni kirititishda operator xatoga yo'l qo'yishi mumkin. Agar operator xato qilib o'nli nuqtani kiritsa, bunday xato navbatdagi jarayonga birdaniga katta ta’sir ko'rsatadi. Bunday xatolarni keyingi tadqiqotlardan chiqarib tashlash lozim bo'ladi. Chunki ko'pgina usullarda keskin farq qiluvchi nuqtalar, kamyob tipik bo'lmagan hollarga juda sezilarli darajada ta’sir ko'rsatadi, ikkinchi tamondan esa, ayrim favqulotda yozuvlar mustaqil tadqiqot uchun qiziqish uyotishi mumkin. Chunki ular ba’zi kamyob, lekin muhum anomal kasalliklarni ko'rsatishi mumkin. Hatto bu yozuvlar identifikatsiyalashda, obyektlar va hodisalar mohiyatini tushunishda juda foydali bo'lishi mumkin. • Nihoyat oxirgi bosqichda qaralayotgan ma’lumotlarni intellektual tahlil qilish masalalari sinfiga kiritiladigan masalalar turi ma’lumotlarni umumlashtirish (data summarization) atamasi bilan aniqlanadi. Bu bilan ma’lumotlarni qisqacha yakuniy xarakteristikasini yozish mumkin. Aytaylik, agar bizda mavjud ma’lumotlar massivi, unga kiruvchi parametrlar qiymati biror qat’iy cheklashga bo'ysunsa, biz bu cheklashlarni aniqlashni xoxlar edik. Masalan, infark miokardani boshidan kechirgan o'ttiz yoshdan oshmagan bemorlar bo'yicha ma’lumotlar to'plamini o'rganayapmiz. Agar biz to'satdan bu tanlanmada tavsiflangan barcha bemorlar bir kunda 5 qutudan sigaret chekadi yoki 95 kg dan ko'p bo'lmagan vazinga ega bo'lmasligini aniqlasak, bu bizning ma’lumotlarni tushinish nuqtaiy nazaridan juda muhim va bu amaliy ahamiyatga ega yangi bilim. Shuday qilib, ma’lumotlarni umumlashtirish (data summarization) - bu o'rganilayotgan ma’lumotlar tanlanmasidagi barcha yoki deyarli barcha yozuvlar uchun o'rinli, lekin bunday formatdan barcha fikr qilunuvchi yozuvlar ko'pxilligidan yetarlicha kam uchraydigan va masalan, maydonlar qiymatlarining o'rta taqsimotlari bilan harakterlanadigan qandaydir faktlarni topish. Agar biz taqqoslash uchun barcha bemorlar bo'yicha ma’lumotni olsak, u holda yo kuchli chekuvchi, yoki juda semiz odamlar foizi uchalik ko'p bo'lmaydi. Buni sinflashtirishning oshkora masalasi deyish mumkin. Lekin bizga bizdagi ma’lumotlar bilan berilgan faqat bitta sinf berilgan va ular mumkin bo'lgan yozuvlar faraz qilinuvchi to'plami bilan barcha qolgan faraz qilinuvchi hollar to'plami bilan sinflanadi. Berilgan m a’lum otlardan foydali m a’lum otlarga o'tish bosqichlari [23, 24]. KDD turli usullari bilan yechiladigan asosiy masalalar turlarini qaraymiz. 100 Turli masalalarini yechishda qo'llaniladigan KDD usullari mavjud. Qaralgan masalalaming biror turiga qo'llanishga yo'naltirilgan usullar bor. Endi biz ma’lumotlarni KDD usullari yordamida ixtiyoriy tadqiq etishga kiradigan asosiy bosqichlar yoki qadamlar haqida gapiramiz. Yangi bilimni topish va uning qiymatini bohaloshning asosiy siklini qaraymiz (4.7-rasm). 4.7-rasm. Yangi bilimni topish va uning qiymatini bohaloshning asosiy sikli. Bu qadamlardan ba’zilari ayrim masalalarda bo'lmasligi mumkin, lekin asosiy usullarning barchasi zarur bo'lib, ular u yoki bu shaklda qatnashadi. • Birinchi bosqich mohiyati bo'yicha KDD usullari bilan ma’lumotlarni tahlil qilishdan oldin kelib, ma’lumotlar sistemalarini konkret amalga oshirishlarini qo'llash uchun mos keladigan ko'rinishga keltirishdan iborat. Faraz qilaylik, bizda matinlar bor va biz aftamatik rubrikator, qandaydir anotatsiyalanish aftamatik klasifikatorni, kassaliklar tavsifini va boshqalarni qurishni (tuzishni) hohlaymiz bizga berilgan hom axborat electron ko'rinishdagi matnlardan iborat, lekin mavjud KDD sistemalaridan birortasi ham bevosita matnlar bilan ishlay olmaydi. Matnlar bilan ishlash uchun biz berilgan matn ma’lumotlardan dastlab qandaydir hosilaviy parametrlarini olishimiz lozim. Masalan, tayanch iboralarini uchratish, chastotasi 101 mulohazalarini o'rtacha uzunligi, mulohazalardagi u yoki bu so'zlarning muvofiqligini xarakterlovchi parametrlarini va boshqa qisqacha aytganda, biz berilgan matnni xarakterlovchi sonli yoki sonli bo'lmagan parametrlarning qandaydir aniq jamlanmasini ishlab chiqishimiz lozim. Bu masala shu ma’noda avtamatlashganki, bu parametrlarning sistemasini tanlash inson tamonidan bajariladi. Parametrlar qiymatlari ma’lumotlarni dastlabki ishlashning ma’lum texnologiyasi doirasida avtamatik hisoblanishi mumkin. Tavsiflovchi parametrlar tanlangandan keyin o'rganilayotgan ma’lumotlar alohida obyekt yoki o'rganilmagan obyekt holatini ifodalaydi. Har bir bo'limi esa barcha tadqiq etilayotgan obyektlar parametrlari xossallari yoki belgilarini ifodalaydi. KDD nazariyasida bunday jadvalning satrlari ma’lumotlar ba’zasi nazariyasidagi kabi yozuvlar deb ustunlari maydonlari deb atash qabul qilingan. Amaldagi barcha mavjud KDD sistemalari faqat shunday to'ri burchakli jadvallar bilan ishlaydi. • Olingan to'rtburchakli jadval ham KDD usullarini qo'llash uchun juda kam material bo'lib hisoblanadi va unga kiruvchi ma’lumotlarga dastlab qayta ishlash zarur. Birinchidan, jadval butun ustun uchun bir xil qiymatlarga ega parametrlarni o'z ichiga olish mumkin. Agar tadqiq etilayotgan obyektlar faqat bunday belgilar bilan xarakterlansa, barcha tadqiq etilayotgan obyektlarabsalyut identikbo'lar edi. Demak, oz belgilar tadqiq etiluvchi obyektlarni hech qanday induvidual almashtirilgan bo'lar edi. Demak, ularni tahlildan chiqarish lozim yoki jadvalda shunday xarakteristik belgi mavjudki, barcha yozuvlarda qiymati turlicha. M a’lumki, biz bu maydonda hech qanday foydalana olmaymiz va uni chiqarib tashlaymiz. Nihoyat, bunday maydonlar juda ko'p bo'lishi mumkin va agar biz ularni tadqiqotga kiritsak, u holda bu hisoblash vaqtini keskin ko'paytiradi. Chunki KDD ning barcha usullari uchun hisoblash vaqti parametrlar soniga bog'q. Shu bilan birga hisoblash vaqtining yozuvlar soniga bog’lanishi chiziqli yoki chiziqliga yaqin. Shuning uchun ma’lumotlarni dastlabki qayta ishlash ctrukturasi sifatida topilgan tadqiqot kontekstida eng muhim belgilar to'plami ajratish, o'zgamas yoki haddan tashqari ehtimolligi tufayli qo'llanilmaydiganlarini tashlash va izlanayotgan bog’lanishga eng ehtimolli kiradiganlarini ajratish zarur. Buning uchun odatda korrelyatsion tahlil, chiziqli regressiyalar va hokozaolarni qo'llashga asoslangan statistik usullardan, ya’ni tez va bir parametrlarning ikkibchisiga ta’sirini taqribiy baholashga imkon beruvchi usullardan foydalaniladi. Biz ma’lumotlarning jadval ustunlari bo'yicha, belgilar bo'yicha “tozalash” ni muhokama qildik. Xuddi shunday, ma’lumotlarni jadval satrlari bo'yicha, yozuvlar bo'yicha dastlabki tozalashini o'tkazishimiz zarur. M a’lumotlarning ixtiyoriy real bazasi odatda xatolarga juda noto'ri aniqlangan qiymatlarga qandaydir favqulodda vaziyatlarga mos keluvchi va boshqa buzulishlarga ega. Ular tahlilning keyingi bosqichlarda qo'llaniladigan KDD usullari samaradorligini keskin kamaytirishi mumkin. Hatto agar bunday “chaqiruv”lar xatolar bo'lmasa ham, kamyob favqulotda holatlardan iborat bo'lsa ham ulardan baribir foydalanilmaydi. Chunki bir nechta nuqtalar bo'yicha izlanayotgan bog’lanish bo'yicha statistik ahamiyatli xulosa chiqarish mumkin emas. Bu dastlabki qayta ishlash yoki ma’lumotlarni Preprotsesingi ikkinchi bosqichini tashkil etadi. 102 • Uchunchi bosqich - bu KDD usullarini qo'lash. Bu qo'lashni senariyalari turlicha bo'lishi mumkin va turli metodlarning kombinatsiyalarini o'z ichiga olishi mumkin. Ayniqsa agar foydalanilayotgan usullar ma’lumotlarni turli nuqtaiy nazardan tahlil qilishga imkon berdi. Bu tadqiqot bosqichini DATA mining deb atash qabul qilingan. Navbatdagi bo'limlar bu usullarni batfshilroq qarashga baishlangan. • Navbatdagi bosqich - bu olingan natijalarni verifikatsiyalash va tekshirishdan iborat. Bu usul eng sodda va ko'p foydalaniladigan usul bo'lib, bizda mavjud tahlil qilmoqchi bo'lgan barcha ma’lumotlarni ikkita guruhga ajratamiz. Odatda ulardan biri katta hajmda, ikkinchisi kichik hajmda bo'ladi. Katta guruhda biz u yoki bu KDD usullarini qo'lab bizning masalada talab qilingan modelar, bog’lanishlarni olamiz, kichik gurihda esa biz usullarni tekshiramiz, test guruhi va o'qish uchun foydalanilgan guruh orasidan qoida bo'yicha tuzilgan model qanchalik adekvat statistik ahamiyatli ekanligi haqida xulosalar chiqaramiz. Boshqa ko'plab murakkabroq verifikatsiya usullari mavjud. Masalan, kesishmali tekshirish, budstrep va boshqlar. Ular chiqarilayotgan modellari ma’lumotlarni ikkita guruhga ajratmasdan ahamiyatini baholashga imkon beradi. Quyida biz bu usullarni batafsil qarab o'tamiz. • Nihoyat, beshinchi bosqich - bu avtomatik olingan bilimlarning inson tamonidan qarorlar qabul qilish, olingan qoida va bog’lanishlarni ma’lumotlar bazasiga qo'yish va boshqalardan foydalanish maqsadida tasniflash. Beshinchi bosqich deganda ko'pincha KDD texnologiyalari va ekspert sistemalari texnologiyalar chegarasida joylashgan usullardan foydalanish tushuniladi. Uning qanchalik samarali bo'lishi qo'yiladigan masalani yechishmuvaffaqqiyati jiddiy ta’sir ko'rsatadi. Bu qaralgan bosqich bilan qat’iy ma’noda KDD sikli tugaydi. Topilagan yangi bilim yakuniy qiymatlilik bahosi avtomatlashtirilgan yoki an’anaviy tahlil chegarasidan chiqib ketadi va qo'lga kiritilgan bilim asosida qabul qilingan qarori hayotga tadbiq etilgandan keyin yangi bilimni amaliyotda tekshirishdan so'ng amalga oshirilishi mumkin. Yangi bilim yordamida erishilgan amaliy natijalarni tadqiq etish KDD visitalari bilan topilgan yangi bilim qiymatlilik bahosini yakunlaydi. T ajriba orttirish uchun misol va topshiriqlar. Download 122.22 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling