Reja: Eksperldan bilimlarni olish
Ma'lumotlar bazasidan bilimlarni ajratib olish usullari
Download 381.13 Kb.
|
5. Ma'lumotlar bazasidan bilimlarni ajratib olish usullariEkspertlar o'z faoliyatlari davomida juda katta hajmdagi ma'lumotlarni to'playdilar, Lekin ularning yagona istagi — bu to'plangan ma'lumotlar bazasidan &zlari uchun kerakli bo'lgan ma'lumotlarni tez va aniq qidirib topish hisoblanadi. Qisqacha aytganda ma'lumotlar ombori xotira yoki murakkab yozuvlar danari vazifasini bajaradi. Foydalanuvchilarning ma'lumotlar bazasiga kirishi aniq qo'yilgan savollarga javob olish uchun saqlanayotgan ma'lumotlarning unchalik katta bo'lmagan qismini olishni ta'minlaydi. Ulkan axborot oqimiga, to"plangan axborotning ulkan zaxiralariga ega b&lganimizda qandaydir jarayonlarni boshqarishni optimallashtinsh, tashkilot faoliyatini yaxshilash murakkab obyektlarga, masalan, tibbiy tashkilotlar, biologik sitemalar yoki inson organizmiga taaluqli xossalari va amal qilish qonunlarini aniq bilish maqsadida ma'lumotlarda mavjlld bilimni chiqarish uchun bu ma'lumotdan maksimal maqsadga muvotiq foydalanish masalasi paydo b&ladi. Eski sinalgan usul bilan, ya'ni ma'lumotlarni tahlil qilishning an'anaviy vositalaridan foydalanib, bu ma'lumotlarni tahlil qilishlari uchun analitiklar, statistiklaming ulkan guruhlarini yollash ham mumkin edi Lekin, ma'lumki, hozirda bu masala ma'lumotlar Ilajmining koi payib borganligi sababli faqat inson kuchi bilan hal qilib bo'lmaydi. Inson intellektidan ekstensiv yo'l bilan foydalanish bu masalani yechishga imkon bermaydi va uni yechish uchun sifat jihatdan aniq yondashuv talab etiladi. Ikkinchi tamondan, bunday yechim juda qimmat va iqtisodiy salohiyatsizdir, Bundan tashqari analitiklar oladigan nati]alar har doim ham obyektiv bo' lavennaydi, chunki odatda kishilar o' rganayotgan obyekt haqida ba'zi muhim tasavvurlar, u yoki bu mulohazalar bilan oshkor va oshkormas fikr yuritadilar. Bu esa qaralayotgan natijalar obyektivligiga ta'sir qilmasdan qolmaydi [1-71, Aniq mulohaza uchun qanday davolash afzalroq, klinika resurslarini qanday eng samarali tashkil etish yoki davolanish xarajatlarini qanday minimallashtirish va bunda analitik qismni mashinaga yuklash haqida ma'lumotlardan blllb olish mumkinmi? Talllil jamyonini avtomatlashtirish va uni yanada obyektivroq bo"lishini xoxlaymiz, ya'ni ma'lumotlarda model, IN)lanish, qonun va 11.1ar misolida yangi trivial bilimlarni avtomatik chiqarib oladigan hamda Illaming statistik ahamiyatini kafolatlaydigan biror texnologiyani olishdan iborat. Knowledge Discovery in Dafabases (KDD — ma'lumotlar bazasidan bilimlarni ajratib berilgan struktura yoki bolanishlmda yashinngan ma'lumotlarni topish maqsadida ma'lumotlami avtomatik talllil qilish vositalarini qo'llash yordamida inson tamonidan katta hajmdagi ma?lumotlarni tadqiq qilishning analitikjarayoni, Yashiringan struktura yoki bolanishlar xarakteri haqida tasavvurlar to'liq yoki qisman yo'q deb faraz qilinadi KDD dastlabki flkrlash va t&liq bo'lmagan masala bayoni, ma'lumotlami avtomatlashtirilgan tahlil uchun mos holatga keltirish va ularni dastlabki qayta ishlash, ma'lumotlarni avtomatik tadqiq (Illish vositalari (Data mining) yashiringan struktura yoki bolanishlarni topish, topilgan modellami ma'lumotlarni modellarini qurish va foyda.lanilmagan yangi modellarda sinovdan o'tkazish va topilgan modellarning inson tamonidan tavsiflanishidir. Data mining (ma'lumotlarni qidirib topish) — xom ma'lumotlardan oldmdan ma'lum bo'lmagan; trivial bo'lmagan; amaliy foydali; inson tamonidan tavsiflash uchun kemk b&lgan yashirincha struktura yoki bog'lanishlarni "Mashma?' algoritmalari, sun'iy intellekt vositalari yordamida tadqiq etish va topishdan iluyat [14, 151- KDD texnologiyasi muammolarni yechish uchun m&ljallangan. KDD — bu sun'iy intellekt, sonli matematik usullar, statistik va evristik yondashuvlaming eng so'ngi yutuqlarini o'zida mujassamlashtirgan sintetik soha, IBu texnalogiyaning maqsadi—ma'lumotlar omboridan oddiy usullar bilan topib bo'lmaydigan yashiringan model va munosabatlarni topishdan iborat. Mashina zimmasiga nafaqat "chalkash" amallar (Masalan, farazning statistic ahamiyatini tekshirish) balki, avval chalkash deb qabul qilinmagan amallar (yangi farazni ishlab chiqish) yuklanadi„ KDD avval hatto tadqiqotchi xayoliga kelmagan, ularni qo'llash ham, alohida mijozni davolash ham, butun tibbiy muassasa faoliyati samaradorligini oshirishga imkon beruvchi ma'lumotlar orasidan o' zaro munosabatlarni k&rishga imkon beradi, Modelnî qurish tadqiq etîlayotgan hodîsa xarakteristlkalarî orasîdagi miqdoriy bolanishnî o' rnatłshga imkon beradi„ Model xarita kabi reallikning abstrakt ifodasidir. Xarita airaportdan uyga yo'lni ko'łsatish mumkin, lekin u tósiq tufayli sodir bongan tóqnashuvni yoki hozirgi paytda amalga oshirilayotgan ta?mirlash ishlarini va aylanish talab etilishini ko'rsała olmaydi. Model mavjud real munosabatlarga mos kelmagancha muvaffaqqiyatli natîjalarga erishîb bo' Imaydî. Ikki xil modellar mavjud: bashoratli va tavsiflovchi. Birinchisi boshqa mallumotlar majmuasi uchun oshkora natijalarni bashoratlaydigan modelni qurish uchun ma'lum natijaga ega biror ma'lumotlar majmuasidan roydalanadi. Ikkinchisi esa mavjud ma'lumotlardagi bolanishlarnî tavsiflaydi. Bu modellar boshqaruv qarorlarini qabul qilish uchun foydalaniladi, Albatta tajribali shifokor ó z młjozalari davolash uchun ko' pgina modellardan xabardor, uzoq muddat davomida kuzatilayotgan kasalliklar va turlicha ko'rsatkichlarning bolanislllari haqida ma'lumotlarga ega. KDD texnologiyalari nafaqat emperik tadqîqotlarnî tasdîqlashi, balki bu texnalogîya yordamida oldin ma'lum bo' Imagan yangi modellarni qurish mumkin, Ajratilgan model absalyut bilimga davogarlik qilolmasa hantl analitikka muqobil statistik modelning o' zining ustunligi bilan ham bir qadar arzallik beradi. Hatto haqiqatdan topłlgan o'zaro aloqa sababiy bo'lîsh yokî bo'lmaslîgi to'risida oȚIashga turtki bo'lishi, bu esa hodisani guruhlashtirishga va uni yaxshi tushunishga imkon beradi, Lekin modellar jamlanmasi, agar ulami ko' rsatkichlari bo'yicha turli guruhlarga va har bir muhit boȚicha birlashlirsak, tibbiy xizmatni tashkil etishda jiddiy afzallik beradi, Bundan tashqari, hammavaqt bo' Imagan ehtimol mavjud, bu esa KDD usullmi yordamida keyingi talllili yoki ilmiy kashfiyoti, yoki ommoviy tibbiy xizmat kórsatishni tashkil etishni yaxshilashga Olib keladigan model tuzushga muvoffiq bo'ladi. KDD ning real sistemalarga nisbatan eng muhim maqsadi — bu jarayonlar mohîyatinî tushunishni yaxshîlash, Murakkab, lekîn hali o'rganilmagan sistemalarga nisbatan optimal yechim tushunchasi ma'lum xususiyatga ega. Barcha masalalar uChun ham "Ideał” tushunishga erishishga intilish ma'noga ega emas, Masalan, biznesda optimal yechim deb hamisha vaqt va resurs cheklashlariga mos tanlav tushuniladî, Hozîrda esa odamlar boshqa odamlarga nisbatan bîror yaxshi narsa qilishga intiladilar. Shunday qilib, agar biz kishi tasavvuruga eng yuqori darajada optimal yechimlarni izlash uchun KDD usullaridan foydalanishni istasak, u hołda imtiyozlarni aniqlashtirish zarur. Ya'ni murakkab sistemalarda "Ideał” optłmumga erishish uchun boshqa sistemalar bilan taqqoslash y' Ii bilan aniqlanadigan doimiy yaxshilash usuliga nisbatan kamroq ahamiyatli bo' lib qolishi mumkin. KDD — bu faqat talllik vositalari jamlanmasi, lekin barcha hayotiy vaziyatlar uchun vosita emas, KDD ma?lumotlarning 'zini ham, qo'llanilgan usullar asoslannî tadqiqotchî tamonidan bilish va tushunish mrurlîgîni e'tîborga oladi. Bu vositalar jamlanmasi faqat maîlumotlardan modellar va munosabatlarni topishda analitiklarga yordam berishi mumkin. Topilgan model turli kórsatkichlarining o'zaro bolanishi ba'zi ko'rsatkichlarning oddiy statistik kortelyatsiyasi kabi modelnîng o' z — o'ziga o'zaro bolanishi haqida dalolat bera olmaydî. Har błr model odamlar tamonîdan tahlil qilmîshî kerak va real hayotda tekshîrîlîshî lozim. KDD jihozlari odatda foydalanuvchidan yashirin va uni foydalanilayotgan usullami qo'llashdagi murakkablik va nozikliklarni oshkora bilishdan saqlasada, u foydalanuvchidan tashuvchi jixozlar va algoritmlar ishlash asoslarini tushunishni talab etadi, KDD texnologiya shifokor — tahlilchi yoki menejerlaming o'rnini bosa olmaydi. Ularga o'zlari Lujshqaradigan ish sifatini yaxshilash uchun zamonaviy, qudratli vositani beradi. Albana, ma'lumotlar omborida yangi bilimni topish texnologiyasi tadqiqotchî qoȚîIgan savollargajavob beradî. KDD va OLAP [14, 15]. Mâ'lumotlami qayta ishlash bilan shuullanadigan odamlarda ko 'pincha bitta savol uchrab turadi. Bu Data mining va OLAP (On-Line Analyîical Processing) vositalari, yaîni operativ analitik qayta ishlash vositalari orasidagi rarq haqidagi savol. OLAP — bu qarorni qahul qilishnj qo"//ab quvvaNashga yo'nalgan łexnologłya/ar qismi, Buyurtma va hisobotlarni loyihalashtirishning oddiy vositalari ma'lumotlar bazasining o'zini tavsiflaydi, Bunda foydalanuvchining o' zi ma'lumotlar yoki ma'lumotlar orasidagi munosâbatlar orqali modelni slłakllantiradi va shundan so'ng farazlarni tasdiqlash yokî rad qîlish uchun ma'lumotlar bazasî buyurtmalari seriyasidan foydalanłladi, Data Mining vositalari OLAP vositalandan shu bilan farq qiladiki, foydalanuvchi faraz qilayotgan cŕzaro bolanishlarni tekshirish órniga ular mavjud mallumotlar asosida turli tadqiq etilayotgan omillarning 'berilgan xossaga ta'sir darajasini miqdoriy baholashga imkon beruvchî modellarni islllab chiqishlarî mukin, Bundan tashqari, Data Mining vositalari noma'lum, lekin ma'lumotlarda real mavjud munosabatlar xarakteri haqida yangi gipotezalarni ishlab chiqishga imkon beradi, OLAP vositalaro KDD jarayonining turli bosqichlarida qo'llaniladi, chunki ular tadqiqotchi e'tiborini eng muhim oîzgaruvchilariga qaratishsa, o'zgaruvchllarning chîqarib tashlanuvchi yoki qiziqarli qiymatlarini aniqlash asosida mallum ma'lumotlami tushunishga yordam beradi. KDD ning qisqacha tarixi [14115]. KDD usullari oxirgi 20-asr oxirlari va 21-asr boshlarida juda tez rivojlandi. Hozirgi kunda maflumotlar bazasini kompyuterda tahlil qilish masalalari bąjarilmoqda, Kompyuter paydo bo'lgunga qadar turli statistlk usullardan foydalanilgan hołda amalga oshirilgan. Shuning uchun kompyuter ularni qo' llanilish imkoniyatlarini osonlashtirdi va kengaytirdi. Hozir roydalanilayotgan ma'lumotlarni intellekłual tahlil qilish usullari ikki yo'nalishdagi evalyutsiya natîjasîdłr bir tamondan — bu statistîka usullarining chuqurlashtirilgan, intellektuallashtirish savi}asi xususida, ikkinclli tamondan natijasi nerv tóqimalarini eslatuvchi va sunliy neyron tarlar deb ataluvchi sun'iy sistemalarni yaratishga yordam beradigan odam va hayvon nerv to'qimasini modellashtirishga urinishdir. Birinchidan, bunday real harakat qiluvchî sistema bit rastî"li ketma-ketliklar ko'rimshida bo'lgan oddiy vizual tasvirlami taniy Olish qobilyatiga ega bo'lgan perseptronlar 1960-yillarning oxirlarida qurilgan. Bu yđnalish 1980-yillar oxirida yana ham yuksak rivojlandi va neyroto'rlar asosida ma'lumotlar bazasini talllil qilish kommersiya sistemalarî qurildiv Hozirgi paytda KDD sistemasi usullarini ishlab chiqish va yaratish bilan shuullanuvchi juda ko'p yirik tadqiqot markazlari mavjud. Bu markazlarning ko'pchiligi 1990- yillarda (1992-93y.) tashkil etila boshlagan- Tadqiqot guruhlari sonining o•sishi 1996-2010 yillarda eksponensial ko' rinishga ega, Shuning uchun tadqiqot maikazlari yaqin kelajakda turlicha shakllarda universitetlarda, inistitutlarda va ilmiy markazlardajuda ham ko' payadi, Bu muammo bilan intensiv shuullanadigan yirik kompaniyalar sifatida IBM va Microsoft kompaniyalarini k&rsatish mumkin. IBM toi liq o'zining yirik tadqiqot markazini Almaden shahridagi dasturiy ta'minot texnologiyalari sohasini KDD algoritmlarini ishlab cluquvchi va ishlovchi KDD sistemalarini qurishga yo'naltirdi. Buning natijasida asosan meynffreym va qudratli ishchi stansiyalar uchun Ill&ljallangan ma.xsus KDD sistemalarining butun bir oilasini islllab chiqdi. Masalan, Advanced Scout deb ataluvchu maxsuslashgan sistemalardan biri jamoalarda o'yinchilar turli kombinatsiyalari samaradorligini tahlil qilish uchun va o'yin strateglyasini boshqansh uchun AQSh ning Milliy basketbol assotsatsiyasida qo'llanilmoqda, Bu maxsuslashtinlgan sistema million dollordan Olliq turadi va MBA ning bir neChta jamoålari foydalanmoqda. Micrisoft firmasi bevosita Redmond shahridagi shtab „ kvatlirasi binosida joylashgan firmasida KDD markazini tashkil etdi va bu muammo bilan universitet va ilmiy akadenuya markazlarida shuullangan mashxur mutaxassislarni taklif etdi, Bu markazni avval NASA reaktiv harakat laboratoriyasida islllagan va 1996 yilda fanni rivojlantirish bos yicha eng faxrli amerika mukofotlaridan birini Olgan professor Usama Fayadd boshqarmoqda„ Microsifi misolida ko'rish mumkinki, eng yirik kompyuter kompaniyasi ham bu yangi texnologiyaga katta ahamiyat bermoqda va ma'lumotlarning intellektual tahlil qilish uchun yangi qudratli mahsulotlar chiqarmoqda. Bundan tashqari, KDD texnologiyalari rivojlantirish bilan shuullanuvchi uncha kana bolmagan juda kop firmalar mavjud, Bu kompaniyalar AQSh da juda p, lek-in Yevropa, Angliya, Fransiyada ham mavjud- Bunday firmalmdan biri — eng qadimgi va mashxur IDIS dasturini ishlab chiqadigan IntelligenceWare kompaniyasi. Yana Acknosoft (Fransiya), Integral Solutions (Angliya) va boshqa ko*plab firmalarni olish mumk„in, Bu muammolar bilan univetsitetlarda ham shuullanadilar. Eng qadimgi tadqiqot guruhlari: AQShda Wichita State University, Germaniyada — GMD gunflii hisoblanadi. Hozir bu tadqiqotlarni ta'minlovchi yetarlicha rivojlangan axborot infratuzulmalar mavjud va muntazam halqaro anjumanlar o'tkazilmoqda, KDD masalalariga bashlangan jumal nashr etilmoqda. KDD usullanni biologiya va tibbiyotda qo' llashga katta e'tibor berilmoqda. Base4 Bioinformatics, BioDiscovery, DNA Star, Molecular Simulations, Anvil Informatics, Bioreason, Cellomics, Incyte Pharmaceuticals firmalari ham yangi tadqiqot vositalarni yaratish bilan bosq rivojlamshlar olib bormoqda- Keltirilgan ma'lumotlardan ko'rinadiki hozirgi paytda KDD tadqiqotlari rivoji yuqori darajaga ko•tarilda. KDD turli bilim sohalarining sintezi sifatida [14, 151. Statistik tamondan va neyron to'rlari tamondan ma'lumotlar bazasini intellektual tahlil qilish sistemalari, ya'ni KDD sistemalari o'z usullari va maqsadlariga kasra ikkita turli sinflarga ajratishga asos bo'ldi„ KI)D usullari statistik usullarga nísbatan qanday munosabatda turadi? Ayrim statistik usullar KDD usullariga qaraganda kichikroq qurollar bo•łib hisoblanadi- KDD llšlillari tamonidan tipik masalalarni yechishda standafl xossalarida kombinatsiya tarzida foydalaniladi. Shuning uchun KDD ilmiy vazifasi yuqori darajada yechłsh sistemalarini ishlab chiqish hisoblanadi. Bunĺ misol bilan tushuntirib berish mumkin- Avvaldan qo'llaniluvchi va ommoviy bOlanishlarni chiziqli regressiya kabi topish statistik usullari mavjud. Bu usul ma'lumotlarda bir o'zgaruvchilarni boshqalari orqali chiziqli ifodalar ko' rinishida, ya'ni faqat erkin o' zgaruvch.ilar bo'yicha chiziqli hadlarning faqat chiziqli hadlał' orqali bolanishlarini topishga imkon beradi- Lekin avval regression formula Chiquvchi o'zgaruvchilar ro'yxati tayinlangan bu modelga kiruvchi regression koemtsentlar standart algoritmlardan birida joylashgan bu usulning talqinidan foydalanilgan. Shunday qilib, qandaydir bashoraľ qilinga formula olingan. KDD tasnifida bu usulmng rivo]lanishi bo'lib, juda ko•p sondagi mavjud erkin parametrlardan eng muhumlari faqat birinchi o'zgaruvchi, ya'ni kuchli ta'sir ko•rsatuvchilarini tanlashga imkon beruvchi erkin 09garuvchilami avtomatik tanloviga ega multichiziqli regľession usul hisoblanadĹ Haqiqatan bu usul biror qo'llash sxemasi doirasida chiziqli regressiv standart usuldan foydalaniladi, Bu bilan izlanayotgan model haqida yanada kamroq bilishga imkon beradi. Oldindan modelga kiruvchi erkin o' zgaruvchilar aniq jamlanmasi haqida farazlami ilgari surľnaslik lozim. Usullarning umumiy konsepsiyasi — inson aralashuvini minimallashtirish, tahlllni imkon boricha avtomatik bajarishdir. Barcha mavjud KDD usullari alohida, elementar amallar sifatida klassik statistik usullardan foydalanadĹ KDD usullari bevosita ma'lumoľlar bazasi nazariyasi bilan bogŕq, chunki biror arxiľekturasi relatsion yoki qandaydir boshqacha real ma'lumotlar bazasi bilan ishlashlari Iozim, Bu KI)D algoritmlari odatda hłsoblashlar vaqtida juda ko• p vaqt sarflashni talab qiladi, chunki Lilardan ko'plarini ko'p o'lchovli fazolarda adaptiv izlashga asoslangan hisoblashlarni, turli xil farazlar massivli tanlashini 09 ichiga oladi. Bu jarayonlar juda katta hisoblash quvvatini talab etadi. Shuning uchun KDD usullarini kompyuterda amalga oshirłsh samaradoľligĺni ta'minlash uchun axborot parallel qayta ishlashi, ko'p sondagi masalalami bir vaqtda yechishni ta'minlovchi algoritmlarni yamtish masalalariga e 'tibor qaratiladi. KDD usullarining rivojiga sun'iy intellektni tadqiq etish bo'yicha ishlar kushli ta'sir ko'rsatmoqda. Sun'iy intellektning ana'anaviy masalalaľi asosan predmet sohasidan ekspert mutaxassislar mavjud bilimlardan samarali foydalanish va bu bilimlar asosida qandaydir zid bo' Imagan mantiqiy xulosalar chiqarish, ekspert yaratgan ľnodellaľlli murakkablashľirishdan iborat. KDD usullarida qandaydir jihatdan masala teskaricha qo'yilgan. Eng qizii, ma'lumotlar haqida bilish Iozim bo'lgan narsa hech kímga, hatto ekspertlarga ham oldindan ma'lum emas, Faqat berilgan yoki boshqacha aytganda "xom” ma'lumotlar bor, aksincha, ma'lumotlardan muhum qoidalar, bola.nishlar, modellarni chiqarib olish kerak, Shu bilan birga ľna'lumotlardan olingan modellar qarorlarini qabul qilish uchun foydalamlishi sababli Illaľ odatda ekspertlar bergan ma'lum modellaľ bilan muvofiqlashishi Iozim, Boshqachi aytganda, KDD usullarini amalga oshiruvchi sistemalar mavjud bilimlar ombori va ekspert sistemalari bilan interfeysga ega bo'lishi lozim. Shuning uchun bu sohaning sun'iy intellekt bilan o'zaro aloqasi juda kuchli. Ba'zi KDD usullari sun'iy intellektning ta'limiy sistemalari sohalaridan olingan. Xususan, sinflash masalalarini yechishda ta'lim sistemalarini yaratishda ishlab chiqi gan ba'zi usullardan foydalaniladi. Nihoyat, KDD algoritmlari ma'lum damjada ma'lumotlami tahlil qilishning turli maxsuslashtirilgan usullaridan va ular q&llaniladigan sohalarda foydalaniladi, Bu moliyaviy tahlilda va oqsil strukturasi tahlili, yangi dorilar sintezi yoki boshqa o'ziga xos tashkll etilgan ma'lumotli sohalarda qo• Ilaniladigan KDD usullari juda turlicha va ma'lum damjada bu sohalar xususiyati va yechiladigan masalálar tipi bilan aniqlanadi. KDD-masala turlari va molellarning tuzulishlari [14, 15]. Turli xil KDD ustillari bilan yechiladigan va turlicha samaradorlikdagi masalalarni ikki turga ajratish mumkm: Birinchi masalalar sinfi model chiqarishda ma'lumotlar mavjud bo"lmagan vaziyatga duch kelganda, kelgusidagi qarorni bashorat qilish va qabul qilish uchun foydalanishi mumkin bo@lgan ma'lumotlardan turli modellarni topish va qurishdan iborat, Bunda tabliyki, model imkon boricha aniqroq ishlashi, u statistik ahamiyatli va oqlanishi lozim. Ikkinchi turdagi masalalarda ma'lumotlarda t.ujlanishlar mohiyatini, turli omillaming o'zaro ta'sirini, ya'ni turli sistemalarning emperik modellarini qurishga asosiy etibor qaratiladi, bu yerda asosiy moment — qurilayotgan modellarning inson qabul qilishi uchun osinligi va ochiqligi hisoblanadi. Bu yelda biz uchun sistema yaxshi boshoratlashi va kelgusida yaxshi ishlashi muhim emas, lekin mavjud ma'lumotlar massivida aniqlanadigan omillarning zaro ta'sirini tushunish muhimdir, Topilgan qonuniyatlar konkret tahlil etiladigan ma'lumotlarning o' mro xos belgisi bo'ladi va hech joyda boshqa Organilmaydi, lekin bizga banbir ularni bilishimiz zarur. Bu turli tipdagi masalalar ekanligini ta'kidlaymiz va shuning uchun ular turli vositalar bilan yechilishi lozim. Masalan, neyron to'rlari birinchi turdagi masalalarni yaxshi yechadi, Iekin bashoratlash masalalarini ikkinchi turdagi masalalami yechishga hech qanday yordam bera olmaydi. Haqaqatan, bunday sistemalarni o' qitish natijasida olingan bilimlar strukturali tashkil etilgan neyronlar orasidagi bolanishlar vazni ko*rinishida avtomatik qayd etiladigan neyron to'ri olinadi, Neyronlarning umumiy soni yuzlab yoki undan ham ko'proq bo'lishi mumkin- Bunday sistema bevosita inson tamonidan qabLil qilingan va tushunish uchun mos emas. Modellar qurish masalasiga to»xtalamiz. Uni ikkita muhum qismiy tipga ajratamiz. Birinchi — bu siflashtirish masalasidir. Qandaydir yozuvlar yoki obyektlar tasvirlari mayjud va ularning har biri haqida sinflarning tayinlangan chekli to'plamidagi biror sinfga tegishli ekanligi oldindan ma'lum- lxtiyoriy obyektni bu sinflardan biriga tegishli bo"lishini aniqlab boradigan qoida yoki qoidalar majmuasini islllab chiqish kerak. Masalan., 'bunday turdagi klassik masala bu tibbiy tashxislash, Bizda nujozlar tavsifi — qandaydir tibbiy testlar, so:rovnoma ma'lumotlari, ma?lumotlar tahlîlî va boshqalar oldîndan ma'lum sînflar — kasalliklar tashxislari berîlgan bo'lsîn, Biz aniq bilamizki, ba'zi mijozlar diabed bilan kasallangan, qolganlari esa kasallanmagan- Keyin biz yangi miJOZ uchun o' sha tibbiy tahlildan ma'lumotlami yiishimiz va tahlillar asosida qanday qilib bilish mumkinligi masalasini qoî yamiz. Ikkinchi qismiy tur esa qandaydir uzluksiz sonlî parametrnî bashoratlash masalalarłdan iborat, Bunga masalan, ayrîm bemor muolajasini yoki klinik xarąjat va daromadlarini bashoratlash masalasini Olish mumkin. Bu bashoratdan tibbiy davolanishni davom ettirish, yoki almashtirish, yoki yangi jixozni sotib Olish haqidagi bizning qarorimizga bog'q bo'ladi, Boshqa ko'pchîlik sohalarda uzluksiz qiymatlarni bashoratlash muhum ahamiyatga ega- Hozirda mavjud KDD tijorat sistemalari asosan sinflash masalalarini yechadi. Lekin bunday vaziyatda sinflash masalalari uzluksiz qiymatlarni bashorat qilish masalalariga nisbatan ko'pligidan enłas, sintlaslî usullari ko proq o'rganilgan va uzluksiz son qiymatini bashoratlash usullariga qaraganda amalga oshłrish qulay, Endi ikkinchi tur masalasalarini, ya'ni mavjud ma'lumotlarni tavsifiash„ ularda unson tamonidan fikrlay Olish maqsadida ularda bolanishlarni topish masaldlarini qaraymiz. Bu sinrmasalalari quyidagicha qo'yiladi: Błrinchldan, turli ko' rsatkîchlar va o' zgaruvchilar orasłdan funksîonal bolanishlami inson tavsiflaydigan shaklda topish masalasidir, Odatda funksional bOlanish haqida gapirganda uzulish sonli qiymatlari orasidagi bolanishlar tushuniladi. Lekin usul jilłatidan oddiy souli 'bo' ladi (”ha / yo• q”) va odatdagi toifalî o' zgaruvchilarni z ichiga oluvchi bolanishlarnî qarash mumkin. Ikkinchidan, qaralayotgan turga umumlashgan hołda klasterlash masalalari kiradi. Obyektlar tavsitlarining qandaydir majmuasi berilgan bo'lsin, Bu obyektlar biror yagona massani tashkil etmaydi va tabiiy ravishda qandaydir guruhlarga ajraladi. Masalan, o'pka kasalliklari, dermatitam yoki qon aylanish sistemalari buzulishi bilan jabrlanayotgan bemorlar guruhlari. Ma'lumotlar bazasidagi mavjud axborotlar asosida bu tabiiy guruhlarni guruhlarga yoki klasterla.rga ajmtishni xoxlar edik, Bu klasterlar aniq tibbiy ma'niga ega, bunday guruhlash nimani anglatadi va u nima bilan bog'qligini tushunish qiziqarli. Bemorlar butun to'plamining ba'zi xarakterli guruhlarga bo'linîshî tibbiy muassasa ishîni to'rî tashkil etishga yordam berishi mumkin. Mallumotlar tavsifiga talluqli uchunchi masala favqulotda vaziyatlar, yozuvlar, fovqulotdagi holatlarni topish masalasidir- Ular asosiy yozuvlar to' plami (bemorlar guruhi)dan qandaydir keskin rarq qiladigan favqulotdagi hollarni bilishda foydalanishi mumkîn, Bu yozuvlar tasodifiy ko'rinishda bo'lishi mumkłn„ Masâlan, kompyuterga ma'lumotlami kirititishda opełator xatoga yo'l qo'yishi mumkin. Agar operator xato qilib o' nli nuqtani kiritsaș bunday xato navbatdagi jarayonga birdaniga katta ta'sir koî rsatadi, Bunday xatolarni keyingî tadqiqotlardan chîqarib tashlash lozim bo'ladî. Chunkî ko' pgina usullarda keskin farq qiluvchi nuqtalar, kamyob tipik bo' Imagan hollargajuda sezilarli dałajada talsir ko' rsatadi, ikkinchi tamondan esa, ayrim favqulotda yozuvlar mustaqil tadqiqot uchun qiziqish uyotishi mumkiîî. Chunki ular ba'zi kamyob, lekin muhum anomâl kasalliklarni ko'rsatishi mumkin. Hatto bu yozuvlar identlfikatsiyalashda, obyektlar va hodisalar mohiyatini tushunishdajuda føydali bolishi mumkin, Nihoyat oxirgi bosqichda qaralayotgan ma'lumotlarni intellektual tahlil qilish masalalari sinfiga kiritiladigan masalalar turi ma'lumotlami umumlashtirish (data summarization) atamasi bilan aniqlanadi. Bu bilan ma'lumotlami qisqacha yakuniy xarakteristikasini yozish mumkin, Aytaylik, agar bizda mavjud ma'lumotlar massivi, unga kiruvchi parametrlar qiymati biror qat'iy cheklashga bo" ysunsa, biz bu chéklashlarni aniqlashni xoxlar edik. Masalan, infark miokardani boshidan kechirgan cftliz yoshdan osllmagan bemorlar b&yicha ma'lumotlar to'plamini o'rganayapmiz, Agar biz tosatdan bu tanlanmada tavsiflangan barcha bemorlar bir kunda 5 qutudan sigaret chekadi yoki 95 kg dan ko'p bo' Imagan vazinga ega bo' Imasligini aniqlasak, bu bizning ma'lumotlami tushinish nuqtaiy ma'lumotlarni umumlashtirish (data summarization) bu o'rganilayotgan ma'lumotlar tanlanmasidagi barcha yoki deyarli barcha yozuvlar uchun o'rinli, lekin bunday formatdan barcha fikr qilunuvchi yozuvlar ko'pxilligidan yetarlicha kam uchraydigan va masalan, maydonlar qiymatlarining Iflta taqsimotlari bilan harakterlanadigan qandaydir faktlarni topish„ Agar biz taqqoslash uchun barcha bemorlar bo'yicha ma'lumotni olsak, u holda yo kuchli chekuvchi, yoki juda semiz odamlar foizi uchalik ko'p bo' maydi. Buni sintlashtirishning oshkora masalasi deyish mumkin- Lekin bizga bizdagi ma'lumotlar bilan berilgan faqat bitta sinf berilgan va ular mumkitl bo'lgan yozuvlar faraz qilinuvchi plami bilan barcha qolgan faraz qilinuvchi hollar to' plami bllan sinflanadi. Berilgan ma'lumotlardan foydali ma'lumotlarga o'tish bosqichlari [14, 151. KDD turli usullari bilan yechiladigan asosiy masalalar turlarini qmaymiz, Turli masalalarini yechishda qo'llaniladigan KDD usullari mavjud. Qaralgan masalålat'lling biror turiga qo@llanishga ycfnaltirilgan usullar bor. Endi biz ma'lumotlarni KDD usullari yordamida ixtiyoriy tadqiq etishga kiradigan asosiy bosqichlar yoki qadamlar haqida gapiramiz, Yangi bilimni topish va uning qiymatini bohaloshning asosiy siklini qaraymiz (20,5-rasm). Bu qadamlardan ba;zilari ayrim masalalarda b&lmasligi mumkin, lekin asosiy usullarning barchasi zarur bolib, ular u yoki bu shaklda qatnashadi. Birinchi bosqich mohiyati bo'yicha KDD usullari bilan ma'lumotlarni tahlil qilishdan oldin kelib, ma'lumotlar sistemalarini konkret amalga oshirishlarini qo"llash uchun mos keladigan ko rinishga keltirishdan iborat. Faraz qilaylik, bizda matinlar bor va biz aftamatik rubrikator, qandaydir anotatsiyalanish aftamatik klasifikatorni, kassaliklar tavsifini va boshqalarni qurishni (tuzishni) hohlaymiz bizga berilgan hom axbotat electron ko•rinishdagi matnlmdan iborat, lekin mavjud KDD sistemalaridan biroltasi ham bevosita matnlar bilan ishlay olmaydi. Matnlar bilan ishlash uchun biz berilgan matn matlumotlardan dastlab qandaydir hosilaviy parametrlarini oljshimiz Iozim. Masalan, tayanch iboralarini uchratish, chastotasi mulohazalarini o'rtacha uzunligi, mulohazalardagi u yoki bu so'zlarning muvofiqligini xarakterlovchi parametrlarini va boshqa qisqacha aytganda, biz berilgan matnni xarakterlovchi sonli yoki sonli bolmagan parametrlarning qandaydir aniq jamlanmasini ishlab chiqishimiz Iozim, Bu masala shu ma'noda avtamatlashganki, bu parametrlarning sistemasini tanlash inson tamonidan bajariladi, Parametrlar qiymatlari ma'lumotlarni dastlabki ishlashning ma'lum texnologiyasi doirasida avtamatik hisoblanishi mumkin. Tavsiflovchi parametrlar tanlangandan keyin o'rganilayotgan ma'lumotlar alohida Obyekt yoki &rganilmagan Obyekt holatini ifodalaydi. Har bir limi esa barcha tadqiq etllayotgan obyektlar parametrlari xossallari yoki belgilarini ifodalaydi. KDI) nazariyasida bunday jadvalning satrlari ma'lumotlar ba'zasi nazariyasidagi kabi yozuvlar deb ustunlari nutydonlari deb atash qabul qilingan. Amaldagi barcha mavjud KL)D sistemalari raqat shunday to*ri burchakli jadvallar bilan ishlaydi.
20,5-rasm. Yongi bilimni IOPjsh va uning qjym"lini bohcdoshning sikh. Olingan to*rtbutehakli jadval ham KDD usullarini qo'llash uchun juda kam material b&lib hisoblanadi va unga kiruvchi ma'lumotlarga dastlab qayta ishlash mrur. Birinchidan, jadval butun ustun uchun bir Xil qiymatlarga ega parametrlarni o'z ichiga olish mumkin- Agar tadqiq etilayotgan obyektlar faqat bunday belgilar bilan xarakterlansa, barcha tadqiq etilayotgan obyektlarabsalyut identikbo'lar edi. Demak, oz belgilar tadqiq etiluvchi obyektlarni hech qanday induvidual almashtirilgan bölar edi. Demak, ularni tahIJIdan chiqarish lozim yoki jadvalda shunday xarakteristik belgi mavjudki, barcha yozuvlarda qiymati turlicha, Matlumki, biz bu maydonda hech qanday foydalana olmaymiz va uni chiqarib tashlaymiz. Nihoyat, bunday maydonlar juda kcfp tflishi mumkin va agar biz Illarni ladqiqotga kiritsak, u holda bu hisoblash vaqtini keskin ko*paytiradi. Chunki KT)D ning baccha usullari uchun hisoblash vaqti parametrlar soniga bog'q. Shu bilan birga hisoblash vaqtining yozuvlar soniga bolanishi chiziqli yoki chiziqliga yaqin. Shuning uchun ma'lumotlarni dastlabki qayta ishlash ctrukturasi sifatida topilgan tadqiqot kontekstida eng muhim belgilar IC plami ajratish, o»gamas yoki haddan tashqari ehtimolljgi tufayli q&llanilmaydiganlarini tashlash va izlanpyotgan bolanishga eng ehtimolli kiradiganlarini ajratish zarur, Buning uchun odatda korrelyatsion tahlil, chiziqli regressiyalar va hokozaolarni q&llashga asoslangan statistik usullardan, ya'tli tez va bir parametrlarning ikkibchisiga tatsirini taqribiy baholashga inikotl beruvchi usullardan roydalaniladi. Biz ma'lumotlarning jadval ustunlari bo'yicha, belgilar bo•yicha "tozalash" ni muhokama qildik. Xuddi shunday, ma'lumotlarni jadva.l samari bo'yicha, yozuvlar bo'yicha dastlabki tozalashini o•tkazishimiz zarur. Ma'lumotlarning ixtiyoriy real bazasi odatda xatolarga juda notori aniqlangan qiymatlarga qandaydir favqulodda vaziyatlarga mos keluvchi va boshqa buzulishlarga ega, Ular tahlilning keyingi bosqichlarda qOllaniladigan KDD usullari samaradorligini keSki11 kamaytirishi mumkin- Hatto agar bunday "chaqiruv'lar xatolar bo€lmasa ham, kamyob favqulotda holallardan iborat bolsa ham ulardan baribir foydalanilmaydi, Chunki bir nechta nuqtalar bo'yicha izlanayotgan bolanish bo'yicha statistik ahamiyatli xulosa chiqarish mumkin emas. Bu dastlabki qayta ishlash yoki ma'lumotlami Preprotsesingi ikkinchi t%jsqichini tashkil etadi Uchunchi bosqich — bu KDD usullarini qo'lash. Bu qo'lashni senariyalari turlicha bölishi mumkin va turli metodlarning kombinatsiyalarini «z ichiga olishi mumk.in, Ayniqsa agar foydalanilayotgan usullar ma'lumotlarni turli nuqtaiy nazardan talllil qilishga imkon berdi- Bu tadqiqot bosqichini DATA mining deb atash qabul qilingan- Navbatdagi bo' limlar bu usullami t%itfshilroq qarashga baishlangan. Navbatdagi bosqich bu olingan natijalarni verifikatsiyalash va tekshirishdan iborat. Bu u.sul eng sodda va ko' p foydalaniladigan usul bo'lib, bizda mavjud tahlil qilmoqchi b&lgan barcha ma'lumotlarni ikkita guruhga ajratamiz. Odatda ulardan biri katta hajmda, ikkinchisi kichik hajmda bo' ladi. Katta guruhda biz u yoki bu KDD usullarini qo@lab bizning masalada talab qilingan modelar, bolanishlarni olamiz, kjchlk gurihda esa biz usullarni tekshiramiz, test guruhi va cfqish uchun foydalanilgan guruh orasidan qoida bo•yicha tuzilgan model qanchalik adekvat statistik ahamiyatli ekanligi haqida xulosalar chiqaramiz Boshqa köplab murakkabroq verifikatsiya usullari mavjud. Masalan, kesishmali tekshinsh, budstrep va boshqlar, Ular chiqarilayotgan modellari ma'lumotlarni ikkita guruhga ajratmasdan ahamiyatini baholashga imkon bemdi. Quyida biz bu usullami batafsil qarab o' tamiz- Nihoyat, beshinchi bosqich — bu avtomatik olingan bilimlarning inson tamonidan qarorlar qabul qilish, olingan qoida va bolanishlarni ma'lumotlar bazasiga q&yish va boshqalardan fOydaIanish maqsadida tasniflash. Beshinchi bosqich deganda ko' Pincha KDD texnologiyalari va ekspert sistemalari texnologiyalar chegarasida joylashgan usullardan foydalanish tushuniladi, Uning qanchalik samarali bo' lishi qo'yiladigan masalani yechishmuvaffaqqiyati jiddiy tatsir ko'rsatadi. Bu qaralgan bosqich bilan qat'iy ma'noda KDD sikli tugaydi, Topllagan yangi bilim yakuniy qiymatlilik bahosi avtomatlashtirilgan yoki an'anaviy tahlil chegarasidan chiqib ketadi va qo'lga kiritilgan bilim asosida qabul qilingan qarori hayotga tadbiq etilgandan keyin yangi bilimni amaliyotda tekshirishdan so*ng amalga oshiriljshi mumkin, Yangi bilim yordamida erishilgan amaliy natijalarni tadqiq etish KDD visitalari bilan topilgan yangi bilim qiymatlilik bahosini yakunlaydi. Tajriba orttirish uchun misol va topshiriqlar. 1- topshiriq. Nazariy qismni o'zlashtirish va B/B/B jadvalini to'ldirish. WB/B texnikasini qo Wash bo Ticha ko 'rsaona. Matruza rejaslga mos holda 2-ustunni to'ldiring- CYylang, juftlikda hal eting va javob bering, ushbu savollar bo%yicha tlimani bilasiz, 3-ustunni Idiring. O'ylang, juftlikda hal eting va javob bering, ushbu savollar bo'yicha nimani bilish kerak, 4-ustunni to' Idiring. Ma'ruzanl o'qing va materiallar bilan tanishing. 5-ustunni to@ldiring: WB/B •advali (Bi/umcm Bilishni ho-XI man Bilib oldim
2-topshiriq. tBilib oldim" ustuni asosida ; " jadvalini to' Idirish. Nazariy qismdatl tayanch iboralami aniqlash va "T" jadvalini qurish.
Download 381.13 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling