Reja: m a’lumotlar va bilimlar. Asosiy tushunchalar


Download 0.65 Mb.
Pdf ko'rish
bet14/16
Sana22.12.2022
Hajmi0.65 Mb.
#1042370
1   ...   8   9   10   11   12   13   14   15   16
Analytical Processing) vositalari, ya’ni operativ analitik qayta ishlash vositalari 
orasidagi farq haqidagi savol. OLAP - bu qarorni qabul qilishni qo'llab -  
quvvatlashga yo'nalgan texnologiyalar qismi. 
Buyurtma va hisobotlarni 
loyihalashtirishning oddiy vositalari ma’lumotlar bazasining o'zini tavsiflaydi. 
Bunda foydalanuvchining o'zi ma’lumotlar yoki ma’lumotlar orasidagi 
munosabatlar orqali modelni shakllantiradi va shundan so'ng farazlarni tasdiqlash 
yoki rad qilish uchun ma’lumotlar bazasi buyurtmalari seriyasidan foydalaniladi. 
Data Mining vositalari OLAP vositalaridan shu bilan farq qiladiki, foydalanuvchi 
faraz qilayotgan o'zaro bog’lanishlarni tekshirish o'rniga ular mavjud ma’lumotlar 
asosida turli tadqiq etilayotgan omillarning berilgan xossaga ta’sir darajasini 
miqdoriy baholashga imkon beruvchi modellarni ishlab chiqishlari mukin. Bundan 
tashqari, Data Mining vositalari noma’lum, lekin ma’lumotlarda real mavjud 
munosabatlar xarakteri haqida yangi gipotezalarni ishlab chiqishga imkon beradi.
OLAP vositalaro KDD jarayonining turli bosqichlarida qo'llaniladi, chunki 
ular 
tadqiqotchi 
e’tiborini 
eng 
muhim 
o'zgaruvchilariga 
qaratishsa, 
o'zgaruvchilarning chiqarib tashlanuvchi yoki qiziqarli qiymatlarini aniqlash 
asosida ma’lum ma’lumotlarni tushunishga yordam beradi.
95


KDD ning qisqacha tarixi [23, 24]. KDD usullari oxirgi 20-asr oxirlari va 
21-asr boshlarida juda tez rivojlandi. Hozirgi kunda ma’lumotlar bazasini 
kompyuterda tahlil qilish masalalari bajarilmoqda. Kompyuter paydo bo'lgunga 
qadar turli statistik usullardan foydalanilgan holda amalga oshirilgan. Shuning 
uchun kompyuter ularni qo'llanilish imkoniyatlarini osonlashtirdi va kengaytirdi. 
Hozir foydalanilayotgan ma’lumotlarni intellektual tahlil qilish usullari ikki 
yo'nalishdagi evalyutsiya natijasidir: bir tamondan - bu statistika usullarining 
chuqurlashtirilgan, intellektuallashtirish saviyasi xususida, ikkinchi tamondan -
natijasi nerv to'qimalarini eslatuvchi va sun’iy neyron to'rlar deb ataluvchi sun’iy 
sistemalarni yaratishga yordam beradigan odam va hayvon nerv to'qimasini 
modellashtirishga urinishdir.
Birinchidan, bunday real harakat qiluvchi sistema bit rastrli ketma-ketliklar 
ko'rinishida bo'lgan oddiy vizual tasvirlarni taniy olish qobilyatiga ega bo'lgan 
perseptronlar 1960-yillarning oxirlarida qurilgan. Bu yo'nalish 1980-yillar oxirida 
yana ham yuksak rivojlandi va neyroto'rlar asosida ma’lumotlar bazasini tahlil 
qilish kommersiya sistemalari qurildi.
Hozirgi paytda KDD sistemasi usullarini ishlab chiqish va yaratish bilan 
shuullanuvchi juda ko'p yirik tadqiqot markazlari mavjud. Bu markazlarning 
ko'pchiligi 1990- yillarda (1992-93y.) tashkil etila boshlagan. Tadqiqot guruhlari 
sonining o'sishi 1996-2010 yillarda eksponensial ko'rinishga ega. Shuning uchun 
tadqiqot markazlari yaqin kelajakda turlicha shakllarda universitetlarda, 
inistitutlarda va ilmiy markazlarda juda ham ko'payadi.
Bu muammo bilan intensiv shuullanadigan yirik kompaniyalar sifatida IBM 
va Microsoft kompaniyalarini ko'rsatish mumkin. IBM to'liq o'zining yirik 
tadqiqot markazini Almaden shahridagi dasturiy ta’minot texnologiyalari sohasini 
KDD algoritmlarini ishlab chiquvchi va ishlovchi KDD sistemalarini qurishga 
yo'naltirdi. Buning natijasida asosan meynffreym va qudratli ishchi stansiyalar 
uchun mo'ljallangan maxsus KDD sistemalarining butun bir oilasini ishlab chiqdi. 
Masalan, Advanced Scout deb ataluvchu maxsuslashgan sistemalardan biri 
jamoalarda o'yinchilar turli kombinatsiyalari samaradorligini tahlil qilish uchun va 
o'yin strategiyasini boshqarish uchun AQSh ning Milliy basketbol assotsatsiyasida 
qo'llanilmoqda. Bu maxsuslashtirilgan sistema million dollordan ortiq turadi va 
MBA ning bir nechta jamoalari foydalanmoqda.
Micrisoft firmasi bevosita Redmond shahridagi shtab - kvartirasi binosida 
joylashgan firmasida KDD markazini tashkil etdi va bu muammo bilan universitet 
va ilmiy akademiya markazlarida shuullangan mashxur mutaxassislarni taklif etdi. 
Bu markazni avval NASA reaktiv harakat laboratoriyasida ishlagan va 1996 yilda 
fanni rivojlantirish bo'yicha eng faxrli amerika mukofotlaridan birini olgan 
professor Usama Fayadd boshqarmoqda.
Microsift misolida ko'rish mumkinki, eng yirik kompyuter kompaniyasi 
ham bu yangi texnologiyaga katta ahamiyat bermoqda va ma’lumotlarning 
intellektual tahlil qilish uchun yangi qudratli mahsulotlar chiqarmoqda. Bundan 
tashqari, KDD texnologiyalari rivojlantirish bilan shuullanuvchi uncha katta 
bo'lmagan juda ko'p firmalar mavjud. Bu kompaniyalar AQSh da juda ko'p, lekin
96


Yevropa, Angliya, Fransiyada ham mavjud. Bunday firmalardan biri - eng qadimgi 
va mashxur IDIS dasturini ishlab chiqadigan IntelligenceWare kompaniyasi. Yana 
Acknosoft (Fransiya), Integral Solutions (Angliya) va boshqa ko'plab firmalarni 
olish mumkin.
Bu muammolar bilan universitetlarda ham shuullanadilar. Eng qadimgi 
tadqiqot guruhlari: AQShda Wichita State University, Germaniyada - GMD guruhi 
hisoblanadi. Hozir bu tadqiqotlarni ta’minlovchi yetarlicha rivojlangan axborot 
infratuzulmalar mavjud va muntazam halqaro anjumanlar o'tkazilmoqda. KDD 
masalalariga bashlangan jurnal nashr etilmoqda. KDD usullarini biologiya va 
tibbiyotda 
qo'llashga 
katta 
e’tibor 
berilmoqda. 
Base4 
Bioinformatics, 
BioDiscovery, DNA Star, Molecular Simulations, Anvil Informatics, Bioreason, 
Cellomics, Incyte Pharmaceuticals firmalari ham yangi tadqiqot vositalarni 
yaratish bilan bog'q rivojlanishlar olib bormoqda.
Keltirilgan ma’lumotlardan ko'rinadiki hozirgi paytda KDD tadqiqotlari 
rivoji yuqori darajaga ko'tarilda.
KDD turli bilim sohalarining sintezi sifatida [23, 24]. Statistik tamondan 
va neyron to'rlari tamondan ma’lumotlar bazasini intellektual tahlil qilish 
sistemalari, ya’ni KDD sistemalari o'z usullari va maqsadlariga ko'ra ikkita turli 
sinflarga ajratishga asos bo'ldi. KDD usullari statistik usullarga nisbatan qanday 
munosabatda turadi? Ayrim statistik usullar KDD usullariga qaraganda kichikroq 
qurollar bo'lib hisoblanadi. KDD usullari tamonidan tipik masalalarni yechishda 
standart xossalarida kombinatsiya tarzida foydalaniladi. Shuning uchun KDD ilmiy 
vazifasi yuqori darajada yechish sistemalarini ishlab chiqish hisoblanadi. Buni 
misol bilan tushuntirib berish mumkin. Avvaldan qo'llaniluvchi va ommoviy 
bog’lanishlarni chiziqli regressiya kabi topish statistik usullari mavjud. Bu usul 
ma’lumotlarda bir o'zgaruvchilarni boshqalari orqali chiziqli ifodalar ko'rinishida, 
ya’ni faqat erkin o'zgaruvchilar bo'yicha chiziqli hadlarning faqat chiziqli hadlar 
orqali bog’lanishlarini topishga imkon beradi. Lekin avval regression formula 
chiquvchi o'zgaruvchilar ro'yxati tayinlangan bu modelga kiruvchi regression 
koeffitsentlar standart algoritmlardan birida joylashgan bu usulning talqinidan 
foydalanilgan. Shunday qilib, qandaydir bashorat qilinga formula olingan.
KDD tasnifida bu usulning rivojlanishi bo'lib, juda ko'p sondagi mavjud 
erkin parametrlardan eng muhumlari faqat birinchi o'zgaruvchi, ya’ni kuchli ta’sir 
ko'rsatuvchilarini tanlashga imkon beruvchi erkin o'zgaruvchilarni avtomatik 
tanloviga ega multichiziqli regression usul hisoblanadi. Haqiqatan bu usul biror 
qo'llash sxemasi doirasida chiziqli regressiv standart usuldan foydalaniladi. Bu 
bilan izlanayotgan model haqida yanada kamroq bilishga imkon beradi. Oldindan 
modelga kiruvchi erkin o'zgaruvchilar aniq jamlanmasi haqida farazlarni ilgari 
surmaslik lozim. Usullarning umumiy konsepsiyasi - inson aralashuvini 
minimallashtirish, tahlilni imkon boricha avtomatik bajarishdir. Barcha mavjud 
KDD usullari alohida, elementar amallar sifatida klassik statistik usullardan 
foydalanadi.
KDD usullari bevosita ma’lumotlar bazasi nazariyasi bilan bog'q, chunki 
biror arxitekturasi relatsion yoki qandaydir boshqacha real ma’lumotlar bazasi
97


bilan ishlashlari lozim. Bu KDD algoritmlari odatda hisoblashlar vaqtida juda ko'p 
vaqt sarflashni talab qiladi, chunki ulardan ko'plarini ko'p o'lchovli fazolarda 
adaptiv izlashga asoslangan hisoblashlarni, turli xil farazlar massivli tanlashini o'z 
ichiga oladi. Bu jarayonlar juda katta hisoblash quvvatini talab etadi. Shuning 
uchun KDD usullarini kompyuterda amalga oshirish samaradorligini ta’minlash 
uchun axborot parallel qayta ishlashi, ko'p sondagi masalalarni bir vaqtda 
yechishni ta’minlovchi algoritmlarni yaratish masalalariga e’tibor qaratiladi.
KDD usullarining rivojiga sun’iy intellektni tadqiq etish bo'yicha ishlar 
kushli ta’sir ko'rsatmoqda. Sun’iy intellektning ana’anaviy masalalari asosan 
predmet sohasidan ekspert mutaxassislar mavjud bilimlardan samarali foydalanish 
va bu bilimlar asosida qandaydir zid bo'lmagan mantiqiy xulosalar chiqarish, 
ekspert yaratgan modellarni murakkablashtirishdan iborat. KDD usullarida 
qandaydir jihatdan masala teskaricha qo'yilgan. Eng qizii, ma’lumotlar haqida 
bilish lozim bo'lgan narsa hech kimga, hatto ekspertlarga ham oldindan ma’lum 
emas. Faqat berilgan yoki boshqacha aytganda “xom” ma’lumotlar bor, aksincha, 
ma’lumotlardan muhum qoidalar, bog’lanishlar, modellarni chiqarib olish kerak.
Shu bilan birga ma’lumotlardan olingan modellar qarorlarini qabul qilish 
uchun foydalanilishi sababli ular odatda ekspertlar bergan ma’lum modellar bilan 
muvofiqlashishi lozim. Boshqachi aytganda, KDD usullarini amalga oshiruvchi 
sistemalar mavjud bilimlar ombori va ekspert sistemalari bilan interfeysga ega 
bo'lishi lozim. Shuning uchun bu sohaning sun’iy intellekt bilan o'zaro aloqasi 
juda kuchli. Ba’zi KDD usullari sun’iy intellektning ta’limiy sistemalari 
sohalaridan olingan. Xususan, sinflash masalalarini yechishda ta’lim sistemalarini 
yaratishda ishlab chiqilgan ba’zi usullardan foydalaniladi.
Nihoyat, KDD algoritmlari ma’lum darajada ma’lumotlarni tahlil 
qilishning turli maxsuslashtirilgan usullaridan va ular qo'llaniladigan sohalarda 
foydalaniladi. Bu moliyaviy tahlilda va oqsil strukturasi tahlili, yangi dorilar 
sintezi yoki boshqa o'ziga xos tashkil etilgan ma’lumotli sohalarda qo'llaniladigan 
KDD usullari juda turlicha va ma’lum darajada bu sohalar xususiyati va 
yechiladigan masalalar tipi bilan aniqlanadi.
KDD-masala tu rlari va molellarning tuzulishlari [23, 24]. Turli xil KDD 
usullari bilan yechiladigan va turlicha samaradorlikdagi masalalarni ikki turga 
ajratish mumkin:
1. Birinchi masalalar sinfi model chiqarishda ma’lumotlar mavjud 
bo'lmagan vaziyatga duch kelganda, kelgusidagi qarorni bashorat qilish va qabul 
qilish uchun foydalanishi mumkin bo'lgan ma’lumotlardan turli modellarni topish 
va qurishdan iborat. Bunda tabiiyki, model imkon boricha aniqroq ishlashi, u 
statistik ahamiyatli va oqlanishi lozim.
2. Ikkinchi turdagi masalalarda ma’lumotlarda bog’lanishlar mohiyatini, 
turli omillarning o'zaro ta’sirini, ya’ni turli sistemalarning emperik modellarini 
qurishga asosiy etibor qaratiladi, bu yerda asosiy moment - qurilayotgan 
modellarning inson qabul qilishi uchun osinligi va ochiqligi hisoblanadi. Bu yerda 
biz uchun sistema yaxshi boshoratlashi va kelgusida yaxshi ishlashi muhim emas, 
lekin mavjud ma’lumotlar massivida aniqlanadigan omillarning o'zaro ta’sirini
98


tushunish 
muhimdir. 
Topilgan 
qonuniyatlar 
konkret 
tahlil 
etiladigan 
ma’lumotlarning o'zaro xos belgisi bo'ladi va hech joyda boshqa o'rganilmaydi, 
lekin bizga baribir ularni bilishimiz zarur.
Bu turli tipdagi masalalar ekanligini ta’kidlaymiz va shuning uchun ular 
turli vositalar bilan yechilishi lozim. Masalan, neyron to'rlari birinchi turdagi 
masalalarni yaxshi yechadi, lekin bashoratlash masalalarini ikkinchi turdagi 
masalalarni yechishga hech qanday yordam bera olmaydi.
Haqaqatan, bunday sistemalarni o'qitish natijasida olingan bilimlar 
strukturali tashkil etilgan neyronlar orasidagi bog’lanishlar vazni ko'rinishida 
avtomatik qayd etiladigan neyron to'ri olinadi. Neyronlarning umumiy soni yuzlab 
yoki undan ham ko'proq bo'lishi mumkin. Bunday sistema bevosita inson 
tamonidan qabul qilingan va tushunish uchun mos emas.
Modellar qurish masalasiga to'xtalamiz. Uni ikkita muhum qismiy tipga 
ajratamiz. Birinchi - bu siflashtirish masalasidir. Qandaydir yozuvlar yoki 
obyektlar tasvirlari mavjud va ularning har biri haqida sinflarning tayinlangan 
chekli to'plamidagi biror sinfga tegishli ekanligi oldindan ma’lum. Ixtiyoriy 
obyektni bu sinflardan biriga tegishli bo'lishini aniqlab boradigan qoida yoki 
qoidalar majmuasini ishlab chiqish kerak. Masalan, bunday turdagi klassik masala
- bu tibbiy tashxislash. Bizda mijozlar tavsifi - qandaydir tibbiy testlar, 
so'rovnoma ma’lumotlari, ma’lumotlar tahlili va boshqalar oldindan ma’lum 
sinflar - kasalliklar tashxislari berilgan bo'lsin. Biz aniq bilamizki, ba’zi mijozlar 
diabed bilan kasallangan, qolganlari esa kasallanmagan. Keyin biz yangi mijoz 
uchun o'sha tibbiy tahlildan ma’lumotlarni yiishimiz va tahlillar asosida qanday 
qilib bilish mumkinligi masalasini qo'yamiz. Ikkinchi qismiy tur esa qandaydir 
uzluksiz sonli parametrni bashoratlash masalalaridan iborat. Bunga masalan, ayrim 
bemor muolajasini yoki klinik xarajat va daromadlarini bashoratlash masalasini 
olish mumkin. Bu bashoratdan tibbiy davolanishni davom ettirish, yoki 
almashtirish, yoki yangi jixozni sotib olish haqidagi bizning qarorimizga bog'q 
bo'ladi. Boshqa ko'pchilik sohalarda uzluksiz qiymatlarni bashoratlash muhum 
ahamiyatga ega. Hozirda mavjud KDD tijorat sistemalari asosan sinflash 
masalalarini yechadi. Lekin bunday vaziyatda sinflash masalalari uzluksiz 
qiymatlarni bashorat qilish masalalariga nisbatan ko'pligidan emas, sinflash 
usullari ko'proq o'rganilgan va uzluksiz son qiymatini bashoratlash usullariga 
qaraganda amalga oshirish qulay.
Endi ikkinchi tur masalasalarini, ya’ni mavjud ma’lumotlarni tavsiflash, 
ularda unson tamonidan fikrlay olish maqsadida ularda bog’lanishlarni topish 
masalalarini qaraymiz. Bu sinf masalalari quyidagicha qo'yiladi:
• Birinchidan, turli ko'rsatkichlar va o'zgaruvchilar orasidan funksional 
bog’lanishlarni inson tavsiflaydigan shaklda topish masalasidir. Odatda funksional 
bog’lanish haqida gapirganda uzulish sonli qiymatlari orasidagi bog’lanishlar 
tushuniladi. Lekin usul jihatidan oddiy sonli bo'ladi (“ha / yo'q”) va odatdagi 
toifali o'zgaruvchilarni o'z ichiga oluvchi bog’lanishlarni qarash mumkin.
• Ikkinchidan, qaralayotgan turga umumlashgan holda klasterlash masalalari 
kiradi. Obyektlar tavsiflarining qandaydir majmuasi berilgan bo'lsin. Bu obyektlar
99


biror yagona massani tashkil etmaydi va tabiiy ravishda qandaydir guruhlarga 
ajraladi. Masalan, o'pka kasalliklari, dermatitam yoki qon aylanish sistemalari 
buzulishi bilan jabrlanayotgan bemorlar guruhlari. M a’lumotlar bazasidagi mavjud 
axborotlar asosida bu tabiiy guruhlarni guruhlarga yoki klasterlarga ajratishni 
xoxlar edik. Bu klasterlar aniq tibbiy ma’niga ega, bunday guruhlash nimani 
anglatadi va u nima bilan bog'qligini tushunish qiziqarli. Bemorlar butun 
to'plamining ba’zi xarakterli guruhlarga bo'linishi tibbiy muassasa ishini to'ri 
tashkil etishga yordam berishi mumkin.
• M a’lumotlar tavsifiga talluqli uchunchi masala favqulotda vaziyatlar, 
yozuvlar, fovqulotdagi holatlarni topish masalasidir. Ular asosiy yozuvlar to'plami 
(bemorlar guruhi)dan qandaydir keskin farq qiladigan favqulotdagi hollarni 
bilishda foydalanishi mumkin. Bu yozuvlar tasodifiy ko'rinishda bo'lishi mumkin. 
Masalan, kompyuterga ma’lumotlarni kirititishda operator xatoga yo'l qo'yishi 
mumkin. Agar operator xato qilib o'nli nuqtani kiritsa, bunday xato navbatdagi 
jarayonga birdaniga katta ta’sir ko'rsatadi. Bunday xatolarni keyingi tadqiqotlardan 
chiqarib tashlash lozim bo'ladi. Chunki ko'pgina usullarda keskin farq qiluvchi 
nuqtalar, kamyob tipik bo'lmagan hollarga juda sezilarli darajada ta’sir ko'rsatadi, 
ikkinchi tamondan esa, ayrim favqulotda yozuvlar mustaqil tadqiqot uchun 
qiziqish uyotishi mumkin. Chunki ular ba’zi kamyob, lekin muhum anomal 
kasalliklarni ko'rsatishi mumkin. Hatto bu yozuvlar identifikatsiyalashda, 
obyektlar va hodisalar mohiyatini tushunishda juda foydali bo'lishi mumkin.
• Nihoyat oxirgi bosqichda qaralayotgan ma’lumotlarni intellektual tahlil 
qilish masalalari sinfiga kiritiladigan masalalar turi ma’lumotlarni umumlashtirish 
(data summarization) atamasi bilan aniqlanadi. Bu bilan ma’lumotlarni qisqacha 
yakuniy xarakteristikasini yozish mumkin. Aytaylik, agar bizda mavjud 
ma’lumotlar massivi, unga kiruvchi parametrlar qiymati biror qat’iy cheklashga 
bo'ysunsa, biz bu cheklashlarni aniqlashni xoxlar edik. Masalan, infark miokardani 
boshidan kechirgan o'ttiz yoshdan oshmagan bemorlar bo'yicha ma’lumotlar 
to'plamini o'rganayapmiz. Agar biz to'satdan bu tanlanmada tavsiflangan barcha 
bemorlar bir kunda 5 qutudan sigaret chekadi yoki 95 kg dan ko'p bo'lmagan 
vazinga ega bo'lmasligini aniqlasak, bu bizning ma’lumotlarni tushinish nuqtaiy 
nazaridan juda muhim va bu amaliy ahamiyatga ega yangi bilim. Shuday qilib, 
ma’lumotlarni umumlashtirish (data summarization) - bu o'rganilayotgan 
ma’lumotlar tanlanmasidagi barcha yoki deyarli barcha yozuvlar uchun o'rinli, 
lekin bunday formatdan barcha fikr qilunuvchi yozuvlar ko'pxilligidan yetarlicha 
kam uchraydigan va masalan, maydonlar qiymatlarining o'rta taqsimotlari bilan 
harakterlanadigan qandaydir faktlarni topish. Agar biz taqqoslash uchun barcha 
bemorlar bo'yicha ma’lumotni olsak, u holda yo kuchli chekuvchi, yoki juda semiz 
odamlar foizi uchalik ko'p bo'lmaydi. Buni sinflashtirishning oshkora masalasi 
deyish mumkin. Lekin bizga bizdagi ma’lumotlar bilan berilgan faqat bitta sinf 
berilgan va ular mumkin bo'lgan yozuvlar faraz qilinuvchi to'plami bilan barcha 
qolgan faraz qilinuvchi hollar to'plami bilan sinflanadi.
Berilgan m a’lum otlardan foydali m a’lum otlarga o'tish bosqichlari [23,
24]. KDD turli usullari bilan yechiladigan asosiy masalalar turlarini qaraymiz.
100


Turli masalalarini yechishda qo'llaniladigan KDD usullari mavjud. Qaralgan 
masalalaming biror turiga qo'llanishga yo'naltirilgan usullar bor. Endi biz 
ma’lumotlarni KDD usullari yordamida ixtiyoriy tadqiq etishga kiradigan asosiy 
bosqichlar yoki qadamlar haqida gapiramiz. Yangi bilimni topish va uning 
qiymatini bohaloshning asosiy siklini qaraymiz (4.7-rasm).
4.7-rasm. Yangi bilimni topish va uning qiymatini bohaloshning asosiy sikli.
Bu qadamlardan ba’zilari ayrim masalalarda bo'lmasligi mumkin, lekin 
asosiy usullarning barchasi zarur bo'lib, ular u yoki bu shaklda qatnashadi.
• 
Birinchi bosqich mohiyati bo'yicha KDD usullari bilan ma’lumotlarni 
tahlil qilishdan oldin kelib, ma’lumotlar sistemalarini konkret amalga oshirishlarini 
qo'llash uchun mos keladigan ko'rinishga keltirishdan iborat. Faraz qilaylik, bizda 
matinlar bor va biz aftamatik rubrikator, qandaydir anotatsiyalanish aftamatik 
klasifikatorni, kassaliklar tavsifini va boshqalarni qurishni (tuzishni) hohlaymiz 
bizga berilgan hom axborat electron ko'rinishdagi matnlardan iborat, lekin mavjud 
KDD sistemalaridan birortasi ham bevosita matnlar bilan ishlay olmaydi. Matnlar 
bilan ishlash uchun biz berilgan matn ma’lumotlardan dastlab qandaydir hosilaviy 
parametrlarini olishimiz lozim. Masalan, tayanch iboralarini uchratish, chastotasi
101


mulohazalarini o'rtacha uzunligi, mulohazalardagi u yoki bu so'zlarning 
muvofiqligini xarakterlovchi parametrlarini va boshqa qisqacha aytganda, biz 
berilgan matnni xarakterlovchi sonli yoki sonli bo'lmagan parametrlarning 
qandaydir aniq jamlanmasini ishlab chiqishimiz lozim. Bu masala shu ma’noda 
avtamatlashganki, bu parametrlarning sistemasini tanlash inson tamonidan 
bajariladi. Parametrlar qiymatlari ma’lumotlarni dastlabki ishlashning ma’lum 
texnologiyasi doirasida avtamatik hisoblanishi mumkin. Tavsiflovchi parametrlar 
tanlangandan 
keyin 
o'rganilayotgan 
ma’lumotlar 
alohida 
obyekt 
yoki 
o'rganilmagan obyekt holatini ifodalaydi. Har bir bo'limi esa barcha tadqiq 
etilayotgan obyektlar parametrlari xossallari yoki belgilarini ifodalaydi. KDD 
nazariyasida bunday jadvalning satrlari ma’lumotlar ba’zasi nazariyasidagi kabi 
yozuvlar deb ustunlari maydonlari deb atash qabul qilingan. Amaldagi barcha 
mavjud KDD sistemalari faqat shunday to'ri burchakli jadvallar bilan ishlaydi.
• 
Olingan to'rtburchakli jadval ham KDD usullarini qo'llash uchun juda 
kam material bo'lib hisoblanadi va unga kiruvchi ma’lumotlarga dastlab qayta 
ishlash zarur. Birinchidan, jadval butun ustun uchun bir xil qiymatlarga ega 
parametrlarni o'z ichiga olish mumkin. Agar tadqiq etilayotgan obyektlar faqat 
bunday belgilar bilan xarakterlansa, barcha tadqiq etilayotgan obyektlarabsalyut 
identikbo'lar edi. Demak, oz belgilar tadqiq etiluvchi obyektlarni hech qanday 
induvidual almashtirilgan bo'lar edi. Demak, ularni tahlildan chiqarish lozim yoki 
jadvalda shunday xarakteristik belgi mavjudki, barcha yozuvlarda qiymati turlicha. 
M a’lumki, biz bu maydonda hech qanday foydalana olmaymiz va uni chiqarib 
tashlaymiz. Nihoyat, bunday maydonlar juda ko'p bo'lishi mumkin va agar biz 
ularni tadqiqotga kiritsak, u holda bu hisoblash vaqtini keskin ko'paytiradi. Chunki 
KDD ning barcha usullari uchun hisoblash vaqti parametrlar soniga bog'q. Shu 
bilan birga hisoblash vaqtining yozuvlar soniga bog’lanishi chiziqli yoki chiziqliga 
yaqin. Shuning uchun ma’lumotlarni dastlabki qayta ishlash ctrukturasi sifatida 
topilgan tadqiqot kontekstida eng muhim belgilar to'plami ajratish, o'zgamas yoki 
haddan tashqari 
ehtimolligi 
tufayli 
qo'llanilmaydiganlarini 
tashlash va 
izlanayotgan bog’lanishga eng ehtimolli kiradiganlarini ajratish zarur. Buning 
uchun odatda korrelyatsion tahlil, chiziqli regressiyalar va hokozaolarni qo'llashga 
asoslangan statistik usullardan, ya’ni tez va bir parametrlarning ikkibchisiga 
ta’sirini taqribiy baholashga imkon beruvchi usullardan foydalaniladi.
Biz ma’lumotlarning jadval ustunlari bo'yicha, belgilar bo'yicha “tozalash” 
ni muhokama qildik. Xuddi shunday, ma’lumotlarni jadval satrlari bo'yicha, 
yozuvlar bo'yicha dastlabki tozalashini o'tkazishimiz zarur. M a’lumotlarning 
ixtiyoriy real bazasi odatda xatolarga juda noto'ri aniqlangan qiymatlarga 
qandaydir favqulodda vaziyatlarga mos keluvchi va boshqa buzulishlarga ega. Ular 
tahlilning keyingi bosqichlarda qo'llaniladigan KDD usullari samaradorligini 
keskin kamaytirishi mumkin. Hatto agar bunday “chaqiruv”lar xatolar bo'lmasa 
ham, kamyob favqulotda holatlardan iborat bo'lsa ham ulardan baribir 
foydalanilmaydi. Chunki bir nechta nuqtalar bo'yicha izlanayotgan bog’lanish 
bo'yicha statistik ahamiyatli xulosa chiqarish mumkin emas. Bu dastlabki qayta 
ishlash yoki ma’lumotlarni Preprotsesingi ikkinchi bosqichini tashkil etadi.
102


• Uchunchi bosqich - bu KDD usullarini qo'lash. Bu qo'lashni senariyalari 
turlicha bo'lishi mumkin va turli metodlarning kombinatsiyalarini o'z ichiga olishi 
mumkin. Ayniqsa agar foydalanilayotgan usullar ma’lumotlarni turli nuqtaiy 
nazardan tahlil qilishga imkon berdi. Bu tadqiqot bosqichini DATA mining deb 
atash qabul qilingan. Navbatdagi bo'limlar bu usullarni batfshilroq qarashga 
baishlangan.
• Navbatdagi bosqich - bu olingan natijalarni verifikatsiyalash va 
tekshirishdan iborat. Bu usul eng sodda va ko'p foydalaniladigan usul bo'lib, bizda 
mavjud tahlil qilmoqchi bo'lgan barcha ma’lumotlarni ikkita guruhga ajratamiz. 
Odatda ulardan biri katta hajmda, ikkinchisi kichik hajmda bo'ladi. Katta guruhda 
biz u yoki bu KDD usullarini qo'lab bizning masalada talab qilingan modelar, 
bog’lanishlarni olamiz, kichik gurihda esa biz usullarni tekshiramiz, test guruhi va 
o'qish uchun foydalanilgan guruh orasidan qoida bo'yicha tuzilgan model 
qanchalik adekvat statistik ahamiyatli ekanligi haqida xulosalar chiqaramiz. 
Boshqa ko'plab murakkabroq verifikatsiya usullari mavjud. Masalan, kesishmali 
tekshirish, budstrep va boshqlar. Ular chiqarilayotgan modellari ma’lumotlarni 
ikkita guruhga ajratmasdan ahamiyatini baholashga imkon beradi. Quyida biz bu 
usullarni batafsil qarab o'tamiz.
• Nihoyat, beshinchi bosqich - bu avtomatik olingan bilimlarning inson 
tamonidan qarorlar qabul qilish, olingan qoida va bog’lanishlarni ma’lumotlar 
bazasiga qo'yish va boshqalardan foydalanish maqsadida tasniflash. Beshinchi 
bosqich deganda ko'pincha KDD texnologiyalari va ekspert sistemalari 
texnologiyalar chegarasida joylashgan usullardan foydalanish tushuniladi. Uning 
qanchalik samarali bo'lishi qo'yiladigan masalani yechishmuvaffaqqiyati jiddiy 
ta’sir ko'rsatadi.
Bu qaralgan bosqich bilan qat’iy ma’noda KDD sikli tugaydi. Topilagan 
yangi bilim yakuniy qiymatlilik bahosi avtomatlashtirilgan yoki an’anaviy tahlil 
chegarasidan chiqib ketadi va qo'lga kiritilgan bilim asosida qabul qilingan qarori 
hayotga tadbiq etilgandan keyin yangi bilimni amaliyotda tekshirishdan so'ng 
amalga oshirilishi mumkin. Yangi bilim yordamida erishilgan amaliy natijalarni 
tadqiq etish KDD visitalari bilan topilgan yangi bilim qiymatlilik bahosini 
yakunlaydi.
T ajriba orttirish uchun misol va topshiriqlar.

Download 0.65 Mb.

Do'stlaringiz bilan baham:
1   ...   8   9   10   11   12   13   14   15   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling