Reja: m a’lumotlar va bilimlar. Asosiy tushunchalar

bet	14/16
Sana	22.12.2022
Hajmi	0.65 Mb.
	#1042370

1 ... 8 9 10 11 12 13 14 15 16

Analytical Processing) vositalari, ya’ni operativ analitik qayta ishlash vositalari
orasidagi farq haqidagi savol. OLAP - bu qarorni qabul qilishni qo'llab -
quvvatlashga yo'nalgan texnologiyalar qismi.
Buyurtma va hisobotlarni
loyihalashtirishning oddiy vositalari ma’lumotlar bazasining o'zini tavsiflaydi.
Bunda foydalanuvchining o'zi ma’lumotlar yoki ma’lumotlar orasidagi
munosabatlar orqali modelni shakllantiradi va shundan so'ng farazlarni tasdiqlash
yoki rad qilish uchun ma’lumotlar bazasi buyurtmalari seriyasidan foydalaniladi.
Data Mining vositalari OLAP vositalaridan shu bilan farq qiladiki, foydalanuvchi
faraz qilayotgan o'zaro bog’lanishlarni tekshirish o'rniga ular mavjud ma’lumotlar
asosida turli tadqiq etilayotgan omillarning berilgan xossaga ta’sir darajasini
miqdoriy baholashga imkon beruvchi modellarni ishlab chiqishlari mukin. Bundan
tashqari, Data Mining vositalari noma’lum, lekin ma’lumotlarda real mavjud
munosabatlar xarakteri haqida yangi gipotezalarni ishlab chiqishga imkon beradi.
OLAP vositalaro KDD jarayonining turli bosqichlarida qo'llaniladi, chunki
ular
tadqiqotchi
e’tiborini
eng
muhim
o'zgaruvchilariga
qaratishsa,
o'zgaruvchilarning chiqarib tashlanuvchi yoki qiziqarli qiymatlarini aniqlash
asosida ma’lum ma’lumotlarni tushunishga yordam beradi.
95

KDD ning qisqacha tarixi [23, 24]. KDD usullari oxirgi 20-asr oxirlari va
21-asr boshlarida juda tez rivojlandi. Hozirgi kunda ma’lumotlar bazasini
kompyuterda tahlil qilish masalalari bajarilmoqda. Kompyuter paydo bo'lgunga
qadar turli statistik usullardan foydalanilgan holda amalga oshirilgan. Shuning
uchun kompyuter ularni qo'llanilish imkoniyatlarini osonlashtirdi va kengaytirdi.
Hozir foydalanilayotgan ma’lumotlarni intellektual tahlil qilish usullari ikki
yo'nalishdagi evalyutsiya natijasidir: bir tamondan - bu statistika usullarining
chuqurlashtirilgan, intellektuallashtirish saviyasi xususida, ikkinchi tamondan -
natijasi nerv to'qimalarini eslatuvchi va sun’iy neyron to'rlar deb ataluvchi sun’iy
sistemalarni yaratishga yordam beradigan odam va hayvon nerv to'qimasini
modellashtirishga urinishdir.
Birinchidan, bunday real harakat qiluvchi sistema bit rastrli ketma-ketliklar
ko'rinishida bo'lgan oddiy vizual tasvirlarni taniy olish qobilyatiga ega bo'lgan
perseptronlar 1960-yillarning oxirlarida qurilgan. Bu yo'nalish 1980-yillar oxirida
yana ham yuksak rivojlandi va neyroto'rlar asosida ma’lumotlar bazasini tahlil
qilish kommersiya sistemalari qurildi.
Hozirgi paytda KDD sistemasi usullarini ishlab chiqish va yaratish bilan
shuullanuvchi juda ko'p yirik tadqiqot markazlari mavjud. Bu markazlarning
ko'pchiligi 1990- yillarda (1992-93y.) tashkil etila boshlagan. Tadqiqot guruhlari
sonining o'sishi 1996-2010 yillarda eksponensial ko'rinishga ega. Shuning uchun
tadqiqot markazlari yaqin kelajakda turlicha shakllarda universitetlarda,
inistitutlarda va ilmiy markazlarda juda ham ko'payadi.
Bu muammo bilan intensiv shuullanadigan yirik kompaniyalar sifatida IBM
va Microsoft kompaniyalarini ko'rsatish mumkin. IBM to'liq o'zining yirik
tadqiqot markazini Almaden shahridagi dasturiy ta’minot texnologiyalari sohasini
KDD algoritmlarini ishlab chiquvchi va ishlovchi KDD sistemalarini qurishga
yo'naltirdi. Buning natijasida asosan meynffreym va qudratli ishchi stansiyalar
uchun mo'ljallangan maxsus KDD sistemalarining butun bir oilasini ishlab chiqdi.
Masalan, Advanced Scout deb ataluvchu maxsuslashgan sistemalardan biri
jamoalarda o'yinchilar turli kombinatsiyalari samaradorligini tahlil qilish uchun va
o'yin strategiyasini boshqarish uchun AQSh ning Milliy basketbol assotsatsiyasida
qo'llanilmoqda. Bu maxsuslashtirilgan sistema million dollordan ortiq turadi va
MBA ning bir nechta jamoalari foydalanmoqda.
Micrisoft firmasi bevosita Redmond shahridagi shtab - kvartirasi binosida
joylashgan firmasida KDD markazini tashkil etdi va bu muammo bilan universitet
va ilmiy akademiya markazlarida shuullangan mashxur mutaxassislarni taklif etdi.
Bu markazni avval NASA reaktiv harakat laboratoriyasida ishlagan va 1996 yilda
fanni rivojlantirish bo'yicha eng faxrli amerika mukofotlaridan birini olgan
professor Usama Fayadd boshqarmoqda.
Microsift misolida ko'rish mumkinki, eng yirik kompyuter kompaniyasi
ham bu yangi texnologiyaga katta ahamiyat bermoqda va ma’lumotlarning
intellektual tahlil qilish uchun yangi qudratli mahsulotlar chiqarmoqda. Bundan
tashqari, KDD texnologiyalari rivojlantirish bilan shuullanuvchi uncha katta
bo'lmagan juda ko'p firmalar mavjud. Bu kompaniyalar AQSh da juda ko'p, lekin
96

Yevropa, Angliya, Fransiyada ham mavjud. Bunday firmalardan biri - eng qadimgi
va mashxur IDIS dasturini ishlab chiqadigan IntelligenceWare kompaniyasi. Yana
Acknosoft (Fransiya), Integral Solutions (Angliya) va boshqa ko'plab firmalarni
olish mumkin.
Bu muammolar bilan universitetlarda ham shuullanadilar. Eng qadimgi
tadqiqot guruhlari: AQShda Wichita State University, Germaniyada - GMD guruhi
hisoblanadi. Hozir bu tadqiqotlarni ta’minlovchi yetarlicha rivojlangan axborot
infratuzulmalar mavjud va muntazam halqaro anjumanlar o'tkazilmoqda. KDD
masalalariga bashlangan jurnal nashr etilmoqda. KDD usullarini biologiya va
tibbiyotda
qo'llashga
katta
e’tibor
berilmoqda.
Base4
Bioinformatics,
BioDiscovery, DNA Star, Molecular Simulations, Anvil Informatics, Bioreason,
Cellomics, Incyte Pharmaceuticals firmalari ham yangi tadqiqot vositalarni
yaratish bilan bog'q rivojlanishlar olib bormoqda.
Keltirilgan ma’lumotlardan ko'rinadiki hozirgi paytda KDD tadqiqotlari
rivoji yuqori darajaga ko'tarilda.
KDD turli bilim sohalarining sintezi sifatida [23, 24]. Statistik tamondan
va neyron to'rlari tamondan ma’lumotlar bazasini intellektual tahlil qilish
sistemalari, ya’ni KDD sistemalari o'z usullari va maqsadlariga ko'ra ikkita turli
sinflarga ajratishga asos bo'ldi. KDD usullari statistik usullarga nisbatan qanday
munosabatda turadi? Ayrim statistik usullar KDD usullariga qaraganda kichikroq
qurollar bo'lib hisoblanadi. KDD usullari tamonidan tipik masalalarni yechishda
standart xossalarida kombinatsiya tarzida foydalaniladi. Shuning uchun KDD ilmiy
vazifasi yuqori darajada yechish sistemalarini ishlab chiqish hisoblanadi. Buni
misol bilan tushuntirib berish mumkin. Avvaldan qo'llaniluvchi va ommoviy
bog’lanishlarni chiziqli regressiya kabi topish statistik usullari mavjud. Bu usul
ma’lumotlarda bir o'zgaruvchilarni boshqalari orqali chiziqli ifodalar ko'rinishida,
ya’ni faqat erkin o'zgaruvchilar bo'yicha chiziqli hadlarning faqat chiziqli hadlar
orqali bog’lanishlarini topishga imkon beradi. Lekin avval regression formula
chiquvchi o'zgaruvchilar ro'yxati tayinlangan bu modelga kiruvchi regression
koeffitsentlar standart algoritmlardan birida joylashgan bu usulning talqinidan
foydalanilgan. Shunday qilib, qandaydir bashorat qilinga formula olingan.
KDD tasnifida bu usulning rivojlanishi bo'lib, juda ko'p sondagi mavjud
erkin parametrlardan eng muhumlari faqat birinchi o'zgaruvchi, ya’ni kuchli ta’sir
ko'rsatuvchilarini tanlashga imkon beruvchi erkin o'zgaruvchilarni avtomatik
tanloviga ega multichiziqli regression usul hisoblanadi. Haqiqatan bu usul biror
qo'llash sxemasi doirasida chiziqli regressiv standart usuldan foydalaniladi. Bu
bilan izlanayotgan model haqida yanada kamroq bilishga imkon beradi. Oldindan
modelga kiruvchi erkin o'zgaruvchilar aniq jamlanmasi haqida farazlarni ilgari
surmaslik lozim. Usullarning umumiy konsepsiyasi - inson aralashuvini
minimallashtirish, tahlilni imkon boricha avtomatik bajarishdir. Barcha mavjud
KDD usullari alohida, elementar amallar sifatida klassik statistik usullardan
foydalanadi.
KDD usullari bevosita ma’lumotlar bazasi nazariyasi bilan bog'q, chunki
biror arxitekturasi relatsion yoki qandaydir boshqacha real ma’lumotlar bazasi
97

bilan ishlashlari lozim. Bu KDD algoritmlari odatda hisoblashlar vaqtida juda ko'p
vaqt sarflashni talab qiladi, chunki ulardan ko'plarini ko'p o'lchovli fazolarda
adaptiv izlashga asoslangan hisoblashlarni, turli xil farazlar massivli tanlashini o'z
ichiga oladi. Bu jarayonlar juda katta hisoblash quvvatini talab etadi. Shuning
uchun KDD usullarini kompyuterda amalga oshirish samaradorligini ta’minlash
uchun axborot parallel qayta ishlashi, ko'p sondagi masalalarni bir vaqtda
yechishni ta’minlovchi algoritmlarni yaratish masalalariga e’tibor qaratiladi.
KDD usullarining rivojiga sun’iy intellektni tadqiq etish bo'yicha ishlar
kushli ta’sir ko'rsatmoqda. Sun’iy intellektning ana’anaviy masalalari asosan
predmet sohasidan ekspert mutaxassislar mavjud bilimlardan samarali foydalanish
va bu bilimlar asosida qandaydir zid bo'lmagan mantiqiy xulosalar chiqarish,
ekspert yaratgan modellarni murakkablashtirishdan iborat. KDD usullarida
qandaydir jihatdan masala teskaricha qo'yilgan. Eng qizii, ma’lumotlar haqida
bilish lozim bo'lgan narsa hech kimga, hatto ekspertlarga ham oldindan ma’lum
emas. Faqat berilgan yoki boshqacha aytganda “xom” ma’lumotlar bor, aksincha,
ma’lumotlardan muhum qoidalar, bog’lanishlar, modellarni chiqarib olish kerak.
Shu bilan birga ma’lumotlardan olingan modellar qarorlarini qabul qilish
uchun foydalanilishi sababli ular odatda ekspertlar bergan ma’lum modellar bilan
muvofiqlashishi lozim. Boshqachi aytganda, KDD usullarini amalga oshiruvchi
sistemalar mavjud bilimlar ombori va ekspert sistemalari bilan interfeysga ega
bo'lishi lozim. Shuning uchun bu sohaning sun’iy intellekt bilan o'zaro aloqasi
juda kuchli. Ba’zi KDD usullari sun’iy intellektning ta’limiy sistemalari
sohalaridan olingan. Xususan, sinflash masalalarini yechishda ta’lim sistemalarini
yaratishda ishlab chiqilgan ba’zi usullardan foydalaniladi.
Nihoyat, KDD algoritmlari ma’lum darajada ma’lumotlarni tahlil
qilishning turli maxsuslashtirilgan usullaridan va ular qo'llaniladigan sohalarda
foydalaniladi. Bu moliyaviy tahlilda va oqsil strukturasi tahlili, yangi dorilar
sintezi yoki boshqa o'ziga xos tashkil etilgan ma’lumotli sohalarda qo'llaniladigan
KDD usullari juda turlicha va ma’lum darajada bu sohalar xususiyati va
yechiladigan masalalar tipi bilan aniqlanadi.
KDD-masala tu rlari va molellarning tuzulishlari [23, 24]. Turli xil KDD
usullari bilan yechiladigan va turlicha samaradorlikdagi masalalarni ikki turga
ajratish mumkin:
1. Birinchi masalalar sinfi model chiqarishda ma’lumotlar mavjud
bo'lmagan vaziyatga duch kelganda, kelgusidagi qarorni bashorat qilish va qabul
qilish uchun foydalanishi mumkin bo'lgan ma’lumotlardan turli modellarni topish
va qurishdan iborat. Bunda tabiiyki, model imkon boricha aniqroq ishlashi, u
statistik ahamiyatli va oqlanishi lozim.
2. Ikkinchi turdagi masalalarda ma’lumotlarda bog’lanishlar mohiyatini,
turli omillarning o'zaro ta’sirini, ya’ni turli sistemalarning emperik modellarini
qurishga asosiy etibor qaratiladi, bu yerda asosiy moment - qurilayotgan
modellarning inson qabul qilishi uchun osinligi va ochiqligi hisoblanadi. Bu yerda
biz uchun sistema yaxshi boshoratlashi va kelgusida yaxshi ishlashi muhim emas,
lekin mavjud ma’lumotlar massivida aniqlanadigan omillarning o'zaro ta’sirini
98

tushunish
muhimdir.
Topilgan
qonuniyatlar
konkret
tahlil
etiladigan
ma’lumotlarning o'zaro xos belgisi bo'ladi va hech joyda boshqa o'rganilmaydi,
lekin bizga baribir ularni bilishimiz zarur.
Bu turli tipdagi masalalar ekanligini ta’kidlaymiz va shuning uchun ular
turli vositalar bilan yechilishi lozim. Masalan, neyron to'rlari birinchi turdagi
masalalarni yaxshi yechadi, lekin bashoratlash masalalarini ikkinchi turdagi
masalalarni yechishga hech qanday yordam bera olmaydi.
Haqaqatan, bunday sistemalarni o'qitish natijasida olingan bilimlar
strukturali tashkil etilgan neyronlar orasidagi bog’lanishlar vazni ko'rinishida
avtomatik qayd etiladigan neyron to'ri olinadi. Neyronlarning umumiy soni yuzlab
yoki undan ham ko'proq bo'lishi mumkin. Bunday sistema bevosita inson
tamonidan qabul qilingan va tushunish uchun mos emas.
Modellar qurish masalasiga to'xtalamiz. Uni ikkita muhum qismiy tipga
ajratamiz. Birinchi - bu siflashtirish masalasidir. Qandaydir yozuvlar yoki
obyektlar tasvirlari mavjud va ularning har biri haqida sinflarning tayinlangan
chekli to'plamidagi biror sinfga tegishli ekanligi oldindan ma’lum. Ixtiyoriy
obyektni bu sinflardan biriga tegishli bo'lishini aniqlab boradigan qoida yoki
qoidalar majmuasini ishlab chiqish kerak. Masalan, bunday turdagi klassik masala
- bu tibbiy tashxislash. Bizda mijozlar tavsifi - qandaydir tibbiy testlar,
so'rovnoma ma’lumotlari, ma’lumotlar tahlili va boshqalar oldindan ma’lum
sinflar - kasalliklar tashxislari berilgan bo'lsin. Biz aniq bilamizki, ba’zi mijozlar
diabed bilan kasallangan, qolganlari esa kasallanmagan. Keyin biz yangi mijoz
uchun o'sha tibbiy tahlildan ma’lumotlarni yiishimiz va tahlillar asosida qanday
qilib bilish mumkinligi masalasini qo'yamiz. Ikkinchi qismiy tur esa qandaydir
uzluksiz sonli parametrni bashoratlash masalalaridan iborat. Bunga masalan, ayrim
bemor muolajasini yoki klinik xarajat va daromadlarini bashoratlash masalasini
olish mumkin. Bu bashoratdan tibbiy davolanishni davom ettirish, yoki
almashtirish, yoki yangi jixozni sotib olish haqidagi bizning qarorimizga bog'q
bo'ladi. Boshqa ko'pchilik sohalarda uzluksiz qiymatlarni bashoratlash muhum
ahamiyatga ega. Hozirda mavjud KDD tijorat sistemalari asosan sinflash
masalalarini yechadi. Lekin bunday vaziyatda sinflash masalalari uzluksiz
qiymatlarni bashorat qilish masalalariga nisbatan ko'pligidan emas, sinflash
usullari ko'proq o'rganilgan va uzluksiz son qiymatini bashoratlash usullariga
qaraganda amalga oshirish qulay.
Endi ikkinchi tur masalasalarini, ya’ni mavjud ma’lumotlarni tavsiflash,
ularda unson tamonidan fikrlay olish maqsadida ularda bog’lanishlarni topish
masalalarini qaraymiz. Bu sinf masalalari quyidagicha qo'yiladi:
• Birinchidan, turli ko'rsatkichlar va o'zgaruvchilar orasidan funksional
bog’lanishlarni inson tavsiflaydigan shaklda topish masalasidir. Odatda funksional
bog’lanish haqida gapirganda uzulish sonli qiymatlari orasidagi bog’lanishlar
tushuniladi. Lekin usul jihatidan oddiy sonli bo'ladi (“ha / yo'q”) va odatdagi
toifali o'zgaruvchilarni o'z ichiga oluvchi bog’lanishlarni qarash mumkin.
• Ikkinchidan, qaralayotgan turga umumlashgan holda klasterlash masalalari
kiradi. Obyektlar tavsiflarining qandaydir majmuasi berilgan bo'lsin. Bu obyektlar
99

biror yagona massani tashkil etmaydi va tabiiy ravishda qandaydir guruhlarga
ajraladi. Masalan, o'pka kasalliklari, dermatitam yoki qon aylanish sistemalari
buzulishi bilan jabrlanayotgan bemorlar guruhlari. M a’lumotlar bazasidagi mavjud
axborotlar asosida bu tabiiy guruhlarni guruhlarga yoki klasterlarga ajratishni
xoxlar edik. Bu klasterlar aniq tibbiy ma’niga ega, bunday guruhlash nimani
anglatadi va u nima bilan bog'qligini tushunish qiziqarli. Bemorlar butun
to'plamining ba’zi xarakterli guruhlarga bo'linishi tibbiy muassasa ishini to'ri
tashkil etishga yordam berishi mumkin.
• M a’lumotlar tavsifiga talluqli uchunchi masala favqulotda vaziyatlar,
yozuvlar, fovqulotdagi holatlarni topish masalasidir. Ular asosiy yozuvlar to'plami
(bemorlar guruhi)dan qandaydir keskin farq qiladigan favqulotdagi hollarni
bilishda foydalanishi mumkin. Bu yozuvlar tasodifiy ko'rinishda bo'lishi mumkin.
Masalan, kompyuterga ma’lumotlarni kirititishda operator xatoga yo'l qo'yishi
mumkin. Agar operator xato qilib o'nli nuqtani kiritsa, bunday xato navbatdagi
jarayonga birdaniga katta ta’sir ko'rsatadi. Bunday xatolarni keyingi tadqiqotlardan
chiqarib tashlash lozim bo'ladi. Chunki ko'pgina usullarda keskin farq qiluvchi
nuqtalar, kamyob tipik bo'lmagan hollarga juda sezilarli darajada ta’sir ko'rsatadi,
ikkinchi tamondan esa, ayrim favqulotda yozuvlar mustaqil tadqiqot uchun
qiziqish uyotishi mumkin. Chunki ular ba’zi kamyob, lekin muhum anomal
kasalliklarni ko'rsatishi mumkin. Hatto bu yozuvlar identifikatsiyalashda,
obyektlar va hodisalar mohiyatini tushunishda juda foydali bo'lishi mumkin.
• Nihoyat oxirgi bosqichda qaralayotgan ma’lumotlarni intellektual tahlil
qilish masalalari sinfiga kiritiladigan masalalar turi ma’lumotlarni umumlashtirish
(data summarization) atamasi bilan aniqlanadi. Bu bilan ma’lumotlarni qisqacha
yakuniy xarakteristikasini yozish mumkin. Aytaylik, agar bizda mavjud
ma’lumotlar massivi, unga kiruvchi parametrlar qiymati biror qat’iy cheklashga
bo'ysunsa, biz bu cheklashlarni aniqlashni xoxlar edik. Masalan, infark miokardani
boshidan kechirgan o'ttiz yoshdan oshmagan bemorlar bo'yicha ma’lumotlar
to'plamini o'rganayapmiz. Agar biz to'satdan bu tanlanmada tavsiflangan barcha
bemorlar bir kunda 5 qutudan sigaret chekadi yoki 95 kg dan ko'p bo'lmagan
vazinga ega bo'lmasligini aniqlasak, bu bizning ma’lumotlarni tushinish nuqtaiy
nazaridan juda muhim va bu amaliy ahamiyatga ega yangi bilim. Shuday qilib,
ma’lumotlarni umumlashtirish (data summarization) - bu o'rganilayotgan
ma’lumotlar tanlanmasidagi barcha yoki deyarli barcha yozuvlar uchun o'rinli,
lekin bunday formatdan barcha fikr qilunuvchi yozuvlar ko'pxilligidan yetarlicha
kam uchraydigan va masalan, maydonlar qiymatlarining o'rta taqsimotlari bilan
harakterlanadigan qandaydir faktlarni topish. Agar biz taqqoslash uchun barcha
bemorlar bo'yicha ma’lumotni olsak, u holda yo kuchli chekuvchi, yoki juda semiz
odamlar foizi uchalik ko'p bo'lmaydi. Buni sinflashtirishning oshkora masalasi
deyish mumkin. Lekin bizga bizdagi ma’lumotlar bilan berilgan faqat bitta sinf
berilgan va ular mumkin bo'lgan yozuvlar faraz qilinuvchi to'plami bilan barcha
qolgan faraz qilinuvchi hollar to'plami bilan sinflanadi.
Berilgan m a’lum otlardan foydali m a’lum otlarga o'tish bosqichlari [23,
24]. KDD turli usullari bilan yechiladigan asosiy masalalar turlarini qaraymiz.
100

Turli masalalarini yechishda qo'llaniladigan KDD usullari mavjud. Qaralgan
masalalaming biror turiga qo'llanishga yo'naltirilgan usullar bor. Endi biz
ma’lumotlarni KDD usullari yordamida ixtiyoriy tadqiq etishga kiradigan asosiy
bosqichlar yoki qadamlar haqida gapiramiz. Yangi bilimni topish va uning
qiymatini bohaloshning asosiy siklini qaraymiz (4.7-rasm).
4.7-rasm. Yangi bilimni topish va uning qiymatini bohaloshning asosiy sikli.
Bu qadamlardan ba’zilari ayrim masalalarda bo'lmasligi mumkin, lekin
asosiy usullarning barchasi zarur bo'lib, ular u yoki bu shaklda qatnashadi.
•
Birinchi bosqich mohiyati bo'yicha KDD usullari bilan ma’lumotlarni
tahlil qilishdan oldin kelib, ma’lumotlar sistemalarini konkret amalga oshirishlarini
qo'llash uchun mos keladigan ko'rinishga keltirishdan iborat. Faraz qilaylik, bizda
matinlar bor va biz aftamatik rubrikator, qandaydir anotatsiyalanish aftamatik
klasifikatorni, kassaliklar tavsifini va boshqalarni qurishni (tuzishni) hohlaymiz
bizga berilgan hom axborat electron ko'rinishdagi matnlardan iborat, lekin mavjud
KDD sistemalaridan birortasi ham bevosita matnlar bilan ishlay olmaydi. Matnlar
bilan ishlash uchun biz berilgan matn ma’lumotlardan dastlab qandaydir hosilaviy
parametrlarini olishimiz lozim. Masalan, tayanch iboralarini uchratish, chastotasi
101

mulohazalarini o'rtacha uzunligi, mulohazalardagi u yoki bu so'zlarning
muvofiqligini xarakterlovchi parametrlarini va boshqa qisqacha aytganda, biz
berilgan matnni xarakterlovchi sonli yoki sonli bo'lmagan parametrlarning
qandaydir aniq jamlanmasini ishlab chiqishimiz lozim. Bu masala shu ma’noda
avtamatlashganki, bu parametrlarning sistemasini tanlash inson tamonidan
bajariladi. Parametrlar qiymatlari ma’lumotlarni dastlabki ishlashning ma’lum
texnologiyasi doirasida avtamatik hisoblanishi mumkin. Tavsiflovchi parametrlar
tanlangandan
keyin
o'rganilayotgan
ma’lumotlar
alohida
obyekt
yoki
o'rganilmagan obyekt holatini ifodalaydi. Har bir bo'limi esa barcha tadqiq
etilayotgan obyektlar parametrlari xossallari yoki belgilarini ifodalaydi. KDD
nazariyasida bunday jadvalning satrlari ma’lumotlar ba’zasi nazariyasidagi kabi
yozuvlar deb ustunlari maydonlari deb atash qabul qilingan. Amaldagi barcha
mavjud KDD sistemalari faqat shunday to'ri burchakli jadvallar bilan ishlaydi.
•
Olingan to'rtburchakli jadval ham KDD usullarini qo'llash uchun juda
kam material bo'lib hisoblanadi va unga kiruvchi ma’lumotlarga dastlab qayta
ishlash zarur. Birinchidan, jadval butun ustun uchun bir xil qiymatlarga ega
parametrlarni o'z ichiga olish mumkin. Agar tadqiq etilayotgan obyektlar faqat
bunday belgilar bilan xarakterlansa, barcha tadqiq etilayotgan obyektlarabsalyut
identikbo'lar edi. Demak, oz belgilar tadqiq etiluvchi obyektlarni hech qanday
induvidual almashtirilgan bo'lar edi. Demak, ularni tahlildan chiqarish lozim yoki
jadvalda shunday xarakteristik belgi mavjudki, barcha yozuvlarda qiymati turlicha.
M a’lumki, biz bu maydonda hech qanday foydalana olmaymiz va uni chiqarib
tashlaymiz. Nihoyat, bunday maydonlar juda ko'p bo'lishi mumkin va agar biz
ularni tadqiqotga kiritsak, u holda bu hisoblash vaqtini keskin ko'paytiradi. Chunki
KDD ning barcha usullari uchun hisoblash vaqti parametrlar soniga bog'q. Shu
bilan birga hisoblash vaqtining yozuvlar soniga bog’lanishi chiziqli yoki chiziqliga
yaqin. Shuning uchun ma’lumotlarni dastlabki qayta ishlash ctrukturasi sifatida
topilgan tadqiqot kontekstida eng muhim belgilar to'plami ajratish, o'zgamas yoki
haddan tashqari
ehtimolligi
tufayli
qo'llanilmaydiganlarini
tashlash va
izlanayotgan bog’lanishga eng ehtimolli kiradiganlarini ajratish zarur. Buning
uchun odatda korrelyatsion tahlil, chiziqli regressiyalar va hokozaolarni qo'llashga
asoslangan statistik usullardan, ya’ni tez va bir parametrlarning ikkibchisiga
ta’sirini taqribiy baholashga imkon beruvchi usullardan foydalaniladi.
Biz ma’lumotlarning jadval ustunlari bo'yicha, belgilar bo'yicha “tozalash”
ni muhokama qildik. Xuddi shunday, ma’lumotlarni jadval satrlari bo'yicha,
yozuvlar bo'yicha dastlabki tozalashini o'tkazishimiz zarur. M a’lumotlarning
ixtiyoriy real bazasi odatda xatolarga juda noto'ri aniqlangan qiymatlarga
qandaydir favqulodda vaziyatlarga mos keluvchi va boshqa buzulishlarga ega. Ular
tahlilning keyingi bosqichlarda qo'llaniladigan KDD usullari samaradorligini
keskin kamaytirishi mumkin. Hatto agar bunday “chaqiruv”lar xatolar bo'lmasa
ham, kamyob favqulotda holatlardan iborat bo'lsa ham ulardan baribir
foydalanilmaydi. Chunki bir nechta nuqtalar bo'yicha izlanayotgan bog’lanish
bo'yicha statistik ahamiyatli xulosa chiqarish mumkin emas. Bu dastlabki qayta
ishlash yoki ma’lumotlarni Preprotsesingi ikkinchi bosqichini tashkil etadi.
102

• Uchunchi bosqich - bu KDD usullarini qo'lash. Bu qo'lashni senariyalari
turlicha bo'lishi mumkin va turli metodlarning kombinatsiyalarini o'z ichiga olishi
mumkin. Ayniqsa agar foydalanilayotgan usullar ma’lumotlarni turli nuqtaiy
nazardan tahlil qilishga imkon berdi. Bu tadqiqot bosqichini DATA mining deb
atash qabul qilingan. Navbatdagi bo'limlar bu usullarni batfshilroq qarashga
baishlangan.
• Navbatdagi bosqich - bu olingan natijalarni verifikatsiyalash va
tekshirishdan iborat. Bu usul eng sodda va ko'p foydalaniladigan usul bo'lib, bizda
mavjud tahlil qilmoqchi bo'lgan barcha ma’lumotlarni ikkita guruhga ajratamiz.
Odatda ulardan biri katta hajmda, ikkinchisi kichik hajmda bo'ladi. Katta guruhda
biz u yoki bu KDD usullarini qo'lab bizning masalada talab qilingan modelar,
bog’lanishlarni olamiz, kichik gurihda esa biz usullarni tekshiramiz, test guruhi va
o'qish uchun foydalanilgan guruh orasidan qoida bo'yicha tuzilgan model
qanchalik adekvat statistik ahamiyatli ekanligi haqida xulosalar chiqaramiz.
Boshqa ko'plab murakkabroq verifikatsiya usullari mavjud. Masalan, kesishmali
tekshirish, budstrep va boshqlar. Ular chiqarilayotgan modellari ma’lumotlarni
ikkita guruhga ajratmasdan ahamiyatini baholashga imkon beradi. Quyida biz bu
usullarni batafsil qarab o'tamiz.
• Nihoyat, beshinchi bosqich - bu avtomatik olingan bilimlarning inson
tamonidan qarorlar qabul qilish, olingan qoida va bog’lanishlarni ma’lumotlar
bazasiga qo'yish va boshqalardan foydalanish maqsadida tasniflash. Beshinchi
bosqich deganda ko'pincha KDD texnologiyalari va ekspert sistemalari
texnologiyalar chegarasida joylashgan usullardan foydalanish tushuniladi. Uning
qanchalik samarali bo'lishi qo'yiladigan masalani yechishmuvaffaqqiyati jiddiy
ta’sir ko'rsatadi.
Bu qaralgan bosqich bilan qat’iy ma’noda KDD sikli tugaydi. Topilagan
yangi bilim yakuniy qiymatlilik bahosi avtomatlashtirilgan yoki an’anaviy tahlil
chegarasidan chiqib ketadi va qo'lga kiritilgan bilim asosida qabul qilingan qarori
hayotga tadbiq etilgandan keyin yangi bilimni amaliyotda tekshirishdan so'ng
amalga oshirilishi mumkin. Yangi bilim yordamida erishilgan amaliy natijalarni
tadqiq etish KDD visitalari bilan topilgan yangi bilim qiymatlilik bahosini
yakunlaydi.
T ajriba orttirish uchun misol va topshiriqlar.

Download 0.65 Mb.

Do'stlaringiz bilan baham:

1 ... 8 9 10 11 12 13 14 15 16