Guruh talabasi Uzbekov Baxtiyor


Klasterlash sifatini o'lchash


Download 159.35 Kb.
bet6/8
Sana28.12.2022
Hajmi159.35 Kb.
#1012941
1   2   3   4   5   6   7   8
Bog'liq
012-18 Uzbekov Baxtiyor

10.6.3. Klasterlash sifatini o'lchash
Aytaylik, siz berilgan ma'lumotlar to'plamining klasterlashish tendentsiyasini baholadingiz. Shuningdek, siz to'plamdagi klasterlar sonini oldindan belgilashga harakat qilgan bo'lishingiz mumkin. Endi siz ma'lumotlar to'plamining klasterlarini olish uchun bir yoki bir nechta klasterlash usullarini qo'llashingiz mumkin. "Usul tomonidan yaratilgan klasterlash qanchalik yaxshi va biz turli usullar bilan yaratilgan klasterlarni qanday taqqoslashimiz mumkin?"
Klasterlash sifatini o'lchash uchun bizda bir nechta usullar mavjud. Umuman olganda, bu usullarni asosiy haqiqat mavjudligiga qarab ikki guruhga bo'lish mumkin. Bu erda, asosiy haqiqat ko'pincha inson mutaxassislari yordamida qurilgan ideal klasterdir.
Agar asosiy haqiqat mavjud bo'lsa, uni guruh haqiqati va o'lchovi bilan taqqoslaydigan tashqi usullardan foydalanish mumkin. Agar asosiy haqiqat mavjud bo'lmasa, biz klasterlarning qanchalik yaxshi ajratilganligini hisobga olgan holda klasterning yaxshiligini baholaydigan ichki usullardan foydalanishimiz mumkin. Asosiy haqiqatni "klaster belgilari" ko'rinishidagi nazorat deb hisoblash mumkin. Demak, tashqi usullar nazorat qilinadigan usullar sifatida ham tanilgan, ichki usullar esa nazoratsiz usullardir.
Keling, har bir toifadagi oddiy usullarni ko'rib chiqaylik.
Tashqi usullar
Haqiqat asosi mavjud bo'lganda, biz klasterlashni baholash uchun uni klasterlash bilan solishtirishimiz mumkin. Shunday qilib, tashqi usullarda asosiy vazifa, asosiy haqiqatni hisobga olgan holda, klasterlash uchun ball, , belgilashdir. Tashqi usulning samarali bo'lishi ko'p jihatdan u foydalanadigan Q o'lchoviga bog'liq.
Umuman olganda, klasterlash sifati bo'yicha Q o'lchovi, agar u quyidagi to'rtta muhim mezonga javob bersa samarali bo'ladi:
■ Klasterning bir xilligi. Buning uchun klasterdagi klasterlar qanchalik toza bo‘lsa, klasterlar shunchalik yaxshi bo‘lishini talab qiladi. Aytaylik, haqiqat asosi D ma'lumotlar to'plamidagi ob'ektlar L1, …, Ln toifalariga tegishli bo'lishi mumkinligini aytadi. Klasterlashni ko'rib chiqaylik, , bunda klaster Li, Lj (1 ≤ i < j ≤ n) ikkita toifadagi ob'ektlarni o'z ichiga oladi. C2 mos ravishda Li va Lj ob'ektlarini o'z ichiga olgan ikkita klasterga bo'linganidan tashqari, klasterlashni ham ko'rib chiqing. Klasterning bir xilligini hisobga olgan holda klaster sifati o'lchovi Q ga nisbatan yuqori ball berishi kerak, ya'ni .
■ Klaster to'liqligi. Bu klaster bir xilligining o'xshashidir. Klasterning to'liqligi klasterlash uchun, agar ikkita ob'ekt asosiy haqiqatga ko'ra bir xil toifaga tegishli bo'lsa, ular bir xil klasterga tayinlanishini talab qiladi.
Klasterning to'liqligi klasterni bir xil toifaga (asosiy haqiqatga ko'ra) tegishli ob'ektlarni bir xil klasterga belgilashni talab qiladi. C1 va C2 ​​klasterlarini o'z ichiga olgan klasterlashni ko'rib chiqing, ularning a'zolari asosiy haqiqatga ko'ra bir xil toifaga kiradi. Klasterlash bir xil bo'lsin, faqat C1 va C2 ​​bir klasterda birlashtiriladi. Keyin, klasterning to'liqligini hisobga olgan holda, klasterlash sifati o'lchovi Q ga yuqori ball berishi kerak, ya'ni.
■ latta sumka. Ko'pgina amaliy stsenariylarda ko'pincha boshqa ob'ektlar bilan birlashtirib bo'lmaydigan narsalarni o'z ichiga olgan "latta sumka" toifasi mavjud. Bunday toifa ko'pincha "turli xil", "boshqa" va boshqalar deb ataladi. Rag'li xalta mezonida aytilishicha, bir jinsli ob'ektni sof klasterga qo'yish uni latta sumkaga solib qo'yishdan ko'ra ko'proq jazolanishi kerak. Klaster va klasterni ko'rib chiqaylik, shundayki C dagi barcha ob'ektlar o bilan belgilangan bittadan tashqari, asosiy haqiqatga ko'ra bir toifaga kiradi. Shu bilan bir xil klasterni ko'rib chiqaylik, bundan mustasno o C' ≠ C klasteriga tayinlangan, chunki C' asosiy haqiqatga ko'ra turli toifadagi ob'ektlarni o'z ichiga oladi va shuning uchun shovqinli. Boshqacha qilib aytganda, C' in - latta sumkasi. Keyin, latta sumkasi mezoniga mos keladigan Q klasterlash sifati o'lchovi ga yuqori ball berishi kerak, ya'ni.
■ Kichik klaster xotirasi. Agar kichik toifa klasterlashda kichik bo'laklarga bo'lingan bo'lsa, bu kichik qismlar shovqinga aylanishi mumkin va shuning uchun kichik toifani klasterlashdan aniqlab bo'lmaydi. Kichik klasterni saqlash mezoni kichik toifani bo'laklarga bo'lish katta toifani bo'laklarga bo'lishdan ko'ra zararliroq ekanligini bildiradi. Ekstremal holatni ko'rib chiqing. D n + 2 ob'ektdan iborat ma'lumotlar to'plami bo'lsin, shundayki, asosiy haqiqatga ko'ra, o1, …, on bilan belgilangan n ta ob'ekt bir toifaga, qolgan ikkita ob'ekt esa on+1, on+2 bilan belgilanadi, boshqa toifaga kiradi. Klasterlash uchta klasterga ega deylik, C1 = {o1, …, on}, C2 = {on+1} va C3 = {on+2}. Klasterlash uchta klasterga ega bo'lsin, ya'ni C1 = {o1, …, on-1}, C2 = {on} va C3 = {on+1, on+2}. Boshqacha qilib aytganda, C1 kichik toifani, C2 esa katta toifani ajratadi. Kichik klasterlarni saqlaydigan klasterlash sifati o'lchovi Q ga yuqori ball berishi kerak, ya'ni.
Ko'pgina klaster sifat ko'rsatkichlari ushbu to'rtta mezondan ba'zilarini qondiradi. Bu erda biz barcha to'rtta mezonga javob beradigan BCubed aniqligi va eslab qolish ko'rsatkichlarini taqdim etamiz.
BCubed berilgan ma'lumotlar to'plamidagi klasterlashdagi har bir ob'ektning aniqligi va eslab qolish darajasini asosiy haqiqatga muvofiq baholaydi. Ob'ektning aniqligi bir xil klasterdagi qancha boshqa ob'ektlar ob'ekt bilan bir xil toifaga tegishli ekanligini ko'rsatadi. Ob'ektni eslab qolish bir xil toifadagi qancha ob'ektlar bir xil klasterga biriktirilganligini aks ettiradi. Rasmiy ravishda D = {o1, …, on} ob'ektlar to'plami bo'lsin va D dagi klaster bo'lsin. L (oi) (1 ≤ i ≤ n) oi toifasi asosli haqiqat bilan berilgan va C( oi) ichida oi ning klaster_ID bo'lishi. U holda ikkita ob'ekt, oi va oj, (1 ≤ i, j, ≤ n, i ≠ j) uchun klasterlashda oi va oj o'rtasidagi munosabatning to'g'riligi (10.28) bilan berilgan.

BCubed aniqligi (10.29) sifatida aniqlanadi.

BCubed esga olish sifatida aniqlanadi
(10.30)


Download 159.35 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling