Guruh talabasi Uzbekov Baxtiyor


Klasterlar sonini aniqlash


Download 159.35 Kb.
bet5/8
Sana28.12.2022
Hajmi159.35 Kb.
#1012941
1   2   3   4   5   6   7   8
Bog'liq
012-18 Uzbekov Baxtiyor

10.6.2. Klasterlar sonini aniqlash
Ma'lumotlar to'plamidagi klasterlarning "to'g'ri" sonini aniqlash nafaqat k-vositalari kabi ba'zi klasterlash algoritmlari bunday parametrni talab qilgani uchun emas, balki tegishli klasterlar soni klaster tahlilining to'g'ri granularligini nazorat qilgani uchun ham muhimdir. Buni klaster tahlilida siqilish va aniqlik o'rtasidagi yaxshi muvozanatni topish deb hisoblash mumkin. Ikki ekstremal holatni ko'rib chiqing. Agar butun ma'lumotlar to'plamini klaster sifatida ko'rib chiqsangiz nima bo'ladi? Bu ma'lumotlarning siqilishini maksimal darajada oshiradi, ammo bunday klaster tahlili hech qanday qiymatga ega emas. Boshqa tomondan, ma'lumotlar to'plamidagi har bir ob'ektni klaster sifatida ko'rib chiqish eng yaxshi klasterlash ruxsatini beradi (ya'ni, ob'ekt va tegishli klaster markazi orasidagi nol masofa tufayli eng aniq). K-vositalari kabi ba'zi usullarda bu hatto eng yaxshi narxga ham erishadi. Biroq, har bir klasterda bitta ob'ektga ega bo'lish hech qanday ma'lumotlarni umumlashtirishga imkon bermaydi.
Klasterlar sonini aniqlash oson emas, ko'pincha "to'g'ri" raqam noaniq bo'lgani uchun. To'g'ri klasterlar soni qancha bo'lishi kerakligini aniqlash ko'pincha ma'lumotlar to'plamidagi tarqatish shakli va miqyosiga, shuningdek, foydalanuvchi tomonidan talab qilinadigan klasterlash ruxsatiga bog'liq. Klasterlar sonini baholashning ko'plab usullari mavjud. Bu erda biz bir nechta oddiy, ammo mashhur va samarali usullarni qisqacha tanishtiramiz.
Oddiy usul - n nuqtadan iborat ma'lumotlar to'plami uchun klasterlar sonini taxminan o'rnatish. Kutishda har bir klasterning ochkolari bor.
Tirsak usuli klasterlar sonini ko'paytirish har bir klasterning klaster ichidagi dispersiya yig'indisini kamaytirishga yordam berishi mumkinligini kuzatishga asoslanadi. Buning sababi shundaki, ko'proq klasterlarga ega bo'lish bir-biriga ko'proq o'xshash ma'lumotlar ob'ektlarining nozik guruhlarini olish imkonini beradi. Biroq, agar juda ko'p klasterlar hosil bo'lsa, klaster ichidagi dispersiyalarning yig'indisini kamaytirishning marjinal ta'siri tushishi mumkin, chunki birlashgan klasterni ikkiga bo'lish faqat kichik pasayish imkonini beradi. demak, klasterlarning to'g'ri sonini tanlashning evristik usuli klasterlar soniga nisbatan klaster ichidagi dispersiyalarning yig'indisining egri chizig'idagi burilish nuqtasidan foydalanishdir.
Texnik jihatdan, k > 0 raqami berilgan bo‘lsa, biz k-o‘rtachalar kabi klasterlash algoritmidan foydalangan holda ko‘rib chiqilayotgan ma’lumotlar to‘plamida k klaster hosil qilishimiz va klaster ichidagi dispersiyalarning yig‘indisini, var(k) hisoblashimiz mumkin. Keyin k ga nisbatan var egri chizig'ini chizishimiz mumkin. Egri chiziqning birinchi (yoki eng muhim) burilish nuqtasi "o'ng" raqamni ko'rsatadi.
Ilg'or usullar axborot mezonlari yoki axborot nazariy yondashuvlari yordamida klasterlar sonini aniqlashi mumkin. Qo'shimcha ma'lumot uchun bibliografik eslatmalarga qarang (10.9-bo'lim).
Ma'lumotlar to'plamidagi klasterlarning "to'g'ri" soni, shuningdek, tasniflashda ko'pincha qo'llaniladigan o'zaro tekshirish usuli bilan ham aniqlanishi mumkin (8-bob). Birinchidan, berilgan ma'lumotlar to'plami D ni m qismga bo'ling. Keyin, klasterlash modelini yaratish uchun m - 1 qismdan foydalaning va qolgan qismdan klasterlash sifatini sinab ko'ring. Misol uchun, test to'plamidagi har bir nuqta uchun biz eng yaqin markazni topishimiz mumkin. Shundan so'ng, biz klasterlash modelining test to'plamiga qanchalik mos kelishini o'lchash uchun test to'plamidagi barcha nuqtalar va eng yaqin markazlar orasidagi kvadratik masofalar yig'indisidan foydalanishimiz mumkin. Har qanday k > 0 butun son uchun biz ushbu jarayonni m marta takrorlaymiz va har bir qismdan test to'plami sifatida k klasterlarning klasterlarini hosil qilamiz. Umumiy sifat ko'rsatkichi sifatida sifat ko'rsatkichining o'rtacha qiymati olinadi. Keyin biz umumiy sifat o'lchovini k ning turli qiymatlari bilan taqqoslashimiz va ma'lumotlarga eng mos keladigan klasterlar sonini topishimiz mumkin.



Download 159.35 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling