Guruh talabasi Uzbekov Baxtiyor
Klasterlashish tendentsiyasini baholash
Download 159.35 Kb.
|
012-18 Uzbekov Baxtiyor
10.6.1. Klasterlashish tendentsiyasini baholash
Klasterlashish tendentsiyasini baholash ma'lum ma'lumotlar to'plamining tasodifiy bo'lmagan tuzilishga ega ekanligini aniqlaydi, bu esa mazmunli klasterlarga olib kelishi mumkin. Tasodifiy bo'lmagan tuzilishga ega bo'lmagan ma'lumotlar to'plamini ko'rib chiqing, masalan, ma'lumotlar maydonida bir xil taqsimlangan nuqtalar to'plami. Klasterlash algoritmi ma'lumotlar uchun klasterlarni qaytarishi mumkin bo'lsa ham, bu klasterlar tasodifiy va mazmunli emas. Klasterlash ma'lumotlarning bir xil bo'lmagan taqsimlanishini talab qiladi 10.21-rasmda 2 o'lchamli ma'lumotlar maydonida bir xil taqsimlangan ma'lumotlar to'plami ko'rsatilgan. Klasterlash algoritmi hali ham nuqtalarni sun'iy ravishda guruhlarga bo'lishi mumkin bo'lsa-da, ma'lumotlarning bir xil taqsimlanishi tufayli guruhlar dastur uchun muhim ahamiyatga ega bo'lmaydi. 10.21-rasm Ma'lumotlar maydonida bir xil taqsimlangan ma'lumotlar to'plami. "Ma'lumotlar to'plamining klasterlashish tendentsiyasini qanday baholashimiz mumkin?" Intuitiv ravishda, biz ma'lumotlar to'plamining yagona ma'lumotlarni taqsimlash orqali hosil bo'lish ehtimolini o'lchashga harakat qilishimiz mumkin. Bunga fazoviy tasodifiylik uchun statistik testlar yordamida erishish mumkin. Bu fikrni tushuntirish uchun keling, Xopkins statistikasi deb nomlangan oddiy, ammo samarali statistikani ko‘rib chiqaylik. Xopkins statistikasi fazoviy statistik ma'lumot bo'lib, o'zgaruvchining fazoda taqsimlangan fazoviy tasodifiyligini tekshiradi. Tasodifiy o'zgaruvchining namunasi sifatida qaraladigan D ma'lumotlar to'plamini hisobga olsak, biz o ning ma'lumotlar maydonida bir xil taqsimlanishdan qanchalik uzoqligini aniqlamoqchimiz. Xopkins statistikasini quyidagicha hisoblaymiz: 1. Namuna n nuqta, p1, …, pn, D dan bir xilda. Ya'ni, D dagi har bir nuqta ushbu namunaga qo'shilish ehtimoli bir xil. Har bir pi nuqta uchun D dagi pi ning eng yaqin qo‘shnisini (1 ≤ i ≤ n) topamiz va D dagi pi va uning eng yaqin qo‘shnisi orasidagi masofa xi bo‘lsin. Ya’ni,(10.25) 2. Namuna n nuqta, q1, …, qn, D dan bir xilda. Har bir qi (1 ≤ i ≤ n) uchun D − {qi} dagi qi ning eng yaqin qo‘shnisini topamiz va yi qi va nuqta orasidagi masofa bo‘lsin. uning eng yaqin qo'shnisi D - {qi}. Ya'ni, (10.26) 3. Xopkins statistikasini hisoblang, H, (10.27) Bizning nol gipotezamiz bir hil gipotezadir - D bir xilda taqsimlangan va shuning uchun mazmunli klasterlarni o'z ichiga olmaydi. Bir jinsli bo'lmagan gipoteza (ya'ni, D bir xil taqsimlanmagan va shuning uchun klasterlarni o'z ichiga oladi) muqobil gipotezadir. Biz muqobil gipotezani rad etish uchun chegara sifatida 0,5 dan foydalanib, Xopkins statistik testini iterativ tarzda o'tkazishimiz mumkin. Ya'ni, agar H > 0,5 bo'lsa, u holda D ning statistik jihatdan ahamiyatli klasterlarga ega bo'lishi ehtimoldan yiroq emas. Download 159.35 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling