K-o'rtacha klasterlarning optimal sonini topish uchun tirsak usuli


Download 0.92 Mb.
Sana05.05.2023
Hajmi0.92 Mb.
#1429182
Bog'liq
K o\'rtacha klasterlarning optimal sonini topish uchun tirsak usuli

K-o'rtacha klasterlarning optimal sonini topish uchun tirsak usuli

Javohir_Shavkato’vich

Big data

Kirish

Klasterlash - bu nazoratsiz mashinani o'rganish usuli. Bu ma'lumotlar to'plamini guruhlarga bo'lish jarayoni bo'lib, unda bir guruh a'zolari o'xshash xususiyatlarga ega. Keng tarqalgan klasterlash usullari K-Means klasterlash, Ierarxik klasterlash, Zichlikka asoslangan klasterlash, Modelga asoslangan klasterlash va boshqalardir. U hatto katta ma'lumotlar to'plamlarini ham boshqarishi mumkin. Biz K-Means klasterlash mashinasini o'rganish algoritmini Python'da scikit-learn kutubxonasidan foydalanib, tirsak usulida amalga oshirishimiz mumkin.


O'quv maqsadlari
  • K-Means algoritmini tushuning.
  • Tushunish va K-Means Klasterlash Tirsak usulini amalga oshirish.

K-means klasterlashda tirsak usuli nima?
Bu nazoratsiz o'rganish algoritmining eng oddiy va eng ko'p qo'llaniladigan iterativ turi. Nazorat ostidagi ta'limdan farqli o'laroq, bizda K-Means-da yorliqli ma'lumotlar yo'q. Boshqa ba'zi nazoratsiz o'rganish algoritmlari PCA (Principle Component analysis), K-Medoid va boshqalar.
K-Means-da biz ma'lumotlardagi klaster markazlarining K sonini tasodifiy ishga tushiramiz ( Tirsak usuli yordamida topilgan k soni ushbu qo'llanmada keyinroq muhokama qilinadi) va markaz o'rnida hech qanday o'zgarish bo'lmaguncha bu markazlarni takrorlaymiz. Keling, yaxshiroq tushunish uchun K-vositalarni klasterlash bilan bog'liq bosqichlarni ko'rib chiqaylik.
  • Ma'lumotlar to'plami uchun klasterlar sonini tanlang (K)
  • Ma'lumotlar to'plamidan tasodifiy K centroid sonini tanlang.
  • Endi biz nuqtalarning eng yaqin markazdan masofani hisoblash uchun metrik sifatida Evklid masofasi yoki Manxetten masofasidan foydalanamiz va nuqtalarni eng yaqin klaster markaziga belgilaymiz va shu bilan K klasterlarini yaratamiz.
  • Endi biz shu tarzda hosil bo'lgan klasterlarning yangi markaziy qismini topamiz.
  • Yana ushbu yangi markaz asosida butun ma'lumot nuqtasini qayta tayinlang, so'ngra 4-bosqichni takrorlang. Biz buni ma'lum miqdordagi iteratsiyalar uchun markazning pozitsiyasi o'zgarmaguncha, ya'ni konvergentsiya bo'lmaguncha davom ettiramiz.

Klasterlarning optimal sonini topish bu algoritmning muhim qismidir. Optimal K qiymatini topishning keng tarqalgan usuli bu Tirsak usulidir.
K Tirsak usuli yordamida klasterlashni bildiradi
Tirsak usulida biz klasterlar sonini (K) 1 dan 10 gacha o'zgartiramiz. K ning har bir qiymati uchun biz WCSS (kvadratning klaster yig'indisi) ni hisoblaymiz. WCSS - bu klasterdagi har bir nuqta va markaz o'rtasidagi kvadratik masofaning yig'indisidir. WCSS ni K qiymati bilan chizganimizda, chizma Tirsakka o'xshaydi. Klasterlar soni ortishi bilan WCSS qiymati pasayishni boshlaydi. WCSS qiymati K = 1 bo'lganda eng katta bo'ladi. Grafikni tahlil qilganimizda, grafik bir nuqtada tez o'zgarishini va shu bilan tirsak shaklini yaratishini ko'rishimiz mumkin. Shu nuqtadan boshlab, grafik X o'qiga deyarli parallel ravishda harakat qiladi. Bu nuqtaga mos keladigan K qiymati K ning optimal qiymati yoki klasterlarning optimal soni hisoblanadi.
Endi Python yordamida K-Means klasterlashni amalga oshiramiz.
Tirsak usulini amalga oshirish
Ma'lumotlar to'plami namunasi
Biz bu yerda foydalanayotgan maʼlumotlar toʻplami Mall mijozlari maʼlumotlaridir ( Bu yerdan yuklab oling ). Bu savdo markazidagi mijozlar tafsilotlarini (janr, yosh, yillik daromad (k$) va xarajat balli kabi xususiyatlar) o'z ichiga olgan yorliqsiz ma'lumotlar. Bizning maqsadimiz mijozlarni yillik daromad va sarf-xarajatlarning tegishli xususiyatlariga ko'ra klasterlashdir
Keling, berilgan ma'lumotlar to'plamini import qilamiz va muhim xususiyatlarni ajratamiz.
Avvalo, biz muhim kutubxonalarni import qilishimiz kerak.
Ma'lumotlarni klasterlash uchun optimal K qiymatini topishimiz kerak. Endi biz optimal K qiymatini topish uchun Tirsak usulidan foydalanamiz.
"Init" argumenti markazni ishga tushirish usulidir. Har bir K qiymati uchun WCSS qiymatini hisoblab chiqdik. Endi biz WCSS ni K qiymati bilan chizishimiz kerak.
Grafik quyidagicha bo'ladi:
Grafik:
Endi biz scatter chizmasi yordamida klasterlarni tasavvur qilamiz. Ko'rib turganingizdek, turli xil ranglarda tasvirlangan jami 5 ta klaster mavjud va har bir klasterning markaziy qismi qora rangda tasvirlangan.
Download 0.92 Mb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling