K-o'rtacha klasterlarning optimal sonini topish uchun tirsak usuli
Download 0.92 Mb.
|
K-o\'rtacha klasterlarning optimal sonini topish uchun tirsak usuli
K-o'rtacha klasterlarning optimal sonini topish uchun tirsak usuliJavohir_Shavkato’vichBig data ma’lumotlar tahliliKirishKlasterlash - bu nazoratsiz mashinani o'rganish usuli. Bu ma'lumotlar to'plamini guruhlarga bo'lish jarayoni bo'lib, unda bir guruh a'zolari o'xshash xususiyatlarga ega. Keng tarqalgan klasterlash usullari K-Means klasterlash, Ierarxik klasterlash, Zichlikka asoslangan klasterlash, Modelga asoslangan klasterlash va boshqalardir. U hatto katta ma'lumotlar to'plamlarini ham boshqarishi mumkin. Biz K-Means klasterlash mashinasini o'rganish algoritmini Python'da scikit-learn kutubxonasidan foydalanib, tirsak usulida amalga oshirishimiz mumkin.O'quv maqsadlari
K-means klasterlashda tirsak usuli nima? Bu nazoratsiz o'rganish algoritmining eng oddiy va eng ko'p qo'llaniladigan iterativ turi. Nazorat ostidagi ta'limdan farqli o'laroq, bizda K-Means-da yorliqli ma'lumotlar yo'q. Boshqa ba'zi nazoratsiz o'rganish algoritmlari PCA (Principle Component analysis), K-Medoid va boshqalar. K-Means-da biz ma'lumotlardagi klaster markazlarining K sonini tasodifiy ishga tushiramiz ( Tirsak usuli yordamida topilgan k soni ushbu qo'llanmada keyinroq muhokama qilinadi) va markaz o'rnida hech qanday o'zgarish bo'lmaguncha bu markazlarni takrorlaymiz. Keling, yaxshiroq tushunish uchun K-vositalarni klasterlash bilan bog'liq bosqichlarni ko'rib chiqaylik.
Klasterlarning optimal sonini topish bu algoritmning muhim qismidir. Optimal K qiymatini topishning keng tarqalgan usuli bu Tirsak usulidir. K Tirsak usuli yordamida klasterlashni bildiradi Tirsak usulida biz klasterlar sonini (K) 1 dan 10 gacha o'zgartiramiz. K ning har bir qiymati uchun biz WCSS (kvadratning klaster yig'indisi) ni hisoblaymiz. WCSS - bu klasterdagi har bir nuqta va markaz o'rtasidagi kvadratik masofaning yig'indisidir. WCSS ni K qiymati bilan chizganimizda, chizma Tirsakka o'xshaydi. Klasterlar soni ortishi bilan WCSS qiymati pasayishni boshlaydi. WCSS qiymati K = 1 bo'lganda eng katta bo'ladi. Grafikni tahlil qilganimizda, grafik bir nuqtada tez o'zgarishini va shu bilan tirsak shaklini yaratishini ko'rishimiz mumkin. Shu nuqtadan boshlab, grafik X o'qiga deyarli parallel ravishda harakat qiladi. Bu nuqtaga mos keladigan K qiymati K ning optimal qiymati yoki klasterlarning optimal soni hisoblanadi. Endi Python yordamida K-Means klasterlashni amalga oshiramiz. Tirsak usulini amalga oshirish Ma'lumotlar to'plami namunasi Biz bu yerda foydalanayotgan maʼlumotlar toʻplami Mall mijozlari maʼlumotlaridir ( Bu yerdan yuklab oling ). Bu savdo markazidagi mijozlar tafsilotlarini (janr, yosh, yillik daromad (k$) va xarajat balli kabi xususiyatlar) o'z ichiga olgan yorliqsiz ma'lumotlar. Bizning maqsadimiz mijozlarni yillik daromad va sarf-xarajatlarning tegishli xususiyatlariga ko'ra klasterlashdir Keling, berilgan ma'lumotlar to'plamini import qilamiz va muhim xususiyatlarni ajratamiz. Avvalo, biz muhim kutubxonalarni import qilishimiz kerak. Ma'lumotlarni klasterlash uchun optimal K qiymatini topishimiz kerak. Endi biz optimal K qiymatini topish uchun Tirsak usulidan foydalanamiz. "Init" argumenti markazni ishga tushirish usulidir. Har bir K qiymati uchun WCSS qiymatini hisoblab chiqdik. Endi biz WCSS ni K qiymati bilan chizishimiz kerak. Grafik quyidagicha bo'ladi: Grafik: Endi biz scatter chizmasi yordamida klasterlarni tasavvur qilamiz. Ko'rib turganingizdek, turli xil ranglarda tasvirlangan jami 5 ta klaster mavjud va har bir klasterning markaziy qismi qora rangda tasvirlangan. Download 0.92 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling