Asosiy tushunchalar va usullar Tasavvur qiling-a, siz AllElectronics kompaniyasining mijozlar bilan aloqalar bo'yicha direktorisiz va sizda beshta menejer ishlaydi
Download 100 Kb.
|
Shohruh 2 Klaster tahlili
Klaster tahlili nima?
Klaster tahlili yoki oddiygina klasterlash ma'lumotlar ob'ektlari (yoki kuzatishlar) to'plamini kichik to'plamlarga bo'lish jarayonidir. Har bir kichik to'plam klaster bo'lib, klasterdagi ob'ektlar bir-biriga o'xshash, ammo boshqa klasterlardagi ob'ektlarga o'xshamaydi. Klaster tahlili natijasida hosil bo'lgan klasterlar to'plamini klasterlash deb atash mumkin. Shu nuqtai nazardan, turli xil klasterlash usullari bir xil ma'lumotlar to'plamida turli xil klasterlarni yaratishi mumkin. Bo'lish odamlar tomonidan emas, balki klasterlash algoritmi bilan amalga oshiriladi. Demak, klasterlash foydalidir, chunki u ma'lumotlar ichida ilgari noma'lum guruhlarni topishga olib kelishi mumkin. Klaster tahlili biznes razvedkasi, tasvir namunalarini aniqlash, veb-qidiruv, biologiya va xavfsizlik kabi ko'plab ilovalarda keng qo'llanilgan. Biznes razvedkasida klasterlash ko'p sonli mijozlarni guruhlarga ajratish uchun ishlatilishi mumkin, bunda guruh ichidagi mijozlar kuchli o'xshash xususiyatlarga ega. Bu mijozlar bilan munosabatlarni boshqarishni yaxshilash uchun biznes strategiyalarini ishlab chiqishga yordam beradi. Bundan tashqari, ko'p sonli loyihalarga ega bo'lgan maslahatchi kompaniyani ko'rib chiqing. Loyiha boshqaruvini yaxshilash uchun klasterlash loyihalarni o'xshashlik asosida toifalarga bo'lish uchun qo'llanilishi mumkin, shunda loyiha auditi va diagnostikasi (loyihalarni etkazib berish va natijalarini yaxshilash uchun) samarali amalga oshirilishi mumkin. Tasvirni aniqlashda klasterlash qo'lda yozilgan belgilarni aniqlash tizimlarida klasterlar yoki "kichik sinflarni" aniqlash uchun ishlatilishi mumkin. Aytaylik, bizda qo'lda yozilgan raqamlarning ma'lumotlar to'plami bor, bu erda har bir raqam 1, 2, 3 va boshqalar bilan belgilanadi. E'tibor bering, odamlar bir xil raqamni yozishda katta farq bo'lishi mumkin. Masalan, 2 raqamini oling. Ba'zi odamlar uni chap pastki qismida kichik doira bilan yozishi mumkin, boshqalari esa yo'q. Biz "2" uchun kichik sinflarni aniqlash uchun klasterlashdan foydalanishimiz mumkin, ularning har biri 2 yozilishi mumkin bo'lgan o'zgarishlarni anglatadi. Kichik sinflarga asoslangan bir nechta modellardan foydalanish umumiy tanib olish aniqligini oshirishi mumkin. Klasterlash veb-qidiruvda ko'plab ilovalarni ham topdi. Misol uchun, kalit so'zlarni qidirish ko'pincha juda ko'p sonli veb-sahifalar tufayli juda ko'p sonli xitlar (ya'ni, qidiruvga tegishli sahifalar) qaytarishi mumkin. Klasterlash qidiruv natijalarini guruhlarga ajratish va natijalarni qisqa va oson kirish mumkin bo'lgan tarzda taqdim etish uchun ishlatilishi mumkin. Bundan tashqari, hujjatlarni mavzularga klasterlash uchun klasterlash usullari ishlab chiqilgan bo'lib, ular axborot qidirish amaliyotida keng qo'llaniladi. Ma'lumotlarni qidirish funktsiyasi sifatida klaster tahlili ma'lumotlarning taqsimlanishi haqida tushunchaga ega bo'lish, har bir klasterning xususiyatlarini kuzatish va keyingi tahlil qilish uchun muayyan klasterlar to'plamiga e'tibor qaratish uchun mustaqil vosita sifatida ishlatilishi mumkin. Shu bilan bir qatorda, u aniqlangan klasterlar va tanlangan atributlar yoki xususiyatlarda ishlaydigan xarakteristikalar, atributlar quyi to'plamini tanlash va tasniflash kabi boshqa algoritmlar uchun dastlabki ishlov berish bosqichi bo'lib xizmat qilishi mumkin. Klaster klaster ichida bir-biriga o'xshash va boshqa klasterlardagi ob'ektlarga o'xshamaydigan ma'lumotlar ob'ektlari to'plami bo'lganligi sababli, ma'lumotlar ob'ektlari klasterini yashirin sinf sifatida ko'rib chiqish mumkin. Shu ma'noda, klasterlash ba'zan avtomatik tasniflash deb ataladi. Yana bir muhim farq shundaki, klasterlash avtomatik ravishda guruhlarni topishi mumkin. Bu klaster tahlilining o'ziga xos afzalligi. Klasterlash ba'zi ilovalarda ma'lumotlarni segmentatsiyasi deb ham ataladi, chunki klasterlash katta ma'lumotlar to'plamlarini o'xshashligiga ko'ra guruhlarga bo'ladi. Klasterlash, shuningdek, tashqi ko'rsatkichlar (har qanday klasterdan "uzoqdagi" qiymatlar) odatiy holatlarga qaraganda qiziqroq bo'lishi mumkin bo'lgan chegaralarni aniqlash uchun ishlatilishi mumkin. Chetlangan qiymatlarni aniqlash ilovalari kredit kartalaridagi firibgarliklarni aniqlash va elektron tijoratdagi jinoiy harakatlar monitoringini o'z ichiga oladi. Misol uchun, kredit karta operatsiyalarida istisno holatlar, masalan, juda qimmat va kamdan-kam xaridlar, mumkin bo'lgan firibgarlik faoliyati sifatida qiziqish uyg'otadi. Chetlangan qiymatlarni aniqlash 12-bobning mavzusi. Ma'lumotlarni klasterlash jadal rivojlanmoqda. Tadqiqotning hissa qo'shadigan yo'nalishlari ma'lumotlarni qazib olish, statistika, mashinani o'rganish, fazoviy ma'lumotlar bazasi texnologiyasi, ma'lumot qidirish, veb-qidiruv, biologiya, marketing va boshqa ko'plab amaliy sohalarni o'z ichiga oladi. Ma'lumotlar bazalarida to'plangan katta hajmdagi ma'lumotlar tufayli, klaster tahlili so'nggi paytlarda ma'lumotlar konini tadqiq qilishda juda faol mavzuga aylandi. Statistikaning bir tarmog'i sifatida klaster tahlili keng o'rganilib, asosiy e'tibor masofaviy klaster tahliliga qaratilgan. S-Plus, SPSS va SAS kabi ko'plab statistik tahlil dasturiy paketlari yoki tizimlariga k-o'rtacha, k-medoid va boshqa bir qancha usullarga asoslangan klaster tahlil vositalari o'rnatilgan. Mashinani o'rganishda esda tutingki, tasnif nazorat ostida o'rganish sifatida tanilgan, chunki sinf yorlig'i haqida ma'lumot berilgan, ya'ni o'rganish algoritmi nazorat qilinadi, chunki har bir o'quv kortejining sinf a'zoligi aytiladi. Klasterlash nazoratsiz ta'lim sifatida tanilgan, chunki sinf yorlig'i haqida ma'lumot mavjud emas. Shu sababli, klasterlash misollar orqali o'rganish emas, balki kuzatish orqali o'rganish shaklidir. Ma'lumotlarni qazib olishda sa'y-harakatlar katta ma'lumotlar bazalarida samarali va samarali klaster tahlili usullarini topishga qaratilgan. Tadqiqotning faol mavzulari klasterlash usullarining miqyosliligiga, murakkab shakllar (masalan, qavariq bo'lmagan) va ma'lumotlar turlari (masalan, matn, grafiklar va tasvirlar), yuqori o'lchamli klasterlash usullari (masalan, klasterlash ob'ektlari) klasterlash usullarining samaradorligiga qaratilgan. ) minglab funksiyalarga ega) va aralash raqamli va nominal ma'lumotlarni katta ma'lumotlar bazalarida klasterlash usullari. Download 100 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling