Asosiy tushunchalar va usullar Tasavvur qiling-a, siz AllElectronics kompaniyasining mijozlar bilan aloqalar bo'yicha direktorisiz va sizda beshta menejer ishlaydi
Klaster tahliliga qo'yiladigan talablar
Download 100 Kb.
|
Shohruh 2 Klaster tahlili
Klaster tahliliga qo'yiladigan talablar
Klasterlash murakkab tadqiqot sohasidir. Ushbu bo'limda siz ma'lumotlarni qidirish vositasi sifatida klasterlash uchun talablar, shuningdek, klasterlash usullarini solishtirish uchun ishlatilishi mumkin bo'lgan jihatlar bilan tanishasiz. Quyida ma'lumotlarni qazib olishda klasterlashning odatiy talablari keltirilgan. ■ Scalability: Ko'pgina klasterlash algoritmlari bir necha yuzdan kam ma'lumotlar ob'ektini o'z ichiga olgan kichik ma'lumotlar to'plamlarida yaxshi ishlaydi; ammo, katta ma'lumotlar bazasi millionlab yoki hatto milliardlab ob'ektlarni o'z ichiga olishi mumkin, ayniqsa veb-qidiruv stsenariylarida. Katta ma'lumotlar to'plamining faqat namunasi bo'yicha klasterlash noto'g'ri natijalarga olib kelishi mumkin. Shuning uchun yuqori darajada kengaytiriladigan klasterlash algoritmlari kerak. ■ Har xil turdagi atributlar bilan ishlash qobiliyati: Ko'pgina algoritmlar raqamli (intervalga asoslangan) ma'lumotlarni klasterlash uchun mo'ljallangan. Biroq, ilovalar ikkilik, nominal (kategorik) va tartibli ma'lumotlar yoki ushbu ma'lumotlar turlarining aralashmalari kabi boshqa ma'lumotlar turlarini klasterlashni talab qilishi mumkin. So'nggi paytlarda tobora ko'proq ilovalar grafiklar, ketma-ketliklar, tasvirlar va hujjatlar kabi murakkab ma'lumotlar turlari uchun klasterlash usullariga muhtoj. ■ Ixtiyoriy shaklga ega bo'lgan klasterlarni kashf qilish: Ko'pgina klasterlash algoritmlari Evklid yoki Manxetten masofa o'lchovlari asosida klasterlarni aniqlaydi (2-bob). Bunday masofaviy o'lchovlarga asoslangan algoritmlar o'xshash o'lcham va zichlikka ega bo'lgan sferik klasterlarni topishga moyildir. Biroq, klaster har qanday shaklda bo'lishi mumkin. Masalan, atrof-muhitni nazorat qilish uchun tez-tez ishlatiladigan sensorlarni ko'rib chiqing. Sensor ko'rsatkichlari bo'yicha klaster tahlili qiziqarli hodisalarni aniqlashi mumkin. Ko'pincha sharsimon bo'lmagan o'rmon yong'inlari chegarasini topish uchun klasterlashdan foydalanishni xohlashimiz mumkin. Ixtiyoriy shakllarning klasterlarini aniqlay oladigan algoritmlarni ishlab chiqish muhimdir. ■ Kirish parametrlarini aniqlash uchun domen bilimlariga qo'yiladigan talablar: Ko'pgina klasterlash algoritmlari foydalanuvchilardan kerakli klasterlar soni kabi kirish parametrlari ko'rinishida domen bilimlarini taqdim etishlarini talab qiladi. shuning uchun klasterlash natijalari bunday parametrlarga sezgir bo'lishi mumkin. Ko'pincha parametrlarni aniqlash qiyin, ayniqsa yuqori o'lchamli ma'lumotlar to'plamlari uchun va foydalanuvchilar hali o'z ma'lumotlarini chuqur tushuna olmagan joylarda. Domen bilimlarining spetsifikatsiyasini talab qilish nafaqat foydalanuvchilarga og'irlik qiladi, balki klasterlash sifatini nazorat qilishni qiyinlashtiradi. ■ Shovqinli ma'lumotlar bilan ishlash qobiliyati: Aksariyat real ma'lumotlar to'plamlari chet va/yoki etishmayotgan, noma'lum yoki noto'g'ri ma'lumotlarni o'z ichiga oladi. Sensor ko'rsatkichlari, masalan, ko'pincha shovqinli bo'ladi - ba'zi ko'rsatkichlar sezgir mexanizmlar tufayli noto'g'ri bo'lishi mumkin va ba'zi o'qishlar atrofdagi vaqtinchalik ob'ektlarning shovqinlari tufayli noto'g'ri bo'lishi mumkin. Klasterlash algoritmlari bunday shovqinlarga sezgir bo'lishi va sifatsiz klasterlarni keltirib chiqarishi mumkin. Shuning uchun bizga shovqinga chidamli klasterlash usullari kerak. ■ Incremental klasterlash va kiritish tartibiga befarqlik: Ko'pgina ilovalarda qo'shimcha yangilanishlar (yangiroq ma'lumotlarni ifodalovchi) istalgan vaqtda kelishi mumkin. Ba'zi klasterlash algoritmlari qo'shimcha yangilanishlarni mavjud klaster tuzilmalariga kirita olmaydi va buning o'rniga yangi klasterni noldan qayta hisoblashi kerak. Klasterlash algoritmlari kirish ma'lumotlari tartibiga ham sezgir bo'lishi mumkin. Ya'ni, ma'lumotlar ob'ektlari to'plamini hisobga olgan holda, klasterlash algoritmlari ob'ektlarni taqdim etish tartibiga qarab keskin turli xil klasterlarni qaytarishi mumkin. Incremental klasterlash algoritmlari va kirish tartibiga sezgir bo'lmagan algoritmlar kerak. ■ Yuqori o'lchamli ma'lumotlarni klasterlash imkoniyati: Ma'lumotlar to'plamida ko'plab o'lchamlar yoki atributlar bo'lishi mumkin. Hujjatlarni klasterlashda, masalan, har bir kalit so'z o'lchov sifatida ko'rib chiqilishi mumkin va ko'pincha minglab kalit so'zlar mavjud. Ko'pgina klasterlash algoritmlari faqat ikki yoki uch o'lchovli ma'lumotlar to'plami kabi past o'lchamli ma'lumotlarni qayta ishlashda yaxshi. Yuqori o'lchamli makonda ma'lumotlar ob'ektlarining klasterlarini topish juda qiyin, ayniqsa bunday ma'lumotlar juda siyrak va juda egri bo'lishi mumkinligini hisobga olsak. ■ Cheklovga asoslangan klasterlash: Haqiqiy ilovalar turli xil cheklovlar ostida klasterlashni amalga oshirishi kerak bo'lishi mumkin. Faraz qilaylik, sizning vazifangiz shaharda ma'lum miqdordagi yangi avtomatlar (bankomatlar) uchun joy tanlashdir. Bu haqda qaror qabul qilish uchun siz shahar daryolari va avtomobil yo'llari tarmoqlari hamda har bir klasterdagi mijozlarning turlari va soni kabi cheklovlarni hisobga olgan holda uy xo'jaliklarini klasterlashingiz mumkin. Qiyin vazifa belgilangan cheklovlarni qondiradigan yaxshi klasterlash harakati bilan ma'lumotlar guruhlarini topishdir. ■ Talqin qilish va foydalanish qulayligi: foydalanuvchilar klasterlash natijalarini izohlash, tushunarli va foydalanishga yaroqli bo'lishini xohlashadi. Ya'ni, klasterlash muayyan semantik talqinlar va ilovalar bilan bog'lanishi kerak bo'lishi mumkin. Ilova maqsadi klasterlash xususiyatlari va klasterlash usullarini tanlashga qanday ta'sir qilishi mumkinligini o'rganish muhimdir. Quyida klasterlash usullarini solishtirish mumkin bo'lgan ortogonal jihatlar keltirilgan: ■ Bo'lish mezonlari: Ba'zi usullarda barcha ob'ektlar klasterlar orasida ierarxiya mavjud bo'lmasligi uchun bo'linadi. Ya'ni, barcha klasterlar kontseptual jihatdan bir xil darajada. Bunday usul, masalan, har bir guruhning o'z menejeriga ega bo'lishi uchun mijozlarni guruhlarga bo'lish uchun foydalidir. muqobil ravishda, boshqa usullar ma'lumotlar ob'ektlarini ierarxik tarzda taqsimlaydi, bu erda klasterlar turli semantik darajalarda tuzilishi mumkin. Masalan, matnni qazib olishda biz hujjatlar korpusini bir nechta umumiy mavzularga, masalan, “siyosat” va “sport”ga ajratishni xohlashimiz mumkin, ularning har birida kichik mavzular bo'lishi mumkin, masalan, “futbol”, “basketbol”, “ beysbol" va "xokkey" "sport" sub mavzulari sifatida mavjud bo'lishi mumkin. So'nggi to'rtta submavzu ierarxiyada "sport" ga qaraganda pastroq darajada. ■ Klasterlarni ajratish: Ba'zi usullar ma'lumotlar obyektlarini bir-birini istisno qiluvchi klasterlarga bo'ladi. Har bir guruhga bitta menejer g'amxo'rlik qilishi uchun mijozlarni guruhlarga ajratganda, har bir mijoz faqat bitta guruhga tegishli bo'lishi mumkin. Ba'zi boshqa holatlarda klasterlar eksklyuziv bo'lmasligi mumkin, ya'ni ma'lumotlar ob'ekti bir nechta klasterlarga tegishli bo'lishi mumkin. Misol uchun, hujjatlarni mavzularga klasterlashda, hujjat bir nechta mavzular bilan bog'liq bo'lishi mumkin. Shunday qilib, klaster sifatidagi mavzular eksklyuziv bo'lmasligi mumkin. ■ O'xshashlik o'lchovi: Ba'zi usullar ikki ob'ekt orasidagi o'xshashlikni ular orasidagi masofaga qarab aniqlaydi. Bunday masofani Evklid fazosi, yo'l tarmog'i, vektor fazosi yoki boshqa fazoda aniqlash mumkin. Boshqa usullarda o'xshashlik zichlik yoki yaqinlik asosida bog'lanish bilan aniqlanishi mumkin va ikki ob'ekt orasidagi mutlaq masofaga tayanmasligi mumkin. O'xshashlik ko'rsatkichlari klasterlash usullarini loyihalashda asosiy rol o'ynaydi. Masofaga asoslangan usullar ko'pincha optimallashtirish usullaridan foydalanishi mumkin bo'lsa-da, zichlik va uzluksizlikka asoslangan usullar ko'pincha ixtiyoriy shakldagi klasterlarni topishi mumkin. ■ Klasterlash maydoni: Ko'pgina klasterlash usullari berilgan ma'lumotlar maydoni ichida klasterlarni qidiradi. Ushbu usullar past o'lchamli ma'lumotlar to'plamlari uchun foydalidir. Biroq, yuqori o'lchamli ma'lumotlar bilan, o'xshashlik o'lchovlarini ishonchsiz qiladigan ko'plab ahamiyatsiz atributlar bo'lishi mumkin. shuning uchun to'liq makonda topilgan klasterlar ko'pincha ma'nosizdir. Buning o'rniga bir xil ma'lumotlar to'plamining turli pastki bo'shliqlari ichida klasterlarni qidirish ko'pincha yaxshiroqdir. Subfazo klasteri ob'ekt o'xshashligini ko'rsatadigan klasterlar va pastki bo'shliqlarni (ko'pincha past o'lchamli) topadi. Xulosa qilish kerakki, klasterlash algoritmlari bir nechta talablarga ega. Bu omillarga miqyoslilik va har xil turdagi atributlar, shovqinli ma'lumotlar, qo'shimcha yangilanishlar, o'zboshimchalik shaklidagi klasterlar va cheklovlar bilan ishlash qobiliyati kiradi. Tarjima qilish va foydalanish qulayligi ham muhimdir. Bundan tashqari, klasterlash usullari bo'linish darajasiga, klasterlar bir-birini istisno qiladimi yoki yo'qmi, ishlatiladigan o'xshashlik o'lchovlari va pastki fazoviy klasterlash amalga oshiriladimi yoki yo'qligiga qarab farq qilishi mumkin. Download 100 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling