Основы информационных технологий
Проверка качества кластеризации
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
- Bu sahifa navigatsiya:
- Предварительное сокращение размерности
Проверка качества кластеризации
Получив результаты кластерного анализа методом k -средних, следует проверить правильность кластеризации (т.е. оценить, насколько класте- ры отличаются друг от друга). Для этого рассчитываются средние значе- ния для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части. Достоинства алгоритма k-средних : - простота использования; - быстрота использования; - понятность и прозрачность алгоритма. К недостаткам алгоритма k-средних можно отнести чувствительность алгоритма к выбросам, которые могут искажать среднее. Возможным решением этой проблемы является использование модификации алго- ритма – алгоритм k-медианы. – 53 – Рис. 14. Пример работы алгоритма k-средних (k=2) Предварительное сокращение размерности Рассмотрим пример. Есть база данных клиентов фирмы, которых следует разбить на однородные группы. Каждый клиент описывается при помощи 25 переменных. Использование такого большого числа перемен- ных приводит к выделению кластеров нечеткой структуры. В результате аналитику достаточно сложно интерпретировать полученные кластеры. Более понятные и прозрачные результаты кластеризации могут быть получены, если вместо множества исходных переменных использовать некие обобщенные переменные или критерии, содержащие в сжатом виде информацию о связях между переменными. То есть возникает за- дача понижения размерности данных. Она может решаться при помощи различных методов; один из наиболее распространенных – факторный анализ. – 54 – Факторный анализ – это метод, применяемый для изучения взаимо- связей между значениями переменных. Вообще факторный анализ пре- следует две цели: сокращение числа переменных и классификацию пе- ременных – определение структуры взаимосвязей между переменными. Соответственно факторный анализ может использоваться для реше- ния задач сокращения размерности данных или для решения задач клас- сификации. Критерии, или главные факторы, выделенные в результате факторного анализа, содержат в сжатом виде информацию о существу- ющих связях между переменными. Эта информация позволяет получить лучшие результаты кластеризации и лучше объяснить семантику класте- ров. Самим факторам может быть сообщен определенный смысл. При помощи факторного анализа большое число переменных сводит- ся к меньшему числу независимых влияющих величин, которые называ- ются факторами. Фактор в "сжатом" виде содержит информацию о не- скольких переменных. В один фактор объединяются переменные, кото- рые сильно коррелируют между собой. В результате факторного анализа отыскиваются такие комплексные факторы, которые как можно более полно объясняют связи между рассматриваемыми переменными. Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling