Основы информационных технологий
Определение количества кластеров
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
Определение количества кластеров
Существует проблема определения числа кластеров. Иногда можно априорно задать это число. Однако в большинстве случаев число кла- стеров определяется в процессе агломерации/разделения множества объектов. Процессу группировки объектов в иерархическом кластерном анализе соответствует постепенное возрастание коэффициента, называ- емого критерием Е. Скачкообразное увеличение значения критерия Е можно определить как характеристику числа кластеров, которые дей- ствительно существуют в исследуемом наборе данных. Таким образом, этот способ сводится к определению скачкообразного увеличения неко- торого коэффициента, который характеризует переход от сильно свя- занного к слабо связанному состоянию объектов. – 50 – Оптимальным считается количество кластеров, равное разности ко- личества наблюдений и количества шагов до скачкообразного увеличе- ния коэффициента. Следовательно, после создания двух кластеров объ- единений больше производить не следует, хотя визуально мы ожидали появления трех кластеров. Агрегирование данных может быть представ- лено графически в виде дендрограммы. Итеративные методы. При большом количестве наблюдений иерархи- ческие методы кластерного анализа не пригодны. В таких случаях ис- пользуют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокуп- ности. Итеративные методы кластеризации различаются выбором сле- дующих параметров: начальной точки; правилом формирования новых кластеров; правилом остановки. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки. Такая неиерархическая класте- ризация состоит в разделении набора данных на определенное количе- ство отдельных кластеров. Существует два подхода. Первый заключается в определении границ кластеров как наиболее плотных участков в многомерном пространстве исходных данных, т.е. определение кластера там, где имеется большое "сгущение точек". Второй подход заключается в минимизации меры раз- личия объектов. Выбирая между иерархическими и неиерархическими методами, необходимо учитывать следующие их особенности. Неиерархические ме- тоды выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых пе- ременных в набор, участвующий в кластеризации. Аналитик должен за- ранее определить количество кластеров, количество итераций или пра- вило остановки, а также некоторые другие параметры кластеризации. Если нет предположений относительно числа кластеров, рекоменду- ют использовать иерархические алгоритмы. Однако если объем выборки не позволяет это сделать, возможный путь – проведение ряда экспери- ментов с различным количеством кластеров, например, начать разбие- ние совокупности данных с двух групп и, постепенно увеличивая их ко- личество, сравнивать результаты. Иерархические методы, в отличие от неиерархических, отказываются от определения числа кластеров, а строят полное дерево вложенных кластеров. Сложности иерархических методов кластеризации: ограниче- – 51 – ние объема набора данных; выбор меры близости; негибкость получен- ных классификаций. Преимущество этой группы методов в сравнении с неиерархическими методами – их наглядность и возможность получить детальное представление о структуре данных. При использовании иерархических методов существует возможность достаточно легко идентифицировать выбросы в наборе данных и в ре- зультате повысить качество данных. Эта процедура лежит в основе двухшагового алгоритма кластеризации. Такой набор данных в дальней- шем может быть использован для проведения неиерархической класте- ризации. Это вопрос кластеризации всей совокупности данных или же ее выборки. Названный аспект характерен для обеих рассматриваемых групп методов, однако он более критичен для иерархических методов. Иерархические методы не могут работать с большими наборами данных, а использование некоторой выборки, т.е. части данных, могло бы позво- лить применять эти методы. Результаты кластеризации могут не иметь достаточного статистического обоснования. С другой стороны, при решении задач кластеризации допустима не- статистическая интерпретация полученных результатов, а также доста- точно большое разнообразие вариантов понятия кластера. Такая неста- тистическая интерпретация дает возможность аналитику получить удо- влетворяющие его результаты кластеризации, что при использовании других методов часто бывает затруднительным. Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling