Основы информационных технологий
§2.6. Задача кластеризации
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
§2.6. Задача кластеризации
Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие в том, что классы изучаемого набора данных заранее не предопределены (табл.5). Синонимами термина "кластеризация" являются "автоматическая классификация", "обучение без учителя" и "таксономия". Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры, или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек". Цель кластеризации – поиск существующих структур. Кластеризация является описательной процедурой, она не делает никаких статистиче- – 42 – ских выводов, но дает возможность провести разведочный анализ и изу- чить структуру данных. Таблица 5 Сравнение классификации и кластеризации Характеристика Классификация Кластеризация Контролируемость обучения Контролируемое обучение Неконтролируемое обучение Стратегия Обучение с учителем Обучение без учителя Наличие метки класса Обучающее множество сопро- вождается меткой, указываю- щей класс наблюдения Метки класса обучающего множества неизвестны Основание для классифика- ции Новые данные классифициру- ются на основании обучающе- го множества Дано множество данных с целью установления суще- ствования кластеров Кластер можно охарактеризовать как группу объектов, имеющих об- щие свойства. Характеристиками кластера можно назвать два признака: - внутренняя однородность; - внешняя изолированность. Существует большое количество подходов к кластеризации: - алгоритмы, основанные на разделении данных (Partitioning algorithms), в том числе итеративные: разделение объектов на k кластеров; итеративное перераспределение объектов для улучшения кластеризации; - иерархические алгоритмы (Hierarchy algorithms); - методы, основанные на концентрации объектов (Density-based methods); - грид-методы (Grid-based methods); - модельные методы (Model-based). Следует отметить, что в результате применения различных методов кластерного анализа могут быть получены кластеры различной формы. В результате применения различных методов кластеризации могут быть получены неодинаковые результаты, это является особенностью работы того или иного алгоритма. Однако создание схожих кластеров различ- ными методами указывает на правильность кластеризации. Оценка качества кластеризации может быть проведена на основе следующих процедур: ручная проверка; установление контрольных то- чек и проверка на полученных кластерах; определение стабильности кластеризации путем добавления в модель новых переменных; создание и сравнение кластеров с использованием различных методов. – 43 – Кластерный анализ применяется в различных областях. В маркетинге это может быть задача сегментации конкурентов и потребителей. В ме- неджменте примером задачи кластеризации будет разбиение персонала на различные группы, классификация потребителей и поставщиков, вы- явление схожих производственных ситуаций, при которых возникает брак. В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограниче- ния на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальных данных, частот, би- нарных данных). При этом необходимо помнить, что переменные долж- ны измеряться в сравнимых шкалах. Кластерный анализ позволяет со- кращать размерность данных, делать ее наглядной. Кластерный анализ может применяться к совокупностям временных рядов, здесь могут вы- деляться периоды схожести некоторых показателей и определяться группы временных рядов со схожей динамикой. Задачи кластерного анализа можно объединить в следующие группы: 1. Разработка типологии или классификации; 2. Исследование полезных концептуальных схем группирования объ- ектов; 3. Представление гипотез на основе исследования данных; 4. Проверка гипотез или исследований для определения, действи- тельно ли типы (группы), выделенные тем или иным способом, присут- ствуют в имеющихся данных. Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач. Рассмотрим пример процедуры кластерного анализа. Допустим, мы имеем наборы данных А , у которых имеется по два признака – X и Y (табл.6). Таблица 6 Исходные данные Порядковый номер Признак X Признак Y 1 27 19 2 11 46 3 25 15 4 36 27 5 35 25 6 10 43 7 11 44 8 36 24 – 44 – Порядковый номер Признак X Признак Y 9 26 14 10 26 14 11 9 45 12 33 23 13 27 16 14 10 47 Данные в табличной форме не носят информативный характер. Пред- ставим переменные X и Y в виде диаграммы рассеивания, изображенной на рис.11. Рис. 11. Диаграмма рассеивания переменных X и Y На рисунке мы видим несколько групп "похожих" примеров. Примеры (объекты), которые по значениям X и Y "похожи" друг на друга, принад- лежат к одной группе (кластеру); объекты из разных кластеров не похо- жи друг на друга. Критерием для определения схожести и различия кла- стеров является расстояние между точками на диаграмме рассеивания. Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера. Центр кла- стера – это среднее геометрическое место точек в пространстве пере- менных. Радиус кластера – максимальное расстояние точек от центра кластера. Спорный объект – это объект, который по мере сходства может быть отнесен к нескольким кластерам. Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера. Объект относится к кластеру, если расстояние от объекта до центра кла- стера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным. Неоднозначность данной задачи может быть устранена экспертом или аналитиком. Окончание табл. 6 – 45 – Работа кластерного анализа опирается на два предположения. Пер- вое предположение: рассматриваемые признаки объекта в принципе до- пускают желательное разбиение пула (совокупности) объектов на кла- стеры. Второе предположение: правильно выбраны масштаб или едини- цы измерения признаков. Выбор масштаба в кластерном анализе имеет большое значение. Рассмотрим пример. Представим себе, что данные признака X в наборе данных А на два порядка больше данных признака у : значения переменной X находятся в диапазоне от 100 до 700, а значения пере- менной Y – в диапазоне от 0 до 1. Тогда при расчете величины расстоя- ния между точками, отражающими положение объектов в пространстве их свойств, переменная, имеющая большие значения, т.е. переменная X , будет практически полностью доминировать над переменной с малыми значениями, т.е. переменной Y . Таким образом, из-за неоднородности единиц измерения признаков становится невозможно корректно рассчи- тать расстояния между точками. Эта проблема решается при помощи предварительной стандартиза- ции переменных. Стандартизация или нормирование приводит значения всех преобразованных переменных к единому диапазону значений путем выражения через отношение этих значений к некой величине, отража- ющей определенные свойства конкретного признака. Существуют различные способы нормирования исходных данных: - Z-шкалы (Z-Scores) (из значений переменных вычитается их сред- нее, и эти значения делятся на стандартное отклонение); - деление исходных данных на среднеквадратичное отклонение со- ответствующих переменных; - максимум 1 (значения переменных делятся на их максимум); - среднее 1 (значения переменных делятся на их среднее); - разброс от -1 до 1 (линейным преобразованием переменных доби- ваются разброса значений от -1 до 1); - разброс от 0 до 1 (линейным преобразованием переменных доби- ваются разброса значений от 0 до 1). Наряду со стандартизацией переменных, существует вариант прида- ния каждой из них определенного коэффициента важности, или веса, который бы отражал значимость соответствующей переменной. В каче- стве весов могут выступать экспертные оценки, полученные в ходе опро- са экспертов – специалистов предметной области. Полученные произве- дения нормированных переменных на соответствующие веса позволяют – 46 – получать расстояния между точками в многомерном пространстве с уче- том неодинакового веса переменных. В ходе экспериментов возможно сравнение результатов, полученных с учетом экспертных оценок и без них, и выбор лучшего из них. Методы кластерного анализа можно разделить на две группы: - иерархические; - неиерархические. Суть иерархической кластеризации состоит в последовательном объ- единении меньших кластеров в большие или разделении больших кла- стеров на меньшие. Иерархические агломеративные методы (Agglomerative Nesting, AGNES) характеризуются последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров. В начале работы алгоритма все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На по- следующих шагах объединение продолжается до тех пор, пока все объ- екты не будут составлять один кластер. Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA) являются логической противоположностью агломеративным ме- тодам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп. Принцип работы описанных выше групп методов в виде дендрограм- мы показан на рис.12. abcde a b c d e de cde ab Шаг 0 Шаг 0 Шаг 1 Шаг 3 Шаг 2 Шаг 4 Шаг 4 Шаг 3 Шаг 2 Шаг 1 Агломеративные методы Дивизимные методы Рис. 12. Дендрограмма агломеративных и дивизимных методов – 47 – Иерархические методы кластеризации различаются правилами по- строения кластеров. В качестве правил выступают критерии, которые используются при решении вопроса о "схожести" объектов при их объ- единении в группу (агломеративные методы) или разделении на группы (дивизимные методы). Иерархические методы кластерного анализа ис- пользуются при небольших объемах наборов данных. Преимуществом иерархических методов кластеризации является их наглядность. Иерархические алгоритмы связаны с построением дендрограмм (от греческого dendron – "дерево"), которые являются результатом иерархи- ческого кластерного анализа. Дендрограмма описывает близость от- дельных точек и кластеров друг к другу, представляет в графическом виде последовательность объединения (разделения) кластеров. Дендро- грамма – древовидная диаграмма, содержащая n уровней, каждый из ко- торых соответствует одному из шагов процесса последовательного укрупнения кластеров. Дендрограмма представляет собой вложенную группировку объектов, которая изменяется на различных уровнях иерархии. Существует много способов построения дендрограмм. В дендрограмме объекты могут рас- полагаться вертикально или горизонтально. Пример вертикальной денд- рограммы приведен на рис.13. Рис. 13. Пример дендрограммы Числа 11, 10, 3 и т.д. соответствуют номерам объектов или наблюде- ний исходной выборки. На первом шаге каждое наблюдение представля- ет один кластер (вертикальная линия), на втором шаге происходит объ- единение таких наблюдений в новые кластеры: 11 и 10; 3, 4 и 5; 8 и 9; 2 и 6. На втором шаге продолжается объединение в кластеры: наблюдения 11, 10, 3, 4, 5 и 7, 8, 9. Данный процесс продолжается до тех пор, пока все наблюдения не объединятся в один кластер. Для вычисления расстояния между объектами используются различ- ные меры сходства (меры подобия), называемые также метриками или функциями расстояний. – 48 – Наиболее распространенный способ – вычисление евклидова рассто- яния между двумя точками, i и j , на плоскости, когда известны их коор- динаты – X и Y : 2 2 ) ( + ) ( = j i j i ij y - y x - x D . Для придания больших весов более отдаленным друг от друга объек- там можем воспользоваться квадратом евклидова расстояния путем воз- ведения в квадрат стандартного евклидова расстояния. Манхэттенское расстояние (расстояние городских кварталов) рассчи- тывается как разности по координатам: j i j i ij y - y x - x D + = . В большинстве случаев эта мера расстояния приводит к результатам, подобным расчетам евклидова расстояния. Однако для этой меры влия- ние отдельных выбросов меньше, чем при использовании евклидова рас- стояния, поскольку здесь координаты не возводятся в квадрат. Расстояние Чебышева стоит использовать, когда необходимо опреде- лить два объекта как "различные", если они отличаются по какому-то одному измерению. Процент несогласия вычисляется, если данные являются категори- альными. Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling