Основы информационных технологий
Новые алгоритмы и некоторые модификации алгоритмов
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
Новые алгоритмы и некоторые модификации алгоритмов
кластерного анализа До последнего времени основным критерием, по которому оценивал- ся алгоритм кластеризации, было качество кластеризации: полагалось, чтобы весь набор данных умещался в оперативной памяти. Однако сей- час, в связи с появлением сверхбольших баз данных, появились новые требования, которым должен удовлетворять алгоритм кластеризации. Основное из них – это масштабируемость алгоритма. Отметим также другие свойства, которым должен удовлетворять алгоритм кластериза- ции: независимость результатов от порядка входных данных; независи- мость параметров алгоритма от входных данных. В последнее время ведутся активные разработки новых алгоритмов кластеризации, способных обрабатывать сверхбольшие базы данных. В них основное внимание уделяется масштабируемости. К таким алгоритмам относятся обобщенное представление кластеров (summarized cluster representation), а также выборка и использование структур данных, поддерживаемых СУБД. Разработаны алгоритмы, в ко- торых методы иерархической кластеризации интегрированы с другими методами. К таким алгоритмам относятся: BIRCH, CURE, CHAMELEON, ROCK. Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) благодаря обобщенным представлениям кластеров, ско- рость кластеризации увеличивается, алгоритм при этом обладает боль- шим масштабированием. В этом алгоритме реализован двухэтапный процесс кластеризации. В ходе первого этапа формируется предвари- тельный набор кластеров. На втором этапе к выявленным кластерам применяются другие алгоритмы кластеризации, пригодные для работы в оперативной памяти. Если каждый элемент данных представить себе как бусину, лежащую на поверхности стола, то кластеры бусин можно "заменить" теннисными шариками и перейти к более детальному изучению кластеров теннисных шариков. Число бусин может оказаться достаточно велико, однако диа- метр теннисных шариков можно подобрать таким образом, чтобы на втором этапе можно было, применив традиционные алгоритмы кластери- зации, определить действительную сложную форму кластеров. – 57 – Алгоритм WaveCluster представляет собой алгоритм кластеризации на основе волновых преобразований. В начале работы алгоритма данные обобщаются путем наложения на пространство данных многомерной ре- шетки. На дальнейших шагах алгоритма анализируются не отдельные точки, а обобщенные характеристики точек, попавших в одну ячейку решетки. В результате такого обобщения необходимая информация умещается в оперативной памяти. На последующих шагах для определе- ния кластеров алгоритм применяет волновое преобразование к обоб- щенным данным. Главные особенности WaveCluster: сложность реализации; алгоритм может обнаруживать кластеры произвольных форм; алгоритм не чув- ствителен к шумам; алгоритм применим только к данным низкой размер- ности. Алгоритм CLARA (Clustering LARge Applications) извлекает множество образцов из базы данных. Кластеризация применяется к каждому из об- разцов, на выходе алгоритма предлагается лучшая кластеризация. Для больших баз данных этот алгоритм эффективнее. Эффективность алго- ритма зависит от выбранного в качестве образца набора данных. Хоро- шая кластеризация на выбранном наборе может не дать хорошую кла- стеризацию на всем множестве данных. Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling