Курсовая работа кластеризация обучающих выборок для нейронной сети прогнозирования показателей успеваемости студентов


Download 147.38 Kb.
bet7/9
Sana15.12.2022
Hajmi147.38 Kb.
#1007553
TuriКурсовая
1   2   3   4   5   6   7   8   9
Bog'liq
Хайитов Ш.Э. Курсовая работа

2.1 Краткое описание алгоритма


В работе рассмотрен один из популярных алгоритмов кластеризации — алгоритм к-средних, относящийся к неиерархическому подходу. Также этот метод называют быстрым кластерным анализом. Данный алгоритм основан на минимизации функционала суммарной выборочной дисперсии разброса элементов относительно центров тяжести кластеров Q = Q(3). Этот алгоритм представляет собой итерационное нахождение центров тяжести кластеров и разбиение обучающей выборки на кластеры до тех пор, пока функционал Q не перестанет меняться.
В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для возможности использования этого метода необходимо иметь гипотезу о наиболее вероятном количестве кластеров.
Число «k» в названии метода означает количество кластеров, на которое производится разбиение данных. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции. Слово «средние» в названии метода относится к центроидам кластеров.
Ц ентроид — точка, представляющая собой центр масс точек кластера, т. е. Покоординатное среднее точек из кластеров
Приведем описание алгоритма.
П усть имеется множество точек данных где
З адается количество кластеров k, и на первом шаге производится задание центроидов «центров масс» кластеров Sj, j = 1,…,k.
Каждому кластеру соответствует один центр. Выбор начальных центроидов может осуществляться следующим образом:
- выбор k — наблюдений для максимизации начального расстояния;
- случайный выбор k -наблюдений;
- выбор первых k — наблюдений.
Пусть имеется множество кластеров
1 ) Производится распределение объектов по кластерам. Точка xi , i = 1,…,n относится к ближайшему кластеру, т. е. Xj ∈ Sj, где В качестве метрики используется одна из приведенных выше метрик, чаще всего Евклидова. В результате каждый объект назначен определенному кластеру.
2) Вычисляются новые центры кластеров, как центры масс новых кластеров, полученных на предыдущем этапе.
3) Продолжать итерационный процесс вычисления центров и перераспределения до тех пор, пока не выполнится одно из условий:
- Кластерные центры стабилизировались.(перестали меняться);
- Число итераций равно максимальному числу итераций(ограничение на число итераций).
Алгоритм к-средних минимизирует функционал суммарной выборочной дисперсии и сходится за конечное число шагов.

Download 147.38 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling