Основы информационных технологий


Решение задачи прогнозирования при разных значениях па-


Download 1.75 Mb.
Pdf ko'rish
bet17/49
Sana15.12.2022
Hajmi1.75 Mb.
#1008307
TuriУчебное пособие
1   ...   13   14   15   16   17   18   19   20   ...   49
Bog'liq
Интеллектуальный анализ данных Чернышова

Решение задачи прогнозирования при разных значениях па-
раметра 
k
Сначала рассмотрим в качестве примера метод 
k
-ближайших соседей 
с использованием одного ближайшего соседа, т.е. при 
k
=1. Мы ищем 
набор примеров (прямоугольники) и выделяем из их числа ближайший к 
точке запроса 
X
0
. Для нашего случая ближайший пример – точка (
x
4
;y
4
). 
Выход 
x
4
(т.е. 
y
4
) принимается в качестве результата предсказания вы-
хода 
X
0
(т.е. 
Y
0
). Следовательно, для одного ближайшего соседа можем 
записать: выход 
Y
0
равен 
y
4
(
Y
0
= y
4
). Далее рассмотрим ситуацию, когда 
k
=2, т.е. рассмотрим двух ближайших соседей. В этом случае мы выде-
ляем уже две ближайшие к 
X

точки. На нашем графике это точки 
y
3
и 
y
4

Вычислив среднее их выходов, записываем решение для 
Y
0
в виде
Y
0
= (
y
3

y
4
)/2. Решение задачи прогнозирования осуществляется путем 
переноса описанных выше действий на использование произвольного 
числа ближайших соседей таким образом, что выход 
Y
0
точки запроса 
X
0
вычисляется как среднеарифметическое значение выходов 
k
-ближайших 
соседей точки запроса.
Независимые и зависимые переменные набора данных могут быть как 
непрерывными, так и категориальными. Для непрерывных зависимых 
переменных задача рассматривается как задача прогнозирования, для 
дискретных переменных – как задача классификации. Предсказание в 
задаче прогнозирования получается усреднением выходов 
k
-ближайших 
соседей, а решение задачи классификации основано на принципе "по 
большинству голосов". Критическим моментом в использовании метода 
k
-ближайших соседей является выбор параметра 
k.
Он один из наиболее 
важных факторов, определяющих качество прогнозной либо классифи-
кационной модели. Если выбрано слишком маленькое значение пара-
метра 
k
, возникает вероятность большого разброса значений прогноза. 
Если выбранное значение слишком велико, это может привести к силь-
ной смещенности модели. Таким образом, мы видим, что должно быть 
выбрано оптимальное значение параметра 
k
. То есть это значение 
должно быть настолько большим, чтобы свести к минимуму вероятность 
неверной классификации, и одновременно достаточно малым, чтобы


– 38 – 
k
соседей были расположены достаточно близко к точке запроса. Таким 
образом, мы рассматриваем 
k
как сглаживающий параметр, для которого 
должен быть найден компромисс между силой размаха (разброса) моде-
ли и ее смещенностью.

Download 1.75 Mb.

Do'stlaringiz bilan baham:
1   ...   13   14   15   16   17   18   19   20   ...   49




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling