Основы информационных технологий
Решение задачи прогнозирования при разных значениях па-
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
Решение задачи прогнозирования при разных значениях па-
раметра k Сначала рассмотрим в качестве примера метод k -ближайших соседей с использованием одного ближайшего соседа, т.е. при k =1. Мы ищем набор примеров (прямоугольники) и выделяем из их числа ближайший к точке запроса X 0 . Для нашего случая ближайший пример – точка ( x 4 ;y 4 ). Выход x 4 (т.е. y 4 ) принимается в качестве результата предсказания вы- хода X 0 (т.е. Y 0 ). Следовательно, для одного ближайшего соседа можем записать: выход Y 0 равен y 4 ( Y 0 = y 4 ). Далее рассмотрим ситуацию, когда k =2, т.е. рассмотрим двух ближайших соседей. В этом случае мы выде- ляем уже две ближайшие к X 0 точки. На нашем графике это точки y 3 и y 4 . Вычислив среднее их выходов, записываем решение для Y 0 в виде Y 0 = ( y 3 + y 4 )/2. Решение задачи прогнозирования осуществляется путем переноса описанных выше действий на использование произвольного числа ближайших соседей таким образом, что выход Y 0 точки запроса X 0 вычисляется как среднеарифметическое значение выходов k -ближайших соседей точки запроса. Независимые и зависимые переменные набора данных могут быть как непрерывными, так и категориальными. Для непрерывных зависимых переменных задача рассматривается как задача прогнозирования, для дискретных переменных – как задача классификации. Предсказание в задаче прогнозирования получается усреднением выходов k -ближайших соседей, а решение задачи классификации основано на принципе "по большинству голосов". Критическим моментом в использовании метода k -ближайших соседей является выбор параметра k. Он один из наиболее важных факторов, определяющих качество прогнозной либо классифи- кационной модели. Если выбрано слишком маленькое значение пара- метра k , возникает вероятность большого разброса значений прогноза. Если выбранное значение слишком велико, это может привести к силь- ной смещенности модели. Таким образом, мы видим, что должно быть выбрано оптимальное значение параметра k . То есть это значение должно быть настолько большим, чтобы свести к минимуму вероятность неверной классификации, и одновременно достаточно малым, чтобы – 38 – k соседей были расположены достаточно близко к точке запроса. Таким образом, мы рассматриваем k как сглаживающий параметр, для которого должен быть найден компромисс между силой размаха (разброса) моде- ли и ее смещенностью. Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling