Основы информационных технологий
§2.4. Метод "ближайшего соседа"
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
§2.4. Метод "ближайшего соседа"
Следует отметить, что метод "ближайшего соседа" ("nearest neighbour") относится к классу методов, работа которых основывается на хранении данных в памяти для сравнения с новыми элементами. При появлении но- вой записи для прогнозирования находятся отклонения между этой запи- сью и подобными наборами данных, и наиболее подобная (или ближний сосед) идентифицируется. – 34 – Например, при рассмотрении нового клиента банка его атрибуты сравниваются со всеми существующими клиентами данного банка (до- ход, возраст и т.д.). Множество "ближайших соседей" потенциального клиента банка выбирается на основании ближайшего значения дохода, возраста и т.д. При таком подходе используется термин "k-ближайший сосед" ("k-nearest neighbour"). Термин означает, что выбирается k "верх- них" (ближайших) соседей для их рассмотрения в качестве множества "ближайших соседей". Поскольку не всегда удобно хранить все данные, иногда хранится только множество "типичных" случаев. В таком случае используемый ме- тод называют рассуждением по аналогии (Case Based Reasoning, CBR), рассуждением на основе аналогичных случаев, рассуждением по преце- дентам. Прецедент – это описание ситуации в сочетании с подробным указа- нием действий, предпринимаемых в данной ситуации. Подход, основанный на прецедентах, условно можно поделить на следующие этапы: - сбор подробной информации о поставленной задаче; - сопоставление этой информации с деталями прецедентов, храня- щихся в базе, для выявления аналогичных случаев; - выбор прецедента, наиболее близкого к текущей проблеме, из ба- зы прецедентов; - адаптация выбранного решения к текущей проблеме, если это необходимо; - проверка корректности каждого вновь полученного решения; - занесение детальной информации о новом прецеденте в базу пре- цедентов. Таким образом, вывод, основанный на прецедентах, представляет со- бой такой метод анализа данных, который делает заключения относи- тельно данной ситуации по результатам поиска аналогий, хранящихся в базе прецедентов. Данный метод по своей сути относится к категории «обучение без учителя», благодаря чему рабочие характеристики каж- дой базы прецедентов с течением времени и накоплением примеров улучшаются. Разработка баз прецедентов по конкретной предметной области про- исходит на естественном для человека языке, следовательно, может быть выполнена наиболее опытными сотрудниками компании – экспер- тами или аналитиками, работающими в данной предметной области. Од- – 35 – нако это не означает, что CBR-системы самостоятельно могут принимать решения. Последнее всегда остается за человеком, данный метод лишь предлагает возможные варианты решения и указывает на самый "разум- ный" с ее точки зрения. Преимущества метода заключаются в следующем: - простота использования полученных результатов; - решения не уникальны для конкретной ситуации, возможно их ис- пользование для других случаев; - целью поиска является не гарантированно верное решение, а луч- шее из возможных. Недостатки метода "ближайшего соседа": - данный метод не создает каких-либо моделей или правил, обоб- щающих предыдущий опыт, в выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно ска- зать, на каком основании строятся ответы; - существует сложность выбора меры "близости" (метрики); от этой меры главным образом зависит объем множества записей, которые нуж- но хранить в памяти для достижения удовлетворительной классифика- ции или прогноза; кроме того, существует высокая зависимость резуль- татов классификации от выбранной метрики; - в случае использования метода возникает необходимость полного перебора обучающей выборки при распознавании; следствие этого – вы- числительная трудоемкость. Типичные задачи данного метода – это задачи небольшой размерно- сти по количеству классов и переменных. С помощью данного метода решаются задачи классификации и регрессии. Рассмотрим подробно принципы работы метода k -ближайших соседей для решения задач клас- сификации и прогнозирования. Решение задачи классификации новых объектов схематично изобра- жено на рис.9. Примеры (известные экземпляры) отмечены знаком "+" или "-", определяющим принадлежность к соответствующему классу ("+" или "-"), а новый объект, который требуется классифицировать, обозна- чен кружочком. Новые объекты также называют точками запроса. Цель заключается в оценке (классификации) отклика точек запроса с использованием специально выбранного числа их ближайших соседей. Другими словами, хотим узнать, к какому классу следует отнести точку запроса: как знак "+" или как знак "-". – 36 – Рис. 9. Классификация методом ближайших соседей Для начала рассмотрим результат работы метода k -ближайших сосе- дей с использованием одного ближайшего соседа. В этом случае отклик точки запроса будет классифицирован как знак плюс, так как ближай- шая соседняя точка имеет знак плюс. Теперь увеличим число использу- емых ближайших соседей до двух (малая окружность на рис.9). На этот раз метод k -ближайших соседей не сможет классифицировать отклик точки запроса, поскольку вторая ближайшая точка имеет знак минус и оба знака равноценны (т.е. победа с одинаковым количеством голосов). Далее увеличим число используемых ближайших соседей до 5. Таким образом, будет определена окрестность точки запроса (на рисунке ее граница отмечена большой окружностью). Так как в этой окрестности есть две точки со знаком "+" и три точки со знаком "-" , алгоритм k -ближайших соседей присвоит знак "-" отклику точки запроса. Далее рассмотрим принцип работы метода k -ближайших соседей для решения задачи прогнозирования. Регрессионные задачи связаны с про- гнозированием значения зависимой переменной по значениям независи- мых переменных набора данных. Рассмотрим график, показанный на рис.10. X (x1,y1) (x5,y5) (x4,y4) (x3,y3) (x2,y2) X 0 Y 0 k ближайших соседей=2 k ближайших соседей=1 Рис. 10. Прогнозирование методом ближайших соседей – 37 – Изображенный на ней набор точек (прямоугольники) получен по свя- зи между независимой переменной x и зависимой переменной y (кривая на графике). Задан набор объектов (т.е. набор примеров); используем метод k -ближайших соседей для предсказания выхода точки запроса X 0 по данному набору примеров (прямоугольники). Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling