Основы информационных технологий
МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
- Bu sahifa navigatsiya:
- ГЛАВА 2
МЕТОДЫ
ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ §2.1. Задачи классификации и прогнозирования Классификация – это процесс упорядочивания по некоторому прин- ципу множества объектов, которые имеют признаки для определения сходства или различия между этими объектами. Нахождение моделей или функций, которые описывают и различают классы, позволяет пред- сказывать класс произвольного заданного объекта с известными атрибу- тами, но неизвестной меткой класса. Классификация требует соблюдения следующих правил: - в каждом акте деления необходимо применять только одно основа- ние; - деление должно быть соразмерным, т.е. общий объем видовых по- нятий должен равняться объему делимого родового понятия; - члены деления должны взаимно исключать друг друга, их объемы не должны перекрещиваться; - деление должно быть последовательным. Классификация – это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким об- разом, проведение классификации требует наличия признаков, характе- ризующих группу, к которой принадлежит то или иное событие или объ- ект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила). Классификация относится к стратегии обучения с учителем, которое также именуют контролируемым или управляемым обучением. Задачей классификации часто называют предсказание категориальной зависимой переменной (т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных. Например, можно предсказать, кто из клиентов фирмы является потен- циальным покупателем определенного товара, а кто – нет, кто восполь- ГЛАВА 2 – 18 – зуется услугой фирмы, а кто – нет, и т.д. Этот тип задач относится к за- дачам бинарной классификации, в них зависимая переменная может принимать только два значения (например, да или нет, 0 или 1). Другой вариант классификации возникает, если зависимая перемен- ная может принимать значения из некоторого множества предопреде- ленных классов, например, когда необходимо предсказать, какую марку автомобиля захочет купить клиент. В этих случаях рассматривается множество классов для зависимой переменной. Классификация может быть одномерной (по одному признаку) и мно- гомерной (по двум и более признакам). Рассмотрим задачу классификации на простом примере. Допустим, имеется база данных о клиентах туристического агентства с информацией о возрасте и доходе за месяц. Есть рекламный материал двух видов: более дорогой и комфортный отдых и более дешевый, моло- дежный отдых. Соответственно, определены два класса клиентов: класс 1 и класс 2. Определить, к какому классу принадлежит новый клиент и какой из двух видов рекламных материалов ему стоит отсылать. Набор исходных данных разбивают на два множества: обучающее и тестовое. Обучающее множество (training set) – множество, которое включает данные, использующиеся для обучения (конструирования) мо- дели. Такое множество содержит входные и выходные (целевые) значе- ния примеров. Выходные значения предназначены для обучения модели. Тестовое множество (test set) также содержит входные и выходные зна- чения примеров. Здесь выходные значения используются для проверки работоспособности модели. Процесс классификации состоит из двух этапов: конструирования мо- дели и ее использования. Использование модели заключается в класси- фикации новых или неизвестных значений. Известные значения из те- стового примера сравниваются с результатами использования получен- ной модели. Уровень точности – процент правильно классифицирован- ных примеров в тестовом множестве. Если точность модели допустима, возможно использование модели для классификационных примеров, класс которых неизвестен. Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс-проверка (Cross-validation) – это процедура оцен- ки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классифика- ции тестового множества сравнивается с точностью классификации обу- |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling