Основы информационных технологий
§2.5. Байесовская классификация
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
§2.5. Байесовская классификация
Изначально байесовская классификация использовалась для формали- зации знаний экспертов в экспертных системах, сейчас байесовская клас- сификация также применяется в качестве одного из методов Data Mining. – 39 – Так называемая наивная классификация, или наивно-байесовский подход (naive-bayes approach), является наиболее простым вариантом метода, ис- пользующего байесовские сети. Метод байесовской классификации явля- ется статистическим методом. Он позволяет предсказать вероятность при- надлежности объекта к заданному классу. "Наивным" он называется пото- му, что исходит из предположения о взаимной независимости признаков. Метод байесовской классификации основан на теореме Байеса: P(X) P(H) P(X/H) = P(H/X) , где H – гипотеза, заключающаяся в том, что объект X принадлежит к классу C , P ( H ) – это вероятность a priori наступления H , P ( H|X ) – вероят- ность a posteriori выполнения гипотезы H при наблюдаемых данных X , P ( X|H ) – это вероятность a posteriori наступления X при условии H . Пусть любой объект задан с помощью n атрибутов, то есть объект X может быть представлен в виде вектора X = ( x 1 ,…,х n ). Предполагаем для простоты, что все атрибуты категориальные, то есть могут принимать лишь конечное число значений. Пусть m – это количество классов. Для произвольного заданного объек- та X с неизвестной меткой класса требуется определить вероятности его вхождения в классы 1,. .., m . Класс, которому соответствует наибольшая вероятность, будет оценкой по методу байесовской классификации. Искомая вероятность вхождения X в класс с номером i равна P ( H|X ), где H i – это гипотеза, что объект X относится к классу i . По теореме Байеса ) ( ) ( ) / ( = ) / ( X P H P H X P X H P i i i . Вычисление P ( X|H i ) в общем случае очень сложная задача. Но если считать, что все атрибуты независимы, то данная задача упрощается, так как в этом случае ∏ n k k x P X P 1 = ) ( = ) ( , ∏ n k i k i H x P H X P 1 = ) / ( = ) / ( , где P ( x k ) – вероятность a priori того, что значение атрибута с номером k равно x k , а P ( x k |H i ) – вероятность a posteriori того, что для объекта, при- надлежащего классу i , значение атрибута с номером k равно x k . – 40 – Величины P ( x k ), P ( x k |H i ) могут быть вычислены на основе обучающей выборки следующим образом: i k ik i k s x s H x P ) ( = ) / ( , ∑ ∑ m i i m i k ik i k s x s H x P 1 = 1 = ) ( = ) / ( , где s ik ( x k )– количество записей в обучающей выборке, принадлежащих классу i , таких что значение атрибута с номером k равно x k , s i – количе- ство всех записей, принадлежащих классу i . Большинство других методов классификации предполагает, что перед началом классификации вероятность того, что объект принадлежит тому или иному классу, одинакова; но это не всегда верно. Отмечают такие преимущества байесовских сетей как метода Data Mining: - в модели определяются зависимости между всеми переменными, это позволяет легко обрабатывать ситуации, в которых значения неко- торых переменных неизвестны; - байесовские сети достаточно просто интерпретируются и позволя- ют на этапе прогностического моделирования легко проводить анализ по сценарию "что, если"; - байесовский метод позволяет естественным образом совмещать за- кономерности, выведенные из данных, и, например, экспертные знания, полученные в явном виде; - использование байесовских сетей позволяет избежать проблемы переучивания (overfitting), то есть избыточного усложнения модели, что является слабой стороной многих методов (например, деревьев решений и нейронных сетей). Наивно-байесовский подход имеет следующие недостатки: - перемножать условные вероятности корректно только тогда, когда все входные переменные действительно статистически независимы, хотя часто данный метод показывает достаточно хорошие результаты и при несоблюдении условия статистической независимости; - невозможна непосредственная обработка непрерывных перемен- ных, требуется их преобразование к интервальной шкале, чтобы атрибу- – 41 – ты были дискретными; однако такие преобразования иногда могут при- водить к потере значимых закономерностей; - на результат классификации в наивно-байесовском подходе влияют только индивидуальные значения входных переменных, комбинирован- ное влияние пар или троек значений разных атрибутов здесь не учиты- вается. Байесовская классификация нашла широкое применение на практике. Байесовская классификация была предложена для персональной филь- трации спама. Для работы алгоритма требуется выполнение двух требо- ваний. Первое требование: необходимо, чтобы у классифицируемого объек- та присутствовало достаточное количество признаков. Этому идеально удовлетворяют все слова писем пользователя, за исключением совсем коротких и очень редко встречающихся. Второе требование: постоянное переобучение и пополнение набора "спам - не спам". Такие условия очень хорошо работают в локальных почтовых клиентах, так как поток "не спама" у конечного клиента доста- точно постоянен, а если изменяется, то не быстро. Однако для всех кли- ентов сервера точно определить поток "не спама" довольно сложно, по- скольку одно и то же письмо для одного клиента является спамом, для другого спамом не является. Словарь получается слишком большим, не существует четкого разделения на спам и "не спам", в результате каче- ство классификации, в данном случае решение задачи фильтрации пи- сем, значительно снижается. Download 1.75 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling