Основы информационных технологий


§2.5. Байесовская классификация


Download 1.75 Mb.
Pdf ko'rish
bet19/49
Sana15.12.2022
Hajmi1.75 Mb.
#1008307
TuriУчебное пособие
1   ...   15   16   17   18   19   20   21   22   ...   49
Bog'liq
Интеллектуальный анализ данных Чернышова

§2.5. Байесовская классификация
Изначально байесовская классификация использовалась для формали-
зации знаний экспертов в экспертных системах, сейчас байесовская клас-
сификация также применяется в качестве одного из методов Data Mining. 


– 39 – 
Так называемая наивная классификация, или наивно-байесовский подход 
(naive-bayes approach), является наиболее простым вариантом метода, ис-
пользующего байесовские сети. Метод байесовской классификации явля-
ется статистическим методом. Он позволяет предсказать вероятность при-
надлежности объекта к заданному классу. "Наивным" он называется пото-
му, что исходит из предположения о взаимной независимости признаков.
Метод байесовской классификации основан на теореме Байеса: 
P(X)
P(H)
P(X/H)
=
P(H/X)

где 
H
– гипотеза, заключающаяся в том, что объект 
X
принадлежит к 
классу 
C

P
(
H
) – это вероятность a priori наступления 
H

P
(
H|X
) – вероят-
ность a posteriori выполнения гипотезы 
H
при наблюдаемых данных 
X

P
(
X|H
) – это вероятность a posteriori наступления 
X
при условии 
H
.
Пусть любой объект задан с помощью 
n
атрибутов, то есть объект 
X
может быть представлен в виде вектора 
X
= (
x
1
,…,х
n
). Предполагаем для 
простоты, что все атрибуты категориальные, то есть могут принимать 
лишь конечное число значений.
Пусть 
m
– это количество классов. Для произвольного заданного объек-
та 
X
с неизвестной меткой класса требуется определить вероятности его 
вхождения в классы 1,. ..,
m
. Класс, которому соответствует наибольшая 
вероятность, будет оценкой по методу байесовской классификации. 
Искомая вероятность вхождения 
X
в класс с номером 
i
равна 
P
(
H|X
), где 
H

– это гипотеза, что объект 
X
относится к классу 
i
. По теореме Байеса
)
(
)
(
)
/
(
=
)
/
(
X
P
H
P
H
X
P
X
H
P
i
i
i

Вычисление 
P
(
X|H
i
) в общем случае очень сложная задача. Но если 
считать, что все атрибуты независимы, то данная задача упрощается
так как в этом случае

n
k
k
x
P
X
P
1
=
)
(
=
)
(


n
k
i
k
i
H
x
P
H
X
P
1
=
)
/
(
=
)
/
(

где 
P
(
x
k
) – вероятность a priori того, что значение атрибута с номером 
k
равно 
x
k
, а 
P
(
x
k
|H
i
) – вероятность a posteriori того, что для объекта, при-
надлежащего классу 
i
, значение атрибута с номером 
k
равно 
x
k



– 40 – 
Величины 

(
x
k
), 
P
(
x
k
|H
i
) могут быть вычислены на основе обучающей 
выборки следующим образом: 
i
k
ik
i
k
s
x
s
H
x
P
)
(
=
)
/
(



m
i
i
m
i
k
ik
i
k
s
x
s
H
x
P
1
=
1
=
)
(
=
)
/
(

где 
s
ik
(
x
k
)– количество записей в обучающей выборке, принадлежащих 
классу 
i
, таких что значение атрибута с номером 
k
равно 
x
k

s
i
– количе-
ство всех записей, принадлежащих классу 
i

Большинство других методов классификации предполагает, что перед 
началом классификации вероятность того, что объект принадлежит тому 
или иному классу, одинакова; но это не всегда верно.
Отмечают такие преимущества байесовских сетей как метода 
Data Mining:
- в модели определяются зависимости между всеми переменными, 
это позволяет легко обрабатывать ситуации, в которых значения неко-
торых переменных неизвестны;
- байесовские сети достаточно просто интерпретируются и позволя-
ют на этапе прогностического моделирования легко проводить анализ по 
сценарию "что, если"; 
- байесовский метод позволяет естественным образом совмещать за-
кономерности, выведенные из данных, и, например, экспертные знания, 
полученные в явном виде;
- использование байесовских сетей позволяет избежать проблемы 
переучивания (overfitting), то есть избыточного усложнения модели, что 
является слабой стороной многих методов (например, деревьев решений 
и нейронных сетей).
Наивно-байесовский подход имеет следующие недостатки:
- перемножать условные вероятности корректно только тогда, когда 
все входные переменные действительно статистически независимы, хотя 
часто данный метод показывает достаточно хорошие результаты и при 
несоблюдении условия статистической независимости; 
- невозможна непосредственная обработка непрерывных перемен-
ных, требуется их преобразование к интервальной шкале, чтобы атрибу-


– 41 – 
ты были дискретными; однако такие преобразования иногда могут при-
водить к потере значимых закономерностей;
- на результат классификации в наивно-байесовском подходе влияют 
только индивидуальные значения входных переменных, комбинирован-
ное влияние пар или троек значений разных атрибутов здесь не учиты-
вается.
Байесовская классификация нашла широкое применение на практике. 
Байесовская классификация была предложена для персональной филь-
трации спама. Для работы алгоритма требуется выполнение двух требо-
ваний.
Первое требование: необходимо, чтобы у классифицируемого объек-
та присутствовало достаточное количество признаков. Этому идеально 
удовлетворяют все слова писем пользователя, за исключением совсем 
коротких и очень редко встречающихся.
Второе требование: постоянное переобучение и пополнение набора 
"спам - не спам". Такие условия очень хорошо работают в локальных 
почтовых клиентах, так как поток "не спама" у конечного клиента доста-
точно постоянен, а если изменяется, то не быстро. Однако для всех кли-
ентов сервера точно определить поток "не спама" довольно сложно, по-
скольку одно и то же письмо для одного клиента является спамом, для 
другого спамом не является. Словарь получается слишком большим, не 
существует четкого разделения на спам и "не спам", в результате каче-
ство классификации, в данном случае решение задачи фильтрации пи-
сем, значительно снижается.

Download 1.75 Mb.

Do'stlaringiz bilan baham:
1   ...   15   16   17   18   19   20   21   22   ...   49




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling