Монография / Под ред. И. Ф. Кефели, Р. М. Юсупова. Ид «Петрополис»


Download 6.15 Mb.
Pdf ko'rish
bet80/133
Sana18.07.2023
Hajmi6.15 Mb.
#1660834
TuriКнига
1   ...   76   77   78   79   80   81   82   83   ...   133
Bog'liq
bezopastnost

ор в
ер
хнег
о 
уровня i + 1
ФИНА
ЛЬ
НЫЙ 
К
ЛА
ССИФИКА
ТОР
Аспек
т i


г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
185
р
аздел
II. и
нформационные
угрозы
и
информационно
-
ПСихологичеСкая
безоПаСноСть
в
глобальном
измерении
(supervised method). Примером является метод SVM 
1
. Более перспек-
тивным является метод без предварительного обучения (unsupervised 
method) 
2
, предназначенный для классификации по тексту с небольшими 
затратами ресурсов, а также для создания обучающих выборок. В нем 
документ делится на предложения, а затем каждому предложению сопос-
тавляется категория на основе предварительно подготовленных списков 
ключевых слов и метрики подобия предложений.
Для определения спама успешно применяется метод категоризации, 
основанный на анализе общего числа слов на странице, средней длины слова, 
принадлежности слов веб-страницы к набору из наиболее часто встречаемых 
слов, а также статистики n-грамм (комбинаций из n символов) 
3
.
Альтернативным в текстовой классификации является метод, в котором 
переходят от рассмотрения документов в виде наборов слов к анализу 
их значений, которые берутся из лексических баз данных. Однако про-
веденные эксперименты показали, что хотя рассмотрение смысла слов 
несколько повышает величину аккуратности, оно не ведет к значитель-
ному улучшению точности и полноты классификации 
4
.
Текстовая классификация не может считаться достаточной. Она не учи-
тывает структурных особенности веб-страниц. HTML-документ, как 
правило, связан ссылками с другими документами и может содержать 
изображения, а также другие нетекстовые элементы. Кроме того, извест-
ные трудности вызывают категории, обладающие сходным текстовым 
наполнением, но различающиеся по своей структуре (например, «блоги», 
«форумы», «чаты»).
Поэтому получил развитие метод, основанный на анализе URL. При 
этом исходят из предположения, что страницу в Интернете будут редко 
посещать, если ее адрес не отражает каким-то образом его тематику 
5
. Один 

Joachims T. Text Categorization with Support Vector Machines: Learning with Many 
Relevant Features // Proc. of 10th European Conf. on Machine Learning (ECML-98), 
Chemnitz, Germany, April 21–23, 1998. P. 137–142.

Ko Y., Seo J. Automatic Text Categorization by Unsupervised Learning // Proc.of the 
18th Conf. on Computational linguistics (Coling-2000). 2000. P. 453–459.

Ntoulas A., et al. Detecting Spam Web Pages through Content Analysis/ A. Ntoulas, 
M. Najork, M. Manasse, D. Fetterly // Proc. of the 15th Intern. World Wide Web Conf. 
(WWW-2006). 2006. P. 83–92.

Kehagias A., et al. A Comparison of Word- and Sense-based Text Categorization Using 
Several Classification Algorithms/ A. Kehagias, V. Petridis, V. G. Kaburlasos, P. Fragkou // 
Journal of Intelligent Information Systems. 2000. Vol. 21(3). P. 227–247.

Attardi G., Gulli A., Sebastiani F. Automatic Web Page Categorization by Link and 


186
г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
И
нформацИонно
-
псИхологИческая
И
когнИтИвная
безопасность
из способов такого анализа заключается в разбиении URL на составные 
части, подлежащие затем анализу. Такой подход успешно применяется для 
защиты от фишинговых сайтов 
1
. При этом каждый фрагмент URL пред-
ставляется в виде двумерного вектора, содержащего сам фрагмент и его 
позицию, которые затем подаются на вход обученному классификатору.
Другой способ состоит в использовании длины имени хоста и всего 
URL, подсчете количества в нем различных символов (например, точек) 
и анализе заключенных между этими символами фрагментов URL. При 
этом используются признаки на основе информации о хосте (географи-
ческие особенности, дата регистрации, величина предельного периода 
времени, за который пакет может существовать до своего исчезновения 
(TTL) и т. д.). Все эти атрибуты подаются на вход стандартному класси-
фикатору (Naïve Bayess, SVM, Logistic Regression) 
2
.
Одним из вариантов дальнейшего разделения URL на фрагменты может 
быть использование энтропии. Такой подход позволяет разбивать на состав-
ные части названия доменов, в которых несколько слов слиты воедино. 
То из пробных разбиений, которое имеет наименьшую энтропию среди 
остальных, станет наиболее вероятным новым фрагментом 
3
. Дополнительно 
можно использовать анализ последовательности n-грамм, для которых счи-
тается частота встречаемости 
4
. Данный метод способен показывать хорошие 
результаты категоризации при решении частных задач («спам»/«обычное 
письмо», «phishing»/«benign»), однако в общем случае, при произвольном 
количестве и составе категорий, качество классификации снижается. Главная 
причина заключается в том, что в действительности не всегда адрес страницы 
в Интернете совпадает с ее содержанием.
Таким образом, для выявления категорий, основанных на структур-
ных признаках, необходимо искать другие методы, одним из которых 
Context Analysis // Proc. of 1st European Symp. on Telematics, Hypermedia and Artificial 
Intelligence (THAI-1999). 1999. P. 105–119.


Download 6.15 Mb.

Do'stlaringiz bilan baham:
1   ...   76   77   78   79   80   81   82   83   ...   133




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling