Монография / Под ред. И. Ф. Кефели, Р. М. Юсупова. Ид «Петрополис»

bet	83/133
Sana	18.07.2023
Hajmi	6.15 Mb.
	#1660834
Turi	Книга

1 ... 79 80 81 82 83 84 85 86 ... 133

Bog'liq
bezopastnost

Kotenko I., Chechulin A., Komashinsky D. Categorization of web pages for protection
against inappropriate content in the Internet // International Journal of Internet Protocol
Technology (JIPT), 2016. http://www.inderscience.com/info/ingeneral/forthcoming.
php?jcode=ijipt.
6
Rapid Miner. URL: https://rapidminer.com/.

190
г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
И
нформацИонно
-
псИхологИческая
И
когнИтИвная
безопасность
по результатам классификации веб-страниц, отображаются затем в фор-
мате Microsoft Excel
1
. На исходные данные, которые используются для
обучения системы и проверки ее работы, накладывались следующие
ограничения:
1) длина основного текста веб-страниц после процедуры очистки
должна находиться в пределах от 500 до 5000 байт. Данное значение,
установленное экспериментально, позволяет исключить из выбор-
ки сайты со слишком коротким содержимым (которое обычно
не относится к категории, например, сообщение о необходимости
включить JavaScript или обновить Flash Player), а также слишком
большие по объему сайты (на которых будут встречаться слова
из всех категорий, что снизит качество обучения);
2) в выборку включались только те веб-страницы, основной язык
которых — английский. Подобное ограничение объясняется особен-
ностями лексического анализатора (стеммера) Портера
2
, который
лучше всего работает со словами английского языка.
В соответствии с введенными ограничениями были выделены
два набора данных. Первый из них включал следующие категории:
«Сайты для взрослых» (adult), «Алкоголь» (alcohol), «Сайты о меди-
цине» (medical) и «Сайты о религии» (religion). Во второй набор
были добавлены «Онлайн-игры» (gamesonline), «Охота» (hunting)
и «Музыка» (music). Все они могут использоваться в процессе защи-
ты несовершеннолетних от нежелательной информации и борьбы
с распространением нелицензионного контента.
Помимо перечисленных сайтов, в каждом из наборов также присутст-
вовала дополнительно введенная категория, указывающая на неизвестный
результат, получившая наименование «Unknown». Количество веб-страниц
во всех наборах данных было взято одинаковым и равным 1200.
Результаты экспериментальной оценки предложенного подхода
к проведению классификации веб-сайтов применительно к двум набо-
рам данных представлены на рис. 19–23. На рис. 19 приведена оценка
по показателю «аккуратность». Из рисунка видно, что для обоих наборов
данных предложенный подход показывает достаточно высокую «акку-
ратность». При экспериментах по первому набору она составляет 92,7%,
по второму — 86,1%. Для второго набора эта величина оказалась меньше,
1
Kotenko I., et al. Analysis and Evaluation of Web Pages Classification Techniques for
Inappropriate Content Blocking / I. Kotenko, A. Chechulin, A. Shorov, D. Komashinsky //
Proc. of 14th Industrial Conf. on Data Mining (ICDM 2014). 2014. P. 39–54.
2
Porter M. F. An algorithm for suffix stripping // Program. Vol. 14. No. 3. 1980. P. 130–137.

г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
191
р
аздел
II. и
нформационные
угрозы
и
информационно
-
ПСихологичеСкая
безоПаСноСть
в
глобальном
измерении
поскольку в нем присутствует большее количество категорий (7 против
4), что затрудняет классификацию.
Рис. 19. Результаты экспериментальной оценки «аккуратности»
На рис. 20 и рис. 21 представлены экспериментальные оценки «аккурат-
ности» по каждому набору данных в разрезе различных анализируемых
классификационных признаков. Из рисунков видно, что наибольшего
значения «аккуратность» классификаторов достигает при анализе основ-
ного текста (81,7% и 73,0% для первого и второго набора соответственно).
На втором месте оказался классификатор, ориентированный на анализ
содержимого ссылок (70,7% и 58,6%).
Рис. 20. Оценка «аккуратности» на наборе 1

192
г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
И
нформацИонно
-
псИхологИческая
И
когнИтИвная
безопасность
Данные результаты показывают, что анализ специфики веб-докумен-
тов обладает достаточно высокой эффективностью. Интернет-ресурсы
обычно связаны с другими сайтами похожей тематики, поэтому учет
подобной специфики является именно тем фактором, который отлича-
ет классификацию веб-страниц от классификации обычных текстовых
документов. Другие признаки, обладающие высокими значениями акку-
ратности, — это текст из тэга и n-граммы. Для первого набора: 53,6% и 53,6% соответственно, для второго: 53,6% и 47,2% соответственно. Рис. 21. Оценка «аккуратности» на наборе 2 На рис. 22 и рис. 23 представлены результаты экспериментальной оценки других показателей — точности, полноты и F-меры. Рис. 22. Оценка точности, полноты и F-меры на наборе 1 </div> <style type="text/css"> </style> <hr /><div id="page193-div" > г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях 193 р аздел II. и нформационные угрозы и информационно - ПСихологичеСкая безоПаСноСть в глобальном измерении Из рисунков видно, что предложенный подход в целом отличает высокая точность. Исключениями являются сайты категории «Медицина» для первого набора и категории «Онлайн-игры» — для второго. <a href="/potenciometr-demonstraciya-kontrolya-osvesheniya-dioda.html">Значения </a> полноты в большинстве своем достигают 85–95%. Исключения составляют категория «Религия» для набора 1 и категории «Медицина» и «Религия» для набора 2. Для категорий-исключений, показавших в предложенном подходе более плохое качество классификации, в будущем планируется добавить классификаторы на основе новых аспектов, что в целом повысит эффективность функционирования системы защиты от информации. Рис. 23. Оценка точности, полноты и F-меры на наборе 2 Из анализа полученных результатов также можно сделать вывод, что большинство классификаторов характеризуется высокими (87–98%) значениями показателя «точность». Это объясняется использованием деревьев решений в качестве базовых классификаторов <a href="/statistika-svidetelestvuet-chto-i-posle-vvedeniya-v-praktiku-o.html">и свидетельствует </a> о том, что большинство предсказаний соответствует действительности. В то же время значение показателя «полнота» в большинстве классифи- каторов не превышает 50%. Это означает, что в «сомнительных» случаях классификатор не стремится отнести информацию к той или иной из сво- их категорий. Эта особенность важна, например, для производителей антивирусного ПО, для которых недопустимо большое число ложных срабатываний. При совместном анализе различных признаков точность и полнота классификации приобретают <a href="/organizaciya-obslujivaniya-gostej-kategorii-vip-na-primere.html">достаточно высокие значения</a>, что объясня- ется объединением и комбинированием классификаторов, анализирующих </div> <style type="text/css"> </style> <hr /><div id="page194-div" > 194 г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях И нформацИонно - псИхологИческая И когнИтИвная безопасность отдельные признаки. В результате система защиты от информации до- статочно редко относит веб-сайты к неизвестным (высокая полнота), а количество ложных срабатываний будет достаточно низким (высокая точность). Соответственно, F-мера у системы защиты, определяемая через эти два показателя, также будет высокой. В настоящем разделе показано, что защита от нежелательной и вредоносной <a href="/reshenie-globalenih-ekonomicheskih-problem-kak-neobhodimoe-usl.html">информации в глобальных </a> информационных сетях является достаточно большой проблемой, основ- ным направлением решения которой является создание и использование автоматизированных систем, способных осуществлять классификацию веб-сайтов по различным признакам с использованием методов интел- лектуального анализа данных. Предложенный подход к построению классификатора веб-сайтов реализует трехуровневую иерархическую архитектуру. Экспериментальная оценка программного прототипа автома- тизированной системы защиты, реализующего эту архитектуру, показала достаточно высокие значения показателей <a href="/sushestvuet-neskoleko-klassifikacij-boleznej-rastenij-snachala.html">эффективности классификации </a> для различных категорий веб-сайтов и позволила выявить направления дальнейших исследований, среди которых следует выделить повышение полноты принимаемых решений на основе использования других типов признаков, в том числе текстовых. Работа выполнена при финансовой поддержке гранта РНФ 15–11–30029 в СПИИРАН. </div> <style type="text/css"> </style> <hr /><div id="page195-div" >

Download 6.15 Mb.

Do'stlaringiz bilan baham:

1 ... 79 80 81 82 83 84 85 86 ... 133