Монография / Под ред. И. Ф. Кефели, Р. М. Юсупова. Ид «Петрополис»


Download 6.15 Mb.
Pdf ko'rish
bet83/133
Sana18.07.2023
Hajmi6.15 Mb.
#1660834
TuriКнига
1   ...   79   80   81   82   83   84   85   86   ...   133
Bog'liq
bezopastnost

Kotenko I., Chechulin A., Komashinsky D. Categorization of web pages for protection 
against inappropriate content in the Internet // International Journal of Internet Protocol 
Technology (JIPT), 2016. http://www.inderscience.com/info/ingeneral/forthcoming.
php?jcode=ijipt.

Rapid Miner. URL: https://rapidminer.com/.


190
г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
И
нформацИонно
-
псИхологИческая
И
когнИтИвная
безопасность
по результатам классификации веб-страниц, отображаются затем в фор-
мате Microsoft Excel 
1
. На исходные данные, которые используются для 
обучения системы и проверки ее работы, накладывались следующие 
ограничения:
1) длина основного текста веб-страниц после процедуры очистки 
должна находиться в пределах от 500 до 5000 байт. Данное значение, 
установленное экспериментально, позволяет исключить из выбор-
ки сайты со слишком коротким содержимым (которое обычно 
не относится к категории, например, сообщение о необходимости 
включить JavaScript или обновить Flash Player), а также слишком 
большие по объему сайты (на которых будут встречаться слова 
из всех категорий, что снизит качество обучения);
2) в выборку включались только те веб-страницы, основной язык 
которых — английский. Подобное ограничение объясняется особен-
ностями лексического анализатора (стеммера) Портера 
2
, который 
лучше всего работает со словами английского языка.
В соответствии с введенными ограничениями были выделены 
два набора данных. Первый из них включал следующие категории: 
«Сайты для взрослых» (adult), «Алкоголь» (alcohol), «Сайты о меди-
цине» (medical) и «Сайты о религии» (religion). Во второй набор 
были добавлены «Онлайн-игры» (gamesonline), «Охота» (hunting) 
и «Музыка» (music). Все они могут использоваться в процессе защи-
ты несовершеннолетних от нежелательной информации и борьбы 
с распространением нелицензионного контента.
Помимо перечисленных сайтов, в каждом из наборов также присутст-
вовала дополнительно введенная категория, указывающая на неизвестный 
результат, получившая наименование «Unknown». Количество веб-страниц 
во всех наборах данных было взято одинаковым и равным 1200.
Результаты экспериментальной оценки предложенного подхода 
к проведению классификации веб-сайтов применительно к двум набо-
рам данных представлены на рис. 19–23. На рис. 19 приведена оценка 
по показателю «аккуратность». Из рисунка видно, что для обоих наборов 
данных предложенный подход показывает достаточно высокую «акку-
ратность». При экспериментах по первому набору она составляет 92,7%, 
по второму — 86,1%. Для второго набора эта величина оказалась меньше, 

Kotenko I., et al. Analysis and Evaluation of Web Pages Classification Techniques for 
Inappropriate Content Blocking / I. Kotenko, A. Chechulin, A. Shorov, D. Komashinsky // 
Proc. of 14th Industrial Conf. on Data Mining (ICDM 2014). 2014. P. 39–54.

Porter M. F. An algorithm for suffix stripping // Program. Vol. 14. No. 3. 1980. P. 130–137.


г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
191
р
аздел
II. и
нформационные
угрозы
и
информационно
-
ПСихологичеСкая
безоПаСноСть
в
глобальном
измерении
поскольку в нем присутствует большее количество категорий (7 против 
4), что затрудняет классификацию.
Рис. 19. Результаты экспериментальной оценки «аккуратности»
На рис. 20 и рис. 21 представлены экспериментальные оценки «аккурат-
ности» по каждому набору данных в разрезе различных анализируемых 
классификационных признаков. Из рисунков видно, что наибольшего 
значения «аккуратность» классификаторов достигает при анализе основ-
ного текста (81,7% и 73,0% для первого и второго набора соответственно). 
На втором месте оказался классификатор, ориентированный на анализ 
содержимого ссылок (70,7% и 58,6%).
Рис. 20. Оценка «аккуратности» на наборе 1


192
г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
И
нформацИонно
-
псИхологИческая
И
когнИтИвная
безопасность
Данные результаты показывают, что анализ специфики веб-докумен-
тов обладает достаточно высокой эффективностью. Интернет-ресурсы 
обычно связаны с другими сайтами похожей тематики, поэтому учет 
подобной специфики является именно тем фактором, который отлича-
ет классификацию веб-страниц от классификации обычных текстовых 
документов. Другие признаки, обладающие высокими значениями акку-
ратности, — это текст из тэга  и <i>n</i>-граммы. Для первого набора:  <br />53,6% и 53,6% соответственно, для второго: 53,6% и 47,2% соответственно. <br />Рис. 21. Оценка «аккуратности» на наборе 2 <br />На рис. 22 и рис. 23 представлены результаты экспериментальной  <br />оценки других показателей — точности, полноты и <i>F</i>-меры. <br />Рис. 22. Оценка точности, полноты и F-меры на наборе 1 <br /></div> <style type="text/css"> </style> <hr /><div id="page193-div" > <br />г <br />лава <br />5. з <br />ащита <br />от <br />нежелательной <br />и <br />вредоноСной <br />информации <br />в <br />глобальных <br />информационных <br />Сетях <br />193 <br />р <br />аздел <br />II. и <br />нформационные <br />угрозы <br />и <br />информационно <br />- <br />ПСихологичеСкая <br />безоПаСноСть <br />в <br />глобальном <br />измерении <br />Из рисунков видно, что предложенный подход в целом отличает  <br />высокая точность. Исключениями являются сайты категории «Медицина»  <br />для первого набора и категории «Онлайн-игры» — для второго. <a href="/potenciometr-demonstraciya-kontrolya-osvesheniya-dioda.html">Значения  </a><br />полноты в большинстве своем достигают 85–95%. Исключения составляют  <br />категория «Религия» для набора 1 и категории «Медицина» и «Религия»  <br />для набора 2. Для категорий-исключений, показавших в предложенном  <br />подходе более плохое качество классификации, в будущем планируется  <br />добавить классификаторы на основе новых аспектов, что в целом повысит  <br />эффективность функционирования системы защиты от информации. <br />Рис. 23. Оценка точности, полноты и F-меры на наборе 2 <br />Из анализа полученных результатов также можно сделать вывод, что  <br />большинство классификаторов характеризуется высокими (87–98%)  <br />значениями показателя «точность». Это объясняется использованием  <br />деревьев решений в качестве базовых классификаторов <a href="/statistika-svidetelestvuet-chto-i-posle-vvedeniya-v-praktiku-o.html">и свидетельствует  </a><br />о том, что большинство предсказаний соответствует действительности.  <br />В то же время значение показателя «полнота» в большинстве классифи- <br />каторов не превышает 50%. Это означает, что в «сомнительных» случаях  <br />классификатор не стремится отнести информацию к той или иной из сво- <br />их категорий. Эта особенность важна, например, для производителей  <br />антивирусного ПО, для которых недопустимо большое число ложных  <br />срабатываний. <br />При совместном анализе различных признаков точность и полнота  <br />классификации приобретают <a href="/organizaciya-obslujivaniya-gostej-kategorii-vip-na-primere.html">достаточно высокие значения</a>, что объясня- <br />ется объединением и комбинированием классификаторов, анализирующих  <br /></div> <style type="text/css"> </style> <hr /><div id="page194-div" > <br />194 <br />г <br />лава <br />5. з <br />ащита <br />от <br />нежелательной <br />и <br />вредоноСной <br />информации <br />в <br />глобальных <br />информационных <br />Сетях <br />И <br />нформацИонно <br />- <br />псИхологИческая <br />И <br />когнИтИвная <br />безопасность <br />отдельные признаки. В результате система защиты от информации до- <br />статочно редко относит веб-сайты к неизвестным (высокая полнота),  <br />а количество ложных срабатываний будет достаточно низким (высокая  <br />точность). Соответственно, <i>F</i>-мера у системы защиты, определяемая через  <br />эти два показателя, также будет высокой. В настоящем разделе показано,  <br />что защита от нежелательной и вредоносной <a href="/reshenie-globalenih-ekonomicheskih-problem-kak-neobhodimoe-usl.html">информации в глобальных  </a><br />информационных сетях является достаточно большой проблемой, основ- <br />ным направлением решения которой является создание и использование  <br />автоматизированных систем, способных осуществлять классификацию  <br />веб-сайтов по различным признакам с использованием методов интел- <br />лектуального анализа данных. Предложенный подход к построению  <br />классификатора веб-сайтов реализует трехуровневую иерархическую  <br />архитектуру. Экспериментальная оценка программного прототипа автома- <br />тизированной системы защиты, реализующего эту архитектуру, показала  <br />достаточно высокие значения показателей <a href="/sushestvuet-neskoleko-klassifikacij-boleznej-rastenij-snachala.html">эффективности классификации  </a><br />для различных категорий веб-сайтов и позволила выявить направления  <br />дальнейших исследований, среди которых следует выделить повышение  <br />полноты принимаемых решений на основе использования других типов  <br />признаков, в том числе текстовых. Работа выполнена при финансовой  <br />поддержке гранта РНФ 15–11–30029 в СПИИРАН. <br /></div> <style type="text/css"> </style> <hr /><div id="page195-div" > <br />
Download 6.15 Mb.

Do'stlaringiz bilan baham:
1   ...   79   80   81   82   83   84   85   86   ...   133




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling