Монография / Под ред. И. Ф. Кефели, Р. М. Юсупова. Ид «Петрополис»
Download 6.15 Mb. Pdf ko'rish
|
bezopastnost
Kotenko I., Chechulin A., Komashinsky D. Categorization of web pages for protection
against inappropriate content in the Internet // International Journal of Internet Protocol Technology (JIPT), 2016. http://www.inderscience.com/info/ingeneral/forthcoming. php?jcode=ijipt. 6 Rapid Miner. URL: https://rapidminer.com/. 190 г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях И нформацИонно - псИхологИческая И когнИтИвная безопасность по результатам классификации веб-страниц, отображаются затем в фор- мате Microsoft Excel 1 . На исходные данные, которые используются для обучения системы и проверки ее работы, накладывались следующие ограничения: 1) длина основного текста веб-страниц после процедуры очистки должна находиться в пределах от 500 до 5000 байт. Данное значение, установленное экспериментально, позволяет исключить из выбор- ки сайты со слишком коротким содержимым (которое обычно не относится к категории, например, сообщение о необходимости включить JavaScript или обновить Flash Player), а также слишком большие по объему сайты (на которых будут встречаться слова из всех категорий, что снизит качество обучения); 2) в выборку включались только те веб-страницы, основной язык которых — английский. Подобное ограничение объясняется особен- ностями лексического анализатора (стеммера) Портера 2 , который лучше всего работает со словами английского языка. В соответствии с введенными ограничениями были выделены два набора данных. Первый из них включал следующие категории: «Сайты для взрослых» (adult), «Алкоголь» (alcohol), «Сайты о меди- цине» (medical) и «Сайты о религии» (religion). Во второй набор были добавлены «Онлайн-игры» (gamesonline), «Охота» (hunting) и «Музыка» (music). Все они могут использоваться в процессе защи- ты несовершеннолетних от нежелательной информации и борьбы с распространением нелицензионного контента. Помимо перечисленных сайтов, в каждом из наборов также присутст- вовала дополнительно введенная категория, указывающая на неизвестный результат, получившая наименование «Unknown». Количество веб-страниц во всех наборах данных было взято одинаковым и равным 1200. Результаты экспериментальной оценки предложенного подхода к проведению классификации веб-сайтов применительно к двум набо- рам данных представлены на рис. 19–23. На рис. 19 приведена оценка по показателю «аккуратность». Из рисунка видно, что для обоих наборов данных предложенный подход показывает достаточно высокую «акку- ратность». При экспериментах по первому набору она составляет 92,7%, по второму — 86,1%. Для второго набора эта величина оказалась меньше, 1 Kotenko I., et al. Analysis and Evaluation of Web Pages Classification Techniques for Inappropriate Content Blocking / I. Kotenko, A. Chechulin, A. Shorov, D. Komashinsky // Proc. of 14th Industrial Conf. on Data Mining (ICDM 2014). 2014. P. 39–54. 2 Porter M. F. An algorithm for suffix stripping // Program. Vol. 14. No. 3. 1980. P. 130–137. г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях 191 р аздел II. и нформационные угрозы и информационно - ПСихологичеСкая безоПаСноСть в глобальном измерении поскольку в нем присутствует большее количество категорий (7 против 4), что затрудняет классификацию. Рис. 19. Результаты экспериментальной оценки «аккуратности» На рис. 20 и рис. 21 представлены экспериментальные оценки «аккурат- ности» по каждому набору данных в разрезе различных анализируемых классификационных признаков. Из рисунков видно, что наибольшего значения «аккуратность» классификаторов достигает при анализе основ- ного текста (81,7% и 73,0% для первого и второго набора соответственно). На втором месте оказался классификатор, ориентированный на анализ содержимого ссылок (70,7% и 58,6%). Рис. 20. Оценка «аккуратности» на наборе 1 192 г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях И нформацИонно - псИхологИческая И когнИтИвная безопасность Данные результаты показывают, что анализ специфики веб-докумен- тов обладает достаточно высокой эффективностью. Интернет-ресурсы обычно связаны с другими сайтами похожей тематики, поэтому учет подобной специфики является именно тем фактором, который отлича- ет классификацию веб-страниц от классификации обычных текстовых документов. Другие признаки, обладающие высокими значениями акку- ратности, — это текст из тэга 53,6% и 53,6% соответственно, для второго: 53,6% и 47,2% соответственно. Рис. 21. Оценка «аккуратности» на наборе 2 На рис. 22 и рис. 23 представлены результаты экспериментальной оценки других показателей — точности, полноты и F-меры. Рис. 22. Оценка точности, полноты и F-меры на наборе 1 г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях 193 р аздел II. и нформационные угрозы и информационно - ПСихологичеСкая безоПаСноСть в глобальном измерении Из рисунков видно, что предложенный подход в целом отличает высокая точность. Исключениями являются сайты категории «Медицина» для первого набора и категории «Онлайн-игры» — для второго. Значения полноты в большинстве своем достигают 85–95%. Исключения составляют категория «Религия» для набора 1 и категории «Медицина» и «Религия» для набора 2. Для категорий-исключений, показавших в предложенном подходе более плохое качество классификации, в будущем планируется добавить классификаторы на основе новых аспектов, что в целом повысит эффективность функционирования системы защиты от информации. Рис. 23. Оценка точности, полноты и F-меры на наборе 2 Из анализа полученных результатов также можно сделать вывод, что большинство классификаторов характеризуется высокими (87–98%) значениями показателя «точность». Это объясняется использованием деревьев решений в качестве базовых классификаторов и свидетельствует о том, что большинство предсказаний соответствует действительности. В то же время значение показателя «полнота» в большинстве классифи- каторов не превышает 50%. Это означает, что в «сомнительных» случаях классификатор не стремится отнести информацию к той или иной из сво- их категорий. Эта особенность важна, например, для производителей антивирусного ПО, для которых недопустимо большое число ложных срабатываний. При совместном анализе различных признаков точность и полнота классификации приобретают достаточно высокие значения, что объясня- ется объединением и комбинированием классификаторов, анализирующих 194 г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях И нформацИонно - псИхологИческая И когнИтИвная безопасность отдельные признаки. В результате система защиты от информации до- статочно редко относит веб-сайты к неизвестным (высокая полнота), а количество ложных срабатываний будет достаточно низким (высокая точность). Соответственно, F-мера у системы защиты, определяемая через эти два показателя, также будет высокой. В настоящем разделе показано, что защита от нежелательной и вредоносной информации в глобальных информационных сетях является достаточно большой проблемой, основ- ным направлением решения которой является создание и использование автоматизированных систем, способных осуществлять классификацию веб-сайтов по различным признакам с использованием методов интел- лектуального анализа данных. Предложенный подход к построению классификатора веб-сайтов реализует трехуровневую иерархическую архитектуру. Экспериментальная оценка программного прототипа автома- тизированной системы защиты, реализующего эту архитектуру, показала достаточно высокие значения показателей эффективности классификации для различных категорий веб-сайтов и позволила выявить направления дальнейших исследований, среди которых следует выделить повышение полноты принимаемых решений на основе использования других типов признаков, в том числе текстовых. Работа выполнена при финансовой поддержке гранта РНФ 15–11–30029 в СПИИРАН. |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling