Монография / Под ред. И. Ф. Кефели, Р. М. Юсупова. Ид «Петрополис»
Реализация и экспериментальная оценка системы защиты от инфор-
Download 6.15 Mb. Pdf ko'rish
|
bezopastnost
Реализация и экспериментальная оценка системы защиты от инфор-
мации. На основе анализа возможных способов построения автомати- зированной системы защиты от информации было решено представить ее программную инфраструктуру в виде набора программных модулей с четко определенными входами и выходами, последовательная работа которых будет обеспечивать весь процесс классификации веб-сайтов. Отличительными чертами этой инфраструктуры являются 1 : 1) встроенный аналитический модуль, сочетающий различные алго- ритмы и методы машинного обучения, который будет не только следовать предустановленным правилам, но и самообучаться; 2) использование различных аспектов веб-страниц (текстовое содер- жимое, структурные признаки, URL-адрес); 3) модульность структуры. В реализованном программном прототипе этой инфраструктуры на первоначальном этапе производится загрузка из Интернета катего- рированных списков веб-сайтов. Использовались следующие источники данных: URLBlacklist 2 , Shalla’s Blacklist 3 и DMOZ 4 . Каждый из источни- 1 Новожилов Д. А., Чечулин А. А. Разработка стенда для проведения экспериментов с методами классификации веб-сайтов // Часть 9-й Российской мультиконференции по проблемам управления (РМКПУ-2016) — конференция «Информационные тех- нологии в управлении» (ИТУ-2016). 4–6 октября 2016 г. Материалы конференции. — СПб., 2016. С. 740–749. 2 URLBlacklist URL: http://urlblacklist.com/. 3 Shalla. URL: http://www.shallalist.de/. 4 DMOZ. URL: https://www.dmoz.org/. г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях 189 р аздел II. и нформационные угрозы и информационно - ПСихологичеСкая безоПаСноСть в глобальном измерении ков имеет свой формат представления данных. Например, URLBlacklist состоит из набора папок, имена которых соответствуют категориям классификации, а внутри каждой из них присутствует файл domains, содержащий URL конкретных веб-сайтов, относящихся к данной кате- гории. Shalla’s Blacklist обладает похожей структурой, однако допускает наличие вложенных подпапок. DMOZ же имеет иерархическую структуру и поставляется в виде двух XML-файлов, в одном из которых содержится перечень всех доступных категорий и подкатегорий, а во втором — URL принадлежащих к ним веб-сайтов. По окончании загрузки содержимое списков извлекается и помещается в базу данных. Затем по имеющимся URL веб-сайтов происходит загрузка их HTML-представления. После загрузки из сохраненного HTML-представления извлекаются различные признаки, используемые в процессе анализа. Источниками признаков являются следующие аспекты веб-страниц 5 : 1) текстовые (полный текст веб-страницы и текст, извлеченный из HTML-тэгов, например, содержимое тега ); 2) структурные (статистика HTML-тэгов); 3) URL-страницы (для последующего анализа n-грамм). Другими аспектами, которые возможно анализировать (их анализ является одним из направлений будущей деятельности), являются: 1) изображения; 2) информация от WHOIS-серверов, которые позволяют получить регистрационные данные о владельцах доменных имен и IP-адресов, а также другую информацию; 3) динамическое содержимое, генерируемое на странице с помощью языка JavaScript. После того, как все данные собраны, выполняется их очистка. В част- ности, из полученного текста веб-страниц удаляются все символы, кроме пробелов и букв алфавита, которые затем преобразуются к нижнему регистру. За очисткой следует этап построения словаря и преобразования признаков в форматы, воспринимаемые специальным ПО для анализа данных. Из специального ПО используется средство RapidMiner 6 . В про- цессе своей работы оно осуществляет построение моделей и обучение классификаторов от первого до третьего уровней. Отчеты, полученные 5 Download 6.15 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling