Монография / Под ред. И. Ф. Кефели, Р. М. Юсупова. Ид «Петрополис»


Реализация и экспериментальная оценка системы защиты от инфор-


Download 6.15 Mb.
Pdf ko'rish
bet82/133
Sana18.07.2023
Hajmi6.15 Mb.
#1660834
TuriКнига
1   ...   78   79   80   81   82   83   84   85   ...   133
Bog'liq
bezopastnost

Реализация и экспериментальная оценка системы защиты от инфор-
мации. На основе анализа возможных способов построения автомати-
зированной системы защиты от информации было решено представить 
ее программную инфраструктуру в виде набора программных модулей 
с четко определенными входами и выходами, последовательная работа 
которых будет обеспечивать весь процесс классификации веб-сайтов.
Отличительными чертами этой инфраструктуры являются 
1
:
1) встроенный аналитический модуль, сочетающий различные алго-
ритмы и методы машинного обучения, который будет не только 
следовать предустановленным правилам, но и самообучаться;
2) использование различных аспектов веб-страниц (текстовое содер-
жимое, структурные признаки, URL-адрес);
3) модульность структуры.
В реализованном программном прототипе этой инфраструктуры 
на первоначальном этапе производится загрузка из Интернета катего-
рированных списков веб-сайтов. Использовались следующие источники 
данных: URLBlacklist 
2
, Shalla’s Blacklist 
3
и DMOZ 
4
. Каждый из источни-

Новожилов Д. А., Чечулин А. А. Разработка стенда для проведения экспериментов 
с методами классификации веб-сайтов // Часть 9-й Российской мультиконференции 
по проблемам управления (РМКПУ-2016) — конференция «Информационные тех-
нологии в управлении» (ИТУ-2016). 4–6 октября 2016 г. Материалы конференции. 
— СПб., 2016. С. 740–749.

URLBlacklist URL: http://urlblacklist.com/.

Shalla. URL: http://www.shallalist.de/.

DMOZ. URL: https://www.dmoz.org/.


г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
189
р
аздел
II. и
нформационные
угрозы
и
информационно
-
ПСихологичеСкая
безоПаСноСть
в
глобальном
измерении
ков имеет свой формат представления данных. Например, URLBlacklist 
состоит из набора папок, имена которых соответствуют категориям 
классификации, а внутри каждой из них присутствует файл domains, 
содержащий URL конкретных веб-сайтов, относящихся к данной кате-
гории. Shalla’s Blacklist обладает похожей структурой, однако допускает 
наличие вложенных подпапок. DMOZ же имеет иерархическую структуру 
и поставляется в виде двух XML-файлов, в одном из которых содержится 
перечень всех доступных категорий и подкатегорий, а во втором — URL 
принадлежащих к ним веб-сайтов. По окончании загрузки содержимое 
списков извлекается и помещается в базу данных. Затем по имеющимся 
URL веб-сайтов происходит загрузка их HTML-представления. После 
загрузки из сохраненного HTML-представления извлекаются различные 
признаки, используемые в процессе анализа. Источниками признаков 
являются следующие аспекты веб-страниц 
5
:
1) текстовые (полный текст веб-страницы и текст, извлеченный 
из HTML-тэгов, например, содержимое тега );
2) структурные (статистика HTML-тэгов);
3) URL-страницы (для последующего анализа n-грамм).
Другими аспектами, которые возможно анализировать (их анализ 
является одним из направлений будущей деятельности), являются:
1) изображения;
2) информация от WHOIS-серверов, которые позволяют получить 
регистрационные данные о владельцах доменных имен и IP-адресов, 
а также другую информацию;
3) динамическое содержимое, генерируемое на странице с помощью 
языка JavaScript.
После того, как все данные собраны, выполняется их очистка. В част-
ности, из полученного текста веб-страниц удаляются все символы, кроме 
пробелов и букв алфавита, которые затем преобразуются к нижнему 
регистру. За очисткой следует этап построения словаря и преобразования 
признаков в форматы, воспринимаемые специальным ПО для анализа 
данных. Из специального ПО используется средство RapidMiner 
6
. В про-
цессе своей работы оно осуществляет построение моделей и обучение 
классификаторов от первого до третьего уровней. Отчеты, полученные 


Download 6.15 Mb.

Do'stlaringiz bilan baham:
1   ...   78   79   80   81   82   83   84   85   ...   133




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling