Монография / Под ред. И. Ф. Кефели, Р. М. Юсупова. Ид «Петрополис»


Подходы к построению автоматизированной системы защиты


Download 6.15 Mb.
Pdf ko'rish
bet78/133
Sana18.07.2023
Hajmi6.15 Mb.
#1660834
TuriКнига
1   ...   74   75   76   77   78   79   80   81   ...   133
Bog'liq
bezopastnost

Подходы к построению автоматизированной системы защиты 
от информации. Для разработки подхода к построению автоматизирован-
ной системы защиты от информации рассмотрим вначале существующие 
решения, применяемые к анализу веб-сайтов и реализованные в известных 
автоматизированных системах. Существуют решения, которые основыва-
ются на проверке вхождения заранее определенных ключевых слов и их 


г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
181
р
аздел
II. и
нформационные
угрозы
и
информационно
-
ПСихологичеСкая
безоПаСноСть
в
глобальном
измерении
сочетаний, а также других правилах, задаваемых, например, с помощью 
регулярных выражений. На их основании принимается решение: разре-
шать или блокировать веб-сайт. Недостатком такого метода является его 
низкая точность, так как слова могут быть заменены на синонимы, что 
приведет к пропуску нежелательной информации, а наличие запрещенных 
слов, используемых в «легальном» контексте, может привести к запрету 
доступа к веб-сайтам, не содержащим нежелательной информации.
Другой подход связан с использованием режима безопасного поиска 
на поисковых сайтах Яндекс или Google. Их основной недостаток заключа-
ется в ограниченной применимости. Пользователь может зайти на менее 
популярную поисковую систему, в которой данный режим не предусмот-
рен, или попасть на нежелательную веб-страницу по внешней ссылке. 
Многие системы используют ведение и анализ «белого» или «черного» 
списков. В первом случае запрещается подключение ко всем сайтам, кроме 
заранее определенного «белого» списка. Во втором случае блокировка 
сайта осуществляется только тогда, когда он присутствует в «черном» 
списке. Однако оба эти подхода имеют существенный недостаток, об-
условленный высокой изменчивостью веб-сайтов. После формирования 
списков тематика сайтов может измениться, что приведет к получению 
нежелательной или блокировке необходимой информации. Трудность 
выявления нежелательной информации среди значительных объемов 
разнородных, зачастую противоречивых и изменчивых данных обуслов-
лена, в т. ч., особенностями построения веб-сайтов. Обычно они имеют 
сложную иерархическую структуру и состоят из множества элементов: 
форматированного текстового и графического содержимого, программ-
ного кода, ссылок на другие документы и т. д. Поэтому нежелательная 
информация не всегда определяется на основе одних только текстовых 
признаков. Зачастую в определении направленности сайта помогает 
информация об указателе (адресе) размещения сайта в Интернете (URL) 
или структурных особенностях.
Общий недостаток систем, использующих заранее определенные 
слова, правила или списки, состоит в отсутствии возможности само-
обучения. Поэтому в некоторых системах предлагается использовать 
подходы, основанные на методах машинного обучения. Основная 
задача этих методов формулируется следующим образом: требуется 
отнести исследуемый объект к одному из множества заранее извест-
ных классов. Применительно к защите от нежелательной информации 
примером применения методов машинного обучения может послужить 
функционирование системы родительского контроля, распределяющей 


182
г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
И
нформацИонно
-
псИхологИческая
И
когнИтИвная
безопасность
веб-страницы по категориям и блокирующую те из них, которые ока-
зались нежелательными («сайты для взрослых», «алкоголь», «ору-
жие», «наркотики» и т. д.). При рассмотрении предлагаемого подхода 
к построению автоматизированной системы защиты от информации 
остановимся на двух его аспектах: общей архитектуре предлагаемого 
классификатора и механизме извлечения данных для анализа веб-стра-
ниц. Как было указано выше, веб-страницы отличаются от обычных 
текстовых документов более высокой сложностью и, прежде всего, тем, 
что они частично структурированы (semi-structured) с помощью HTML-
тэгов разметки, связаны между собой ссылками, содержат фрагменты 
кода, исполняемого как на стороне сервера, так и у клиента. Поэтому 
в процессе классификации предлагается учитывать указанные аспекты 
веб-страниц. Классификатор является важнейшей частью автоматизиро-
ванной системы защиты от информации. На его основе функционирует 
аналитический модуль системы. Особенность предлагаемой архитекту-
ры классификатора заключается в том, что она, по сути, представляет 
собой иерархию классификаторов (рис. 18).
В рамках каждого из аспектов веб-страницы (текстового содержимого, 
структурных особенностей, URL сайта и других) существуют класси-
фикаторы 1-го уровня. Их количество совпадает с числом категорий 
классификации. Каждый из них принимает решение о принадлежности 
поступающих на вход данных к своей категории. Результаты классифика-
торов 1-го уровня служат входными данными для классификатора 2-го 
уровня — мета-алгоритма (например, Stacking), который принимает реше-
ние на основе информации от классификаторов 1-го уровня. Результаты 
классификаторов 2-го уровня по каждому из аспектов анализируются 
классификатором 3-го уровня, выдающим окончательное решение о при-
надлежности веб-страницы к тому или иному классу. Данный подход 
является модульным и, как следствие, позволяет легко добавлять новые 
аспекты и категории. Более того, каждый из алгоритмов классификации 
является «черным ящиком» с входами и выходами, что позволяет легко 
заменять одни алгоритмы другими на каждом из уровней.
Еще одним из преимуществ данной архитектуры является локали-
зация изменений, так как переобучение может происходить только для 
отдельных классификаторов. Кроме того, достоинством данного подхо-
да является возможность «дообучения» классификаторов. С течением 
времени информация устаревает: например, с появлением новых видов 
веществ в категории «наркотики» классификатор, обученный на ста-
рых данных, будет работать хуже. Однако, используя предложенную 


г
лава
5. з
ащита
от
нежелательной
и
вредоноСной
информации
в
глобальных
информационных
Сетях
183
р
аздел
II. и
нформационные
угрозы
и
информационно
-
ПСихологичеСкая
безоПаСноСть
в
глобальном
измерении
архитектуру, можно актуализировать отдельные классификаторы, об-
учив их на обновленной информации. При этом остальные компоненты 
системы не будут затронуты.
Предлагаемый механизм извлечения данных для анализа веб-страниц 
основывается на анализе следующих признаков:
1) текстового содержимого 
1
;
2) адреса размещения сайта в Интернете (URL);
3) структурных признаков (HTML-тэгов) 
2
;
4) истории сайта (возраст сайта, страна, в которой зарегистрирован 
сайт, организация, предоставляющая хостинг сайту, история сер-
веров, на которых размещался сайт);
5) внешних источников информации («черные» или «белые» списки, 
ответы от поисковых систем).
Все перечисленные выше признаки в той или иной мере использова-
лись в ряде известных методов классификации.
Классификация по текстовому содержимому является наиболее широ-
ко применяемым методом, состоящим из двух этапов. На первом этапе 
производится подготовка данных с переводом их в форму, восприни-
маемую классификатором. На этом этапе осуществляется удаление тегов 
разметки, извлечение текстового содержимого веб-страниц, выполнение 
операции стемминга (т. е. сохранение основы слов и отбрасывание их 
окончаний), исключение знаков препинания, а также стоп-слов в виде 
предлогов, союзов, местоимений и т. д. Второй этап состоит в подаче 
предварительно обработанных данных на тот или иной стандартный 
текстовый классификатор (Naïve Bayess, SVM и т. д.).
Большинство известных методов текстовой классификации осно-
вываются на разделении выборки на две части: тестовую и обучающую 


Download 6.15 Mb.

Do'stlaringiz bilan baham:
1   ...   74   75   76   77   78   79   80   81   ...   133




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling