Монография / Под ред. И. Ф. Кефели, Р. М. Юсупова. Ид «Петрополис»
Подходы к построению автоматизированной системы защиты
Download 6.15 Mb. Pdf ko'rish
|
bezopastnost
Подходы к построению автоматизированной системы защиты
от информации. Для разработки подхода к построению автоматизирован- ной системы защиты от информации рассмотрим вначале существующие решения, применяемые к анализу веб-сайтов и реализованные в известных автоматизированных системах. Существуют решения, которые основыва- ются на проверке вхождения заранее определенных ключевых слов и их г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях 181 р аздел II. и нформационные угрозы и информационно - ПСихологичеСкая безоПаСноСть в глобальном измерении сочетаний, а также других правилах, задаваемых, например, с помощью регулярных выражений. На их основании принимается решение: разре- шать или блокировать веб-сайт. Недостатком такого метода является его низкая точность, так как слова могут быть заменены на синонимы, что приведет к пропуску нежелательной информации, а наличие запрещенных слов, используемых в «легальном» контексте, может привести к запрету доступа к веб-сайтам, не содержащим нежелательной информации. Другой подход связан с использованием режима безопасного поиска на поисковых сайтах Яндекс или Google. Их основной недостаток заключа- ется в ограниченной применимости. Пользователь может зайти на менее популярную поисковую систему, в которой данный режим не предусмот- рен, или попасть на нежелательную веб-страницу по внешней ссылке. Многие системы используют ведение и анализ «белого» или «черного» списков. В первом случае запрещается подключение ко всем сайтам, кроме заранее определенного «белого» списка. Во втором случае блокировка сайта осуществляется только тогда, когда он присутствует в «черном» списке. Однако оба эти подхода имеют существенный недостаток, об- условленный высокой изменчивостью веб-сайтов. После формирования списков тематика сайтов может измениться, что приведет к получению нежелательной или блокировке необходимой информации. Трудность выявления нежелательной информации среди значительных объемов разнородных, зачастую противоречивых и изменчивых данных обуслов- лена, в т. ч., особенностями построения веб-сайтов. Обычно они имеют сложную иерархическую структуру и состоят из множества элементов: форматированного текстового и графического содержимого, программ- ного кода, ссылок на другие документы и т. д. Поэтому нежелательная информация не всегда определяется на основе одних только текстовых признаков. Зачастую в определении направленности сайта помогает информация об указателе (адресе) размещения сайта в Интернете (URL) или структурных особенностях. Общий недостаток систем, использующих заранее определенные слова, правила или списки, состоит в отсутствии возможности само- обучения. Поэтому в некоторых системах предлагается использовать подходы, основанные на методах машинного обучения. Основная задача этих методов формулируется следующим образом: требуется отнести исследуемый объект к одному из множества заранее извест- ных классов. Применительно к защите от нежелательной информации примером применения методов машинного обучения может послужить функционирование системы родительского контроля, распределяющей 182 г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях И нформацИонно - псИхологИческая И когнИтИвная безопасность веб-страницы по категориям и блокирующую те из них, которые ока- зались нежелательными («сайты для взрослых», «алкоголь», «ору- жие», «наркотики» и т. д.). При рассмотрении предлагаемого подхода к построению автоматизированной системы защиты от информации остановимся на двух его аспектах: общей архитектуре предлагаемого классификатора и механизме извлечения данных для анализа веб-стра- ниц. Как было указано выше, веб-страницы отличаются от обычных текстовых документов более высокой сложностью и, прежде всего, тем, что они частично структурированы (semi-structured) с помощью HTML- тэгов разметки, связаны между собой ссылками, содержат фрагменты кода, исполняемого как на стороне сервера, так и у клиента. Поэтому в процессе классификации предлагается учитывать указанные аспекты веб-страниц. Классификатор является важнейшей частью автоматизиро- ванной системы защиты от информации. На его основе функционирует аналитический модуль системы. Особенность предлагаемой архитекту- ры классификатора заключается в том, что она, по сути, представляет собой иерархию классификаторов (рис. 18). В рамках каждого из аспектов веб-страницы (текстового содержимого, структурных особенностей, URL сайта и других) существуют класси- фикаторы 1-го уровня. Их количество совпадает с числом категорий классификации. Каждый из них принимает решение о принадлежности поступающих на вход данных к своей категории. Результаты классифика- торов 1-го уровня служат входными данными для классификатора 2-го уровня — мета-алгоритма (например, Stacking), который принимает реше- ние на основе информации от классификаторов 1-го уровня. Результаты классификаторов 2-го уровня по каждому из аспектов анализируются классификатором 3-го уровня, выдающим окончательное решение о при- надлежности веб-страницы к тому или иному классу. Данный подход является модульным и, как следствие, позволяет легко добавлять новые аспекты и категории. Более того, каждый из алгоритмов классификации является «черным ящиком» с входами и выходами, что позволяет легко заменять одни алгоритмы другими на каждом из уровней. Еще одним из преимуществ данной архитектуры является локали- зация изменений, так как переобучение может происходить только для отдельных классификаторов. Кроме того, достоинством данного подхо- да является возможность «дообучения» классификаторов. С течением времени информация устаревает: например, с появлением новых видов веществ в категории «наркотики» классификатор, обученный на ста- рых данных, будет работать хуже. Однако, используя предложенную г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях 183 р аздел II. и нформационные угрозы и информационно - ПСихологичеСкая безоПаСноСть в глобальном измерении архитектуру, можно актуализировать отдельные классификаторы, об- учив их на обновленной информации. При этом остальные компоненты системы не будут затронуты. Предлагаемый механизм извлечения данных для анализа веб-страниц основывается на анализе следующих признаков: 1) текстового содержимого 1 ; 2) адреса размещения сайта в Интернете (URL); 3) структурных признаков (HTML-тэгов) 2 ; 4) истории сайта (возраст сайта, страна, в которой зарегистрирован сайт, организация, предоставляющая хостинг сайту, история сер- веров, на которых размещался сайт); 5) внешних источников информации («черные» или «белые» списки, ответы от поисковых систем). Все перечисленные выше признаки в той или иной мере использова- лись в ряде известных методов классификации. Классификация по текстовому содержимому является наиболее широ- ко применяемым методом, состоящим из двух этапов. На первом этапе производится подготовка данных с переводом их в форму, восприни- маемую классификатором. На этом этапе осуществляется удаление тегов разметки, извлечение текстового содержимого веб-страниц, выполнение операции стемминга (т. е. сохранение основы слов и отбрасывание их окончаний), исключение знаков препинания, а также стоп-слов в виде предлогов, союзов, местоимений и т. д. Второй этап состоит в подаче предварительно обработанных данных на тот или иной стандартный текстовый классификатор (Naïve Bayess, SVM и т. д.). Большинство известных методов текстовой классификации осно- вываются на разделении выборки на две части: тестовую и обучающую 1 Download 6.15 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling