Монография / Под ред. И. Ф. Кефели, Р. М. Юсупова. Ид «Петрополис»
Download 6.15 Mb. Pdf ko'rish
|
bezopastnost
Khonji M., Iraqi Y., Jones A. Enhancing Phishing E-Mail Classifiers: A Lexical URL
Analysis Approach // Intern. Journal for Information Security Research. 2012. Iss. 6. P. 236–245. 2 Ma J., et al. Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs/ J. Ma, L. K. Saul, S. Savage, G. M. Voelker // Proc. of Conf. on Knowledge Discovery and Data Mining. 2009. P. 1245–1254. 3 Kan M.-Y., Thi H. O.N. Fast Webpage Classification Using URL Features // Proc. of Conf. on Information and Knowledge Management. 2005. P. 325–326. 4 Geide M. N-gram Character Sequence Analysis of Benign vs. Malicious Domains/ URLs. http://analysis-manifold.com/ngram_whitepaper.pdf. г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях 187 р аздел II. и нформационные угрозы и информационно - ПСихологичеСкая безоПаСноСть в глобальном измерении может быть использование информации об HTML-тэгах сайта. Здесь также существуют различные подходы к анализу. Важным источником может служить информация, заключенная в таких тэгах, как , которая, наряду с текстовым содержимым веб-страниц, извле- калась специальным парсером 5 . С другой стороны, существуют методы, основанные на подсчете количества тэгов на странице 6 . Таким образом, построение автоматизированной системы защиты от информации необ- ходимо осуществлять на основе следующих принципов: 1) выделение из всех доступных данных такой информации, кото- рая является наиболее значимой для анализа информационного содержимого веб-сайта; 2) поиск наиболее значимых внешних источников информации, позволяющих производить анализ; 3) объединение разнородной информации от множества источников в общее представление о веб-сайте; 4) минимизация нагрузки на хосты конечных пользователей при сборе информации; 5) противодействие намеренным и случайным искажениям (шумам) в информации, получаемой от внешних источников; 6) поиск эффективных методик определения категории веб-страниц с требуемыми значениями производительности, вычислительной сложности и точности принятия решения. Возможная реализация автоматизированной системы защиты от информации на back-end сервере (серверах) может базироваться на комбинации следующих двух подходов: 1) использование роботов-пауков, оценивающих сайты по мере возможности, 2) применение модуля, оценивающего каждую запрашиваемую стра- ницу по запросам от пользователя. 5 Patil A. S., Pawar B. V. Automated Classification of Web Sites using Naive Bayesian Algorithm // Proc. of the Intern. Multiconf. of Engineers and Computer Scientists. 2012. P. 466; Riboni D. Feature Selection for Web Page Classification // Proc. of the Workshop on Web Content Mapping: A Challenge to ICT (EURASIA-ICT). 2002. P. 121–128. 6 Kotenko I., et al. Analysis and Evaluation of Web Pages Classification Techniques for Inappropriate Content Blocking / I. Kotenko, A. Chechulin, A. Shorov, D. Komashinsky // Proc. of 14th Industrial Conf. on Data Mining (ICDM 2014). 2014. P. 39–54; Meshkizadeh S., Masoud-Rahmani A. Webpage Classification Based on Compound of Using HTML Features & URL Features and Features of Sibling Pages // Intern. Journal of Advanced Computer Technology. 2010. Iss. 2(4). P. 36–46. 188 г лава 5. з ащита от нежелательной и вредоноСной информации в глобальных информационных Сетях И нформацИонно - псИхологИческая И когнИтИвная безопасность На клиентской части (front-end) системы предполагается использовать запасной модуль анализа. Этот модуль необходим в случае разрыва свя- зи с сервером, в обычное время он отключен. Кроме того, для большей надежности и гибкости системы возможно ведение простого поиска по ключевым словам. Достоинства данного подхода заключаются в его высокой производительности (не требуется дополнительных расхо- дов, кроме возможных расходов на оборудование), в защите от сайтов, не скрывающих свою принадлежность к какой-либо категории, а также в возможности оценки всех запрашиваемых сайтов. К недостаткам можно отнести: возможность обмана системы (создание сайта таким образом, чтобы автоматическая система давала некорректную оценку); ложные срабатывания; потребность использования мощного вычислительного оборудования при большом количестве запросов к сайтам; устаревание оценки (в случае использования только робота-паука). Download 6.15 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling