Представлена в редакцию
Download 1.31 Mb. Pdf ko'rish
|
raspoznavanie-botov-v-onlaynovyh-sotsialnyh-setyah-pri-pomoschi-algoritma-sluchaynyy-les
- Bu sahifa navigatsiya:
- 10.24108/0419.0001473 Представлена в редакцию: 19.03.2019 © НП «НЭИКОН» УДК 004.89+004.77 Распознавание ботов в онлайновых
- Ключевые слова
Машиностроение и компьютерные технологии 24 Ссылка на статью: // Машиностроение и компьютерные технологии. 2019. № 04. С. 24–41. DOI: 10.24108/0419.0001473 Представлена в редакцию: 19.03.2019 © НП «НЭИКОН» УДК 004.89+004.77 Распознавание ботов в онлайновых социальных сетях при помощи алгоритма «Случайный лес» Хачатрян М.Г. 1, * , Ключарев П.Г. 1 1 МГТУ им. Н.Э. Баумана, Москва, Россия В настоящей статье была разработана модель на основе алгоритма машинного обучения «Случайный лес», позволяющая производить распознавание ботов в онлайновой социальной сети Twitter. Обучение алгоритма было произведено на наборе данных аккаунтов Twitter, состоящем из более чем 3000 пользователей и более 6000 ботов. Для подбора оптимальных гиперпараметров алгоритма, таких как число и глубина деревьев, на которых достигается наибольшее значение F 1 -метрики, был использован алгоритм кросс-валидации. В результате обучения алгоритма, использующего найденные оптимальные гиперпараметры, была получена модель. Сравнение данной модели с моделями других авторов путем тестирования на двух наборах данных показало, что она обладает высокими точностными показателями. Ключевые слова: «Случайный лес», Twitter, кросс-валидация, F 1 -метрика, стратификация Введение Онлайновые социальные сети играют важную роль в жизни миллионов людей, пре- доставляя возможность создавать новые социальные связи [1], получать и отправлять но- вости [2], вести обсуждение по интересующей тематике и т. д. Однако, помимо выполне- ния обозначенных функций, онлайновые социальные сети предоставляют собой арену информационного противоборства [3], где под информационным противоборством пони- мается соперничество субъектов информационного конфликта с целью усиления влияния на те или иные сферы социальных отношений, итогом, которого становится получение преимущества одной противоборствующей стороной и утрата подобных преимуществ другой стороной [4]. Одним из инструментов ведения информационного противоборства являются боты. Бот [5] – это программное обеспечение, предназначенное для имитации поведения реаль- ного пользователя в онлайновых социальных сетях. При помощи ботов ведется недобро- Машиностроение и компьютерные технологии 25 совестная конкуренция, проводится политическая пропаганда, распространяется дезин- формации и т. д. Существует множество статей, посвященных ботам в онлайновых социальных сетях. Как правило в статьях рассматривается влияние ботов на пользователей онлайновых со- циальных сетей [6, 7, 8] и (или) методики их распознавания. В качестве методик распозна- вания ботов часто используются различные алгоритмы машинного обучения, такие как: наивный байесовский классификатор [9], Марковский алгоритм кластеризации [10], дере- во принятия решений [11] и т. д. Так как для алгоритмов машинного обучения требуется большое количество данных, то для исследований используются онлайновые социальные сети, которые предоставляют как можно большое количество информации о пользователях. Одной из самых используе- мых для исследований является онлайновая социальная сеть Twitter [12], в которой дос- тупна фактически вся информация о любом пользователе, если он специально не скрывает свои данные. В данной статье решается задача распознавания ботов в онлайновых социальных се- тях при помощи алгоритма машинного обучения «Случайный лес» (Random Forest). В ка- честве онлайновой социальной сети, в рамках которой решается поставленная задача, ис- пользуется Twitter. В результате проведенного исследования была разработана модель, позволяющая по определенным данным аккаунта Twitter определять, к какому классу от- носится аккаунт: бот или пользователь. Download 1.31 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling