Представлена в редакцию


Исходные данные для обучения и тестирования


Download 1.31 Mb.
Pdf ko'rish
bet3/13
Sana19.06.2023
Hajmi1.31 Mb.
#1603028
1   2   3   4   5   6   7   8   9   ...   13
Bog'liq
raspoznavanie-botov-v-onlaynovyh-sotsialnyh-setyah-pri-pomoschi-algoritma-sluchaynyy-les

2. Исходные данные для обучения и тестирования 
Данные, используемые в настоящей работе, находятся в открытом доступе и были 
представлены в статье [18]. Для обучения и тестирования алгоритма классификации 
«Случайный лес» используются данные групп, представленных в таблице 1. Каждая груп-
па представляет собой таблицу, где строки – различные аккаунты, а столбцы – признаки 
аккаунта (имя, количество опубликованных твитов
1
, количество групп, в которых состоит 
аккаунт и т. д.), по которым определяется, является аккаунт ботом или нет.
Таблица 1. Используемые группы из базы данных 
Группа 
Описание 
Количество аккаунтов 
genuine accounts 
Аккаунты обычных пользова-
телей 
3474 
social spambots #1 
Ретвитеры
2
некоего Итальян-
ского политического деятеля 
991 
social spambots #2 
Спамеры платных приложе-
ний для мобильных устройств 
3457 
social spambots #3 
Спамеры
3
продуктов на про-
дажу в Amazon.com 
464 
traditional spambots #1 
Тренировочный набор дан-
ных спамеров, используемых 
в статье [19] 
1000 
traditional spambots #2 
Спамеры вредоносных ссы-
лок 
100 
traditional spambots #3 
Спамеры рассылающие пред-
ложения о работе 
433 
Для использования исходных данных в обучении и тестировании алгоритма «Слу-
чайный лес» их необходимо преобразовать в набор векторов, содержащих численные зна-
чения. В случае признаков аккаунта Twitter не все из них возможно преобразовать в числа
которые будут подходить для обучения используемого алгоритма. Кроме того, есть при-
знаки, которые являются устаревшими и дают часто неправильные результаты (например, 
Notifications), поэтому их тоже нельзя использовать. Набор релевантных признаков акка-
унтов Twitter, который был использован для обучения и тестирования алгоритма «Слу-
чайный лес» представлен в таблице 2.  
1
Запись в онлайновой социальной сети «Twitter», размер которой не должен превышать 140 символов
2
Бот, который размещает твиты на странице своего аккаунта для определенного аккаунта 
3
Бот, который распространяет спам 


Машиностроение и компьютерные технологии
 
28 

Download 1.31 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   13




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling