Представлена в редакцию


Рис. 1. Кросс-валидация по k блокам  Рассмотрим метод кросс-валидации выбором оптимальных гиперпараметров [20]  (Рис. 2


Download 1.31 Mb.
Pdf ko'rish
bet5/13
Sana19.06.2023
Hajmi1.31 Mb.
#1603028
1   2   3   4   5   6   7   8   9   ...   13
Bog'liq
raspoznavanie-botov-v-onlaynovyh-sotsialnyh-setyah-pri-pomoschi-algoritma-sluchaynyy-les

Рис. 1. Кросс-валидация по k блокам 
Рассмотрим метод кросс-валидации выбором оптимальных гиперпараметров [20] 
(Рис. 2): 
1. Доступные данные делятся на две подгруппы: тренировочные и тестовые. 
2. Тренировочные данные подаются на вход алгоритму обучения с различными 
гиперпараметрами. Для каждой конфигурации гиперпараметров производится 
алгоритм кросс-валидации на тренировочных данных, в результате чего на вы-
ходе получаем значения точностей. 
4
Некоторые параметры алгоритма, которые не изменяются в процессе его обучения


Машиностроение и компьютерные технологии
 
30 
3. Тренировочные данные подаются на вход алгоритму с наилучшими гиперпара-
метрами. На выходе получаем модель. 
4. Производится оценка точности, полученной на прошлом этапе модели на тесто-
вых данных. 
Рис. 2. Визуальное представление метода кросс-валидации с определением гиперпараметров 
5. Тренировочные и тестовые данные объединяются и подаются на вход алгорит-
му с наилучшими гиперпарметрами. На выходе получается финальная модель. 
Описание используемого метода разделения данных на тренировочные и тестовые, а 
также используемой метрики для оценки точности представлено в следующих двух разде-
лах. 


Машиностроение и компьютерные технологии
 
31 
3.2. Разделение данных 
Разделение данных на тренировочные и тестовые в данной работе производится ме-
тодом стратификации, который состоит из двух следующих этапов:
1. Все доступные данные делятся на классы (в контексте данной работы два клас-
са: боты и пользователи). 
2. Из каждого класса случайным образом выбираются в определенном соотноше-
нии тренировочные и тестовые данные (например, 70% тренировочных и 30% 
тестовых). 
Стратификационное разделение данных рекомендуется применять в случае сильно 
несбалансированных данных (когда количество элементов какого-то класса значительно 
больше количества элементов другого), чтобы избежать ситуации, когда в тренировочных 
или тестовых данных отсутствуют элементы одного из классов. Кроме того, согласно ис-
следованию [21] стратификация имеет положительный эффект на разброс и смещение 
оценки точности при кросс-валидационной проверке по блокам. 

Download 1.31 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   13




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling