Машиностроение и компьютерные технологии
30
3. Тренировочные данные подаются на вход алгоритму с наилучшими гиперпара-
метрами. На выходе получаем модель.
4.
Производится оценка точности, полученной на прошлом этапе модели на тесто-
вых данных.
Рис. 2. Визуальное представление метода кросс-валидации с определением гиперпараметров
5. Тренировочные и тестовые данные объединяются и подаются на вход алгорит-
му с наилучшими гиперпарметрами. На выходе получается финальная модель.
Описание используемого метода разделения данных на тренировочные и тестовые, а
также используемой метрики для оценки точности представлено в следующих двух разде-
лах.
Машиностроение и компьютерные технологии
31
3.2. Разделение данных
Разделение данных на тренировочные и тестовые в данной работе производится ме-
тодом стратификации, который состоит из двух следующих этапов:
1. Все доступные данные делятся на классы (в контексте данной работы два клас-
са: боты и пользователи).
2. Из каждого класса случайным образом выбираются в определенном соотноше-
нии тренировочные и тестовые данные (например, 70% тренировочных и 30%
тестовых).
Стратификационное разделение данных рекомендуется
применять в случае сильно
несбалансированных данных (когда количество элементов какого-то
класса значительно
больше количества элементов другого), чтобы избежать ситуации, когда в тренировочных
или тестовых данных отсутствуют элементы одного из классов. Кроме того, согласно ис-
следованию [21] стратификация имеет положительный эффект на
разброс и смещение
оценки точности при кросс-валидационной проверке по блокам.
Do'stlaringiz bilan baham: