Машиностроение и компьютерные технологии
31
3.2. Разделение данных
Разделение данных на тренировочные и тестовые в данной работе производится ме-
тодом стратификации, который состоит из двух следующих этапов:
1. Все доступные данные делятся на классы (в контексте данной работы два клас-
са: боты и пользователи).
2. Из каждого класса случайным образом выбираются в определенном соотноше-
нии тренировочные и тестовые данные (например, 70% тренировочных и 30%
тестовых).
Стратификационное разделение данных рекомендуется применять в случае сильно
несбалансированных данных (когда количество элементов какого-то класса значительно
больше количества элементов другого), чтобы избежать ситуации, когда в тренировочных
или тестовых данных отсутствуют элементы одного из классов. Кроме того, согласно ис-
следованию [21] стратификация имеет положительный эффект на разброс и смещение
оценки точности при кросс-валидационной проверке по блокам.
Do'stlaringiz bilan baham: