Переобучение – это чрезмерно точная подгонка АФ 𝑎𝑆 под обучаю- щую выборку 𝑆, которая дает сильные отклонения значений 𝑎𝑆() от правильных значений (т.е. от 𝑓 ()) для многих объектов , не входящих в обучающую выборку 𝑆.
Причины возникновения переобучения:
∙
излишние степени свободы в предсказательной модели 𝑎(, ), при- водящие к учету при построении 𝑎𝑆 различных шумов, неточностей и ошибок в данных,
неполнота обучающей выборки 𝑆.
Переобучение можно обнаружить следующими способами.
Cкользящий контроль (LOO, leave-one-out).
Пусть задана обучающая выборка 𝑆 = {(, ) | = 1, . . . , }.
∀ = 1, . . . , обозначим записью 𝑆 − выборку
{(, ) | = 1, . . . , − 1, + 1, . . . , }.
Признаком переобучения является высокое значение выражения
Данный способ контроля переобучения можно представить в ви- де одного из условий оптимальности алгоритма обучения: данное условие имеет вид
Кросс-проверка (cross-validation).
Делается разбиение выборки на две части 𝑆 1 и 𝑆 2, обучение идет по 𝑆 1, а 𝑆 2 используется для проверки качества обучения.
Признаком переобучения является высокое значение выражения
𝑄(𝑎 𝑆1 , 𝑆 2).
1
2
1
2
Данный способ контроля переобучения тоже можно представить в виде одного из условий оптимальности алгоритма обучения: выби- рается 𝑁 различных разбиений обучающей выборки 𝑆 на две части (︁𝑆(1), 𝑆(1))︁, . . . , (︁𝑆(𝑁 ), 𝑆(𝑁 ))︁,
и одно из условий оптимальности алгоритма обучения имеет вид
∑︁
𝑁
1
𝑄(𝑎
=1
𝑆()
, 𝑆()) → min
Do'stlaringiz bilan baham: |