Метод стохастического градиента
В том случае, когда обучающая выборка 𝑆 имеет большой размер, при- менение МГС может вызвать большие вычислительные сложности, т.к.
∇
на каждой итерации необходимо вычислять градиент 𝑄(()), который зависит от всех элементов обучающей выборки 𝑆:
𝜕
𝜕
()
=1
∀ = 1, . . . , 𝜕𝑄 (()) = 1 ∑︁ 𝜕ℒ(𝑎(, ), )
Для ускорения процесса обучения иногда вместо правила (2.27) ис- пользуется правило
∈ { }
∆ = −∇ℒ(𝑎(, (0)), )𝜂, (2.30) где число 1, . . . , на каждой итерации процесса обучения выби- рается случайно. Соответствующий метод обучения (с правилом (2.30)
вместо (2.27)) называется методом стохастического градиента.
Одной из актуальных проблем является управление выбором в (2.30) на каждой итерации процесса обучения, так, чтобы сходимость () к оп- тимальному параметру была бы как можно более быстрой.
Регуляризация
Одной из нежелательных ситуаций во время обучения является чрез- мерный рост |() |. Данная ситуация может возникнуть, например, в следующем случае: предсказательная модель 𝑎 : 𝑋 × 𝑊 → 𝑌 имеет вид
𝑎(, ) = 𝑔(⟨, ⟩), где ∈ 𝑋 ⊆ R,
∃ ∈ ∀ ∈ ⟨ ⟩
и R : 𝑋 , = 0.
Нетрудно видеть, что в этом случае
∀ 𝛾 ∈ R 𝑎(, + 𝛾) = 𝑔(⟨, + 𝛾⟩) = 𝑔(⟨, ⟩) = 𝑎(, )
∀ ∈
откуда следует, что если минимальное значение риска будет достигаться на ˆ, то такое же значение риска будет достигаться на ˆ + 𝛾 ( 𝛾 R), т.е. параметр , минимизирующий риск, м.б. как угодно большим.
| |
Для борьбы с чрезмерным увеличением () используется метод, называемый регуляризацией. Суть данного метода заключается в мо-
дификации минимизируемой функции: она может иметь, например, вид
𝑄(𝑎𝑆
) + 𝜏 | |2,
2
где 𝜏 – некоторое положительное число. В этом случае (2.27) заменяется на правило
∆ = −∇𝑄( (0))𝜂 − 𝜏 𝜂. (2.31)
Можно модифицировать не минимизируемую функцию, а функцию
потерь: вместо ℒ рассматривать ℒ ˜def ℒ+ 𝜏 | | 2, в этом случае (2.27) тоже
= 2
заменяется на (2.31).
Do'stlaringiz bilan baham: |