Книга представляет собой введение в основные понятия, методы и ал


Модификации метода градиентного спуска


Download 0.87 Mb.
bet14/24
Sana18.03.2023
Hajmi0.87 Mb.
#1281521
TuriКнига
1   ...   10   11   12   13   14   15   16   17   ...   24
Bog'liq
machine-learning-mironov

Модификации метода градиентного спуска

Метод стохастического градиента


В том случае, когда обучающая выборка 𝑆 имеет большой размер, при- менение МГС может вызвать большие вычислительные сложности, т.к.



на каждой итерации необходимо вычислять градиент 𝑄(()), который зависит от всех элементов обучающей выборки 𝑆:

𝜕




𝜕
()

=1

= 1, . . . , 𝜕𝑄 (()) = 1 ∑︁ 𝜕ℒ(𝑎(, ), )
Для ускорения процесса обучения иногда вместо правила (2.27) ис- пользуется правило

∈ { }
∆ = −∇ℒ(𝑎(, (0)), )𝜂, (2.30) где число 1, . . . , на каждой итерации процесса обучения выби- рается случайно. Соответствующий метод обучения (с правилом (2.30)
вместо (2.27)) называется методом стохастического градиента.
Одной из актуальных проблем является управление выбором в (2.30) на каждой итерации процесса обучения, так, чтобы сходимость () к оп- тимальному параметру была бы как можно более быстрой.


Регуляризация


Одной из нежелательных ситуаций во время обучения является чрез- мерный рост |() |. Данная ситуация может возникнуть, например, в следующем случае: предсказательная модель 𝑎 : 𝑋 × 𝑊 → 𝑌 имеет вид
𝑎(, ) = 𝑔(⟨, ⟩), где ∈ 𝑋 ⊆ R,

∃ ∈ ∀ ∈ ⟨ ⟩
и R : 𝑋 , = 0.
Нетрудно видеть, что в этом случае
∀ 𝛾 ∈ R 𝑎(, + 𝛾) = 𝑔(⟨, + 𝛾⟩) = 𝑔(⟨, ⟩) = 𝑎(, )

∀ ∈
откуда следует, что если минимальное значение риска будет достигаться на ˆ, то такое же значение риска будет достигаться на ˆ + 𝛾 ( 𝛾 R), т.е. параметр , минимизирующий риск, м.б. как угодно большим.

| |
Для борьбы с чрезмерным увеличением () используется метод, называемый регуляризацией. Суть данного метода заключается в мо-
дификации минимизируемой функции: она может иметь, например, вид

𝑄(𝑎𝑆
) + 𝜏 | |2,


2
где 𝜏 – некоторое положительное число. В этом случае (2.27) заменяется на правило
∆ = −∇𝑄((0))𝜂 − 𝜏 𝜂. (2.31)
Можно модифицировать не минимизируемую функцию, а функцию
потерь: вместо ℒ рассматривать ℒ˜def ℒ+ 𝜏 | |2, в этом случае (2.27) тоже
= 2
заменяется на (2.31).




    1. Download 0.87 Mb.

      Do'stlaringiz bilan baham:
1   ...   10   11   12   13   14   15   16   17   ...   24




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling