Книга представляет собой введение в основные понятия, методы и ал

Download 0.87 Mb.

bet	9/24
Sana	18.03.2023
Hajmi	0.87 Mb.
	#1281521
Turi	Книга

1 ... 5 6 7 8 9 10 11 12 ... 24

Bog'liq
machine-learning-mironov

Алгоритм обучения (learning algorithm)

ReLU: 𝜎() = 0 при < 0, и 𝜎() = при ≥ 0.

Нейроны можно объединять в более сложные преобразователи число- вой информации, называемые многослойными нейронными сетями. В этих сетях сигналы, выдаваемые на выходах одних нейронов поступа- ют на входы других нейронов. При этом допускается, что один и тот же сигнал с выхода какого-либо нейрона может параллельно подаваться на входы нескольких нейронов.
Приводимая ниже диаграмма является схематическим изображением двуслойной нейронной сети:

Понятие многослойной нейронной сети является основой для мето- дов глубокого обучения (deep learning), которые являются предме- том большого количества теоретических и прикладных исследований и коммерческих разработок, но в данном курсе рассматриваться не будут.

Алгоритмы обучения

→

→
Алгоритм обучения (learning algorithm) представляет собой алго- ритм нахождения по обучающей выборке 𝑆 такой АФ 𝑎_𝑆 : 𝑋 𝑌 , ко- торая обладает описываемыми ниже свойствами оптимальности. Все эти свойства оптимальности являются детализацией следующего требо- вания: 𝑎_𝑆 должно как можно лучше приближать исходную неизвестную функцию 𝑓 : 𝑋 𝑌 на всем 𝑋.

∈

∈ ℒ
Для точного описания свойств оптимальности алгоритмов обучения используется понятие функции потерь (loss function), которая сопо- ставляет паре (𝑎_𝑆, ), где 𝑋, число (𝑎_𝑆, ), выражающее величину ошибки аппроксимации 𝑎_𝑆 на объекте 𝑋.
Приведем некоторые примеры функций потерь.

ℒ ̸

(𝑎_𝑆, ) = [ 𝑎_𝑆() = 𝑓 ()]] (для задач классификации), где для каж- дого утверждения 𝛽 запись [ 𝛽] обозначает

значение 1, если утверждение 𝛽 истинно, и
значение 0, если утверждение 𝛽 ложно,

ℒ(𝑎_𝑆, ) = |𝑎_𝑆() − 𝑓 ()| или (𝑎_𝑆() − 𝑓 ())² (для задач регрессии).
Пусть 𝑎_𝑆 имеет вид 𝑔(⟨, ⟩).

Обозначим записью 𝑀() число ⟨, ⟩𝑓() (эта величина называ- ется отступом (margin)). ℒ(𝑎_𝑆, ) может иметь вид

[ 𝑀
() < 0]], (1 − 𝑀
())², 𝑒⁻^𝑀⁽⁾, ², log (1 + 𝑒⁻^𝑀⁽⁾).

₁₊_𝑒^𝑀⁽⁾

2

Если 𝑆^′ = {(^′, ^′) | = 1, . . . , ^′} – какая-либо обучающая выборка, соответствующая той же исходной функции 𝑓 : 𝑋 → 𝑌 , что и 𝑆, то запись ℒ(𝑎_𝑆, 𝑆^′) обозначает число

∑︁
′

′

𝑆
¹ℒ(𝑎
=1
, ^′).

В описаниях свойств оптимальности алгоритмов обучения использу- ется понятие функционала эмпирического риска (называемого ни- же просто риском) аппроксимации 𝑎_𝑆, который определяется как число
𝑄(𝑎_𝑆) = ℒ(𝑎_𝑆, 𝑆).

∈

× → ∈
Если 𝑎_𝑆 имеет вид 𝑎(, ), где 𝑎 : 𝑋 𝑊 𝑌 и 𝑊 (т.е. риск 𝑄(𝑎_𝑆) является функцией от ), то одно из свойств оптимальности алгоритма обучения по обучающей выборке 𝑆 имеет следующий вид: значение па- раметра 𝑊 , определяющее наилучшую аппроксимацию 𝑎_𝑆, должно удовлетворять соотношению
= arg min 𝑄(𝑎_𝑆) (1.3)
∈𝑊

∈
т.е. решение задачи ML сводится к оптимизационной задаче: требуется найти такой параметр 𝑊 , который минимизирует риск 𝑄(𝑎_𝑆).

ℒ
Данная задача лучше всего решается в том случае, когда функция (𝑎(, ), ) является дифференцируемой по , т.к. в этом случае функ- ция 𝑄(𝑎_𝑆) тоже является дифференцируемой по , и для ее оптимиза- ции можно применять простые методы: находить минимумы с помощью приравнивания к нулю частных производных, использовать методы гра-
диентного спуска, и т.п.
Если ℒ разрывна, то для решения задачи оптимизации 𝑄(𝑎(, )) лучше всего аппроксимировать ℒ сверху какой-либо непрерывной функ- цией ℒ^˜≥ ℒ, и использовать в выражении 𝑄(𝑎(, )) функцию ℒ^˜вместо функции ℒ.

Download 0.87 Mb.

Do'stlaringiz bilan baham:

1 ... 5 6 7 8 9 10 11 12 ... 24

Книга представляет собой введение в основные понятия, методы и ал

Алгоритмы обучения