Книга представляет собой введение в основные понятия, методы и ал
Download 0.87 Mb.
|
machine-learning-mironov
- Bu sahifa navigatsiya:
- Алгоритм обучения (learning algorithm)
сигмоида: 𝜎() = 1−
, или th(), ReLU: 𝜎() = 0 при < 0, и 𝜎() = при ≥ 0. Нейроны можно объединять в более сложные преобразователи число- вой информации, называемые многослойными нейронными сетями. В этих сетях сигналы, выдаваемые на выходах одних нейронов поступа- ют на входы других нейронов. При этом допускается, что один и тот же сигнал с выхода какого-либо нейрона может параллельно подаваться на входы нескольких нейронов. Приводимая ниже диаграмма является схематическим изображением двуслойной нейронной сети: Понятие многослойной нейронной сети является основой для мето- дов глубокого обучения (deep learning), которые являются предме- том большого количества теоретических и прикладных исследований и коммерческих разработок, но в данном курсе рассматриваться не будут. → → Алгоритм обучения (learning algorithm) представляет собой алго- ритм нахождения по обучающей выборке 𝑆 такой АФ 𝑎𝑆 : 𝑋 𝑌 , ко- торая обладает описываемыми ниже свойствами оптимальности. Все эти свойства оптимальности являются детализацией следующего требо- вания: 𝑎𝑆 должно как можно лучше приближать исходную неизвестную функцию 𝑓 : 𝑋 𝑌 на всем 𝑋. ∈ ∈ ℒ Для точного описания свойств оптимальности алгоритмов обучения используется понятие функции потерь (loss function), которая сопо- ставляет паре (𝑎𝑆, ), где 𝑋, число (𝑎𝑆, ), выражающее величину ошибки аппроксимации 𝑎𝑆 на объекте 𝑋. Приведем некоторые примеры функций потерь. ℒ ̸ значение 1, если утверждение 𝛽 истинно, и значение 0, если утверждение 𝛽 ложно, ℒ(𝑎𝑆, ) = |𝑎𝑆() − 𝑓 ()| или (𝑎𝑆() − 𝑓 ())2 (для задач регрессии). Пусть 𝑎𝑆 имеет вид 𝑔(⟨, ⟩). Обозначим записью 𝑀() число ⟨, ⟩𝑓() (эта величина называ- ется отступом (margin)). ℒ(𝑎𝑆, ) может иметь вид [ 𝑀 () < 0]], (1 − 𝑀 ())2, 𝑒−𝑀(), 2 , log (1 + 𝑒−𝑀()). 1 + 𝑒𝑀() 2 Если 𝑆′ = {(′, ′) | = 1, . . . , ′} – какая-либо обучающая выборка, соответствующая той же исходной функции 𝑓 : 𝑋 → 𝑌 , что и 𝑆, то запись ℒ(𝑎𝑆, 𝑆′) обозначает число ∑︁ ′
′ 𝑆 1 ℒ(𝑎 =1 , ′). В описаниях свойств оптимальности алгоритмов обучения использу- ется понятие функционала эмпирического риска (называемого ни- же просто риском) аппроксимации 𝑎𝑆, который определяется как число 𝑄(𝑎𝑆) = ℒ(𝑎𝑆, 𝑆). ∈ × → ∈ Если 𝑎𝑆 имеет вид 𝑎(, ), где 𝑎 : 𝑋 𝑊 𝑌 и 𝑊 (т.е. риск 𝑄(𝑎𝑆) является функцией от ), то одно из свойств оптимальности алгоритма обучения по обучающей выборке 𝑆 имеет следующий вид: значение па- раметра 𝑊 , определяющее наилучшую аппроксимацию 𝑎𝑆, должно удовлетворять соотношению = arg min 𝑄(𝑎𝑆) (1.3) ∈𝑊 ∈ т.е. решение задачи ML сводится к оптимизационной задаче: требуется найти такой параметр 𝑊 , который минимизирует риск 𝑄(𝑎𝑆). ℒ Данная задача лучше всего решается в том случае, когда функция (𝑎(, ), ) является дифференцируемой по , т.к. в этом случае функ- ция 𝑄(𝑎𝑆) тоже является дифференцируемой по , и для ее оптимиза- ции можно применять простые методы: находить минимумы с помощью приравнивания к нулю частных производных, использовать методы гра- диентного спуска, и т.п. Если ℒ разрывна, то для решения задачи оптимизации 𝑄(𝑎(, )) лучше всего аппроксимировать ℒ сверху какой-либо непрерывной функ- цией ℒ˜ ≥ ℒ, и использовать в выражении 𝑄(𝑎(, )) функцию ℒ˜ вместо функции ℒ. Download 0.87 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling