Книга представляет собой введение в основные понятия, методы и ал

Download 0.87 Mb.

bet	12/21
Sana	18.03.2023
Hajmi	0.87 Mb.
	#1283133
Turi	Книга

1 ... 8 9 10 11 12 13 14 15 ... 21

Bog'liq
machine-learning-mironov

Описание метода

Описание МОР будет изложено на примере двуслойной сети вида (2.32) (для МНС с б´ольшим числом слоев метод выглядит аналогично).

1
Для возможности применения МОР функция активации 𝜎 должна быть дифференцируемой. Например, в качестве такой 𝜎 может исполь- зоваться сигмоида:
𝜎() = ₁₊_𝑒₋. (2.34)
График этой функции имеет вид

→ ∞ → −∞

Данная функция стремится к 1 при и к 0 при , ее график центрально симметричен относительно точки (0, 0.5).

Ниже будет использоваться легко проверяемое соотношение
𝜎^′() = 𝜎()(1 − 𝜎()).
Мы будем предполагать, что в рассматриваемой МНС функция акти- вации одинакова для всех входящих в нее нейронов, и имеет вид (2.34).
Алгоритм МОР имеет следующий вид:

Инициализация весов МНС небольшими случайными значениями.
Делаем итерации (до тех пор пока 𝑄 не стабилизируется), каждая итерация заключается в вычислении по текущему набору весо- вых коэффициентов нового набора ^′, который будет текущим в следующей итерации, и имеет следующий вид:
- случайно выбираем (, ) ∈ 𝑆, = (¹, . . . , ), = (¹, . . . , ^𝑀 ),
- прямой ход: вычисляем выходы всех нейронов, и

∑︁₁₋
𝑀
𝑄(, , ) := (𝑎 )²
2
=1

𝜕𝑄
∀ = 1, . . . , 𝑀 _𝜕𝑎= 𝑎 − =: 𝜉 ,

обратный ход (модификация весов в направлении −∇):

ℎ^′
:= _ℎ
𝜕𝑄
^—𝜕_ℎ
𝜂, ^′_ℎ
:= _ℎ
𝜕𝑄
^—𝜕_ℎ
𝜂,

где 𝜂 ∈ (0, 1) – подбираемый параметр (темп обучения), и част-

𝜕

,
ные производные ^𝜕𝑄
ℎ
𝜕𝑄
𝜕_ℎ
вычисляются следующим образом:

пусть ¹, . . . , ^𝐻 – выходы первого слоя, тогда ∀ = 1, . . . , ,
∀ ℎ = 1, . . . , 𝐻, ∀ = 1, . . . ,

_𝑎
= 𝜎
(︁ _∑︀
_ℎ^ℎ
— ₀
)︁,

𝜕𝑄
^𝜕^𝑄^𝜕^𝑎 ′^(︁^∑︀^𝐻ℎ

)︁ _ℎ

𝜕_ℎ ⁼𝜕𝑎𝜕_ℎ ⁼

𝜎

_ℎ

𝜕₀ ⁼𝜕𝑎𝜕₀ ⁼

𝜎

_ℎ

— ₀

(−1) =
= 𝜉𝑎(1 − 𝑎)^ℎ,

𝜕𝑄
^𝜕^𝑄^𝜕^𝑎 ′^(︁^∑︀^𝐻ℎ ^)︁

ℎ=1

= −𝜉𝑎(1 − 𝑎),

^ℎ = 𝜎
(︁ _∑︀

=1

ℎ
— ₀_ℎ

)︁,

𝜕𝑄
𝜕^ℎ
𝑀

∑︀

∑︀
=1
^𝜕𝑄𝜕𝑎
𝜕𝑎𝜕^ℎ

𝜎
𝑀

∑︀
=1
_𝜉
_′(︁ _∑︀

ℎ=1
^ℎℎ
— ₀
)︁_ℎ =

𝑀
=

𝜕_ℎ ⁼𝜕^ℎ𝜕_ℎ ⁼

𝜎

_ℎ
=1
_𝜉
_𝑎
(1 − 𝑎
)_ℎ =: 𝜁^ℎ,

𝜕𝑄
^𝜕^𝑄^𝜕^ℎℎ ′^(︁^∑︀

)︁

= 𝜁^ℎℎ(1 − ^ℎ),

𝜕₀_ℎ ⁼𝜕^ℎ𝜕₀_ℎ ⁼

𝜎

_ℎ

— ₀_ℎ

(−1) =
^𝜕^𝑄^𝜕^𝑄^𝜕^ℎℎ ′^(︁^∑︀ ^)︁

=1

= −𝜁^ℎℎ(1 − ^ℎ).

Достоинства и недостатки метода

Основые достоинства МОР:

низкая сложность,
легко реализуется на параллельных архитектурах,
универсальность (пригоден для любых конфигураций МНС). Основные недостатки МОР заключаются в следующем.

∙
Неопределенно долгий процесс обучения. В сложных задачах для обучения сети могут потребоваться дни или даже недели, она мо- жет и вообще не обучиться.

∙
В процессе обучения сети значения весов могут в результате кор- рекции стать очень большими величинами. Это может привести к тому, что большинство нейронов будут функционировать при очень больших значениях весовых коэффициентов, в области, где про- изводная функции активации очень мала. Так как обратно рас- пространяемая в процессе обучения ошибка пропорциональна этой производной, то процесс обучения может стать парализованным.

∙
Нет гарантии того, что получаемый в результате обучения локаль- ный минимум является хорошим решением задачи обучения.
Для улучшения сходимости алгоритма обратного распространения можно использовать, например, следующие приемы:

нормализация входных значений: вектор в каждой паре (, ) 𝑆
заменяется на ˜, определяемый следующим образом:

−

−
𝑎𝑒𝑎𝑔𝑒

∀ = 1, . . . , ˜
:=

𝑎

—
или
˜ :=

𝑎𝑎𝑒

где
– среднее значение,
– среднеквадратическое от-

√
𝑎𝑒𝑎𝑔𝑒
клонение (=

дисперсии),
𝑎𝑎𝑒

∙
добавление между слоями МНС промежуточных слоев, реализу- ющих линейные преобразования: если и – вектора входов и выходов такого слоя, то реализуемое этим слоем преобразование имеет вид = 𝐴 + 𝑏, где 𝐴 и 𝑏 – матрица и вектор соответству- ющих размерностей, коэффициенты матрицы 𝐴 и вектора 𝑏 тоже обучаются,

изменение структуры МНС: удаление части нейронов (dropout).

Метод опорных векторов

В этом параграфе излагается наиболее популярный метод машинного обучения – метод опорных векторов (Support Vector Machines, SVM), который был создан в 70-е годы прошлого века сотрудниками Института проблем управления АН СССР В. Н. Вапником и А. Я. Чер- воненкисом, и впервые опубликован в книге [8] (в которой он назван методом обобщенного портрета).
Данный метод предназначен для решения задач классификации и регрессионного анализа.

Оптимальность аппроксимирующих функций

В параграфе 2.2 рассматривалась задача нахождения по строго линейно разделимой выборке 𝑆 ⊆ R × {−1, 1} АФ 𝑎_𝑆 вида

𝑎_𝑆() = 𝑔

_(︁_∑︁
− ₀)︁

такой, что 𝑄(𝑎_𝑆) = 0. Как было отмечено в этом параграфе, функция 𝑎_𝑆

∑︀

𝑃
данного вида обладает свойством 𝑄(𝑎_𝑆) = 0 тогда и только тогда, когда

гиперплоскость
, определяемая уравнением
=1
−₀ = 0
, разделяет

множества 𝑆⁺ и 𝑆⁻, т.е. 𝑆⁺ и 𝑆⁻ содержатся в разных полупростран- ствах, на которые 𝑃 делит R.
Можно доказать, что задача построения разделяющей гиперплоско- сти для строго линейно разделимой выборки 𝑆 имеет бесконечно много решений. Например, несколько различных решений данной задачи изоб- ражено на нижеследующем рисунке (в данном случае = 2):

где кружочки обозначают элементы 𝑆⁺, а квадратики - элементы 𝑆⁻.

Встает вопрос о том, можно ли ввести какие-либо меры оптимально-
сти решений данной задачи.
В качестве одной из мер оптимальности функции 𝑎_𝑆 указанного выше вида можно рассматривать, например, расстояние
𝜌(𝑆⁺ ∪ 𝑆⁻, 𝑃 ) (2.35)
между 𝑆⁺ ∪ 𝑆⁻ и 𝑃 . Напомним, что ∀ 𝐴, 𝐵 ⊆ R расстояние 𝜌(𝐴, 𝐵)

между 𝐴 и 𝐵 определяется как inf
𝑎∈𝐴,𝑏∈𝐵
|𝑎 − 𝑏 |.

Назовем полосой, разделяющей 𝑆⁺ и 𝑆⁻, и определяемой гипер- плоскостью 𝑃 , часть пространства R, заключенную между гиперплос-
костями 𝑃_𝑆⁺и 𝑃_𝑆⁻, которые получаются параллельным переносом ги- перплоскости 𝑃 вдоль вектора нормали к ней

по направлению к 𝑆⁺ на расстояние 𝜌(𝑃, 𝑆⁺), и
по направлению к 𝑆⁻ на расстояние 𝜌(𝑃, 𝑆⁻),

соответственно. Будем обозначать эту полосу записью [𝑃_𝑆⁺, 𝑃_𝑆⁻]. Нетруд- но видеть, что во внутренней части полосы [𝑃_𝑆⁺, 𝑃_𝑆⁻] точек из 𝑆⁺ и 𝑆⁻ нет.
Расстояние 𝜌(𝑃_𝑆⁺, 𝑃_𝑆⁻) назовем шириной полосы [𝑃_𝑆⁺, 𝑃_𝑆⁻]. Можно доказать, что (2.35) достигает максимального значения, когда ширина

полосы [𝑃_𝑆⁺, 𝑃_𝑆⁻] равна 𝜌(𝑆⁺, 𝑆⁻), и 𝑃 находится посередине этой поло- сы.
Назовем гиперплоскость 𝑃 , находящуюся посередине полосы [𝑃_𝑆⁺, 𝑃_𝑆⁻] с шириной 𝜌(𝑆⁺, 𝑆⁻), оптимальной гиперплоскостью, разделяющей выборку 𝑆. Ниже излагается метод построения такой гиперплоскости.
Кроме того, ниже вводится еще одна мера оптимальности АФ 𝑎_𝑆, и излагается алгоритм построения функции 𝑎_𝑆, оптимальной относительно этой меры.

Построение оптимальной разделяющей гипер- плоскости для строго линейно разделимой вы- борки

Описание задачи

В этом пункте мы предполагаем, что задана строго линейно разделимая выборка 𝑆, и 𝑃 – какая-либо гиперплоскость, разделяющая 𝑆⁺ и 𝑆⁻.
По определению, определенные выше гиперплоскости 𝑃_𝑆⁺и 𝑃_𝑆⁻па-
раллельны, поэтому можно считать, что их уравнения различаются лишь в свободном члене и имеют вид
⟨, ⟩ − 𝑎 = 0, ⟨, ⟩ − 𝑏 = 0, где ∈ R, 𝑎, 𝑏 ∈ R, 𝑎 ̸= 𝑏. (2.36)
∀ 𝜆 ∈ R ∖ {0} уравнения
⟨, 𝜆⟩ − 𝜆𝑎 = 0, ⟨, 𝜆⟩ − 𝜆𝑏 = 0 (2.37)

−

𝑎 𝑏
равносильны соответствующим уравнениям в (2.36), т.е. определяют те же самые гиперплоскости 𝑃_𝑆⁺и 𝑃_𝑆⁻. Нетрудно видеть, что если в каче- стве 𝜆 взять число ² , то уравнения (2.37) будут равносильны соответ- ствующим уравнениям
⟨, ⟩ − ₀ = 1, ⟨, ⟩ − ₀ = −1, (2.38) где = 𝜆, ₀ = ^𝑎⁺^𝑏 . Таким образом, можно считать, что
𝑎−𝑏

гиперплоскости 𝑃_𝑆⁺и 𝑃_𝑆⁻определяются уравнениями (2.38), и
точки из 𝑆⁺ и 𝑆⁻ находятся в непересекающихся полупростран- ствах, определяемых 𝑃_𝑆⁺и 𝑃_𝑆⁻, т.е. удовлетворяют соотношениям

⟨, ⟩ − ₀ ≥ 1 и ⟨, ⟩ − ₀ ≤ −1
соответственно.
Вычислим ширину 𝜌 полосы [𝑃_𝑆⁺, 𝑃_𝑆⁻].
Выберем на 𝑃_𝑆⁺и 𝑃_𝑆⁻точки ⁺ и ⁻ соответственно. Пусть ^⊥ – основание перпендикуляра, опущенного из точки ⁺ на гиперплоскость
𝑃_𝑆⁻.
Искомая ширина 𝜌 равна длине катета [⁺, ^⊥] прямоугольного тре- угольника с вершинами в точках ⁺, ⁻, ^⊥:
_𝑆+ _𝑆−
+

Эту длину можно вычислить как произведение

длины гипотенузы [⁺, ⁻], т.е. |⁺ − ⁻ |, и

∙
косинуса угла 𝜙 = ⁻^{^}⁺^⊥, который выражается через скалярное произведение: cos 𝜙 = ^⟨+⁻−^,+⁻⊥^⟩,
|⁺−⁻| |⁺−^⊥|
т.е. 𝜌 = ^⟨+⁻−^,+⁻⊥^⟩. Поскольку вектор ⁺ − ^⊥ ортогонален к 𝑃 , то он

имеет вид
+ ⊥
𝜇 для некоторого числа 𝜇
, поэтому

𝜌 =

⟨⁺ − ⁻, 𝜇⟩
|𝜇 |
𝜇

=|𝜇|
⟨⁺ − ⁻, ⟩

| |
= 𝜎
⟨⁺ − ⁻, ⟩
| |
, (2.39)

где 𝜎 = 1 или −1. Поскольку ⁺ ∈ 𝑃_𝑆⁺и ⁻ ∈ 𝑃_𝑆⁻, то
⟨⁺, ⟩ − ₀ = 1, ⟨⁻, ⟩ − ₀ = −1,
откуда следует, что

| |

^⟨+ − ⁻, ⟩ = ⟨⁺, ⟩ − ⟨⁻, ⟩ = (₀ + 1) − (₀ − 1) = 2, (2.40) Из (2.39) и (2.40) следует, что 𝜎 = 1, и 𝜌 = ² .
Таким образом, задача поиска оптимальной разделяющей гиперплос-
кости для 𝑆, т.е. такой гиперплоскости 𝑃 , которая определяет полосу
[𝑆⁺, 𝑆⁻] максимальной ширины, сводится к следующей задаче: найти та-
𝑃 𝑃
кие ∈ R и ₀ ∈ R, чтобы

значение | | было минимально возможным, и

были выполнены условия можно переписать в виде

∀ ∈ 𝑆⁺ ⟨, ⟩ − ₀ ≥ 1, _{которые}

{︂
∀ ∈ 𝑆⁻ ⟨, ⟩ − ₀ ≤ −1,

=
∀ ∈ 𝑋_𝑆 (⟨, ⟩ − ₀) − 1 ≥ 0 (2.41) где 𝑋_𝑆 ^def{ ∈ R | (, ) ∈ 𝑆}.

⟨ ⟩ −
Если решение (, ₀) этой задачи найдено, то оптимальная разделя- ющая гиперплоскость 𝑃 определяется уравнением , ₀ = 0.
Заметим, что решение данной задачи совпадает с решением задачи

| |

2₂→ min (2.42)

при условиях (2.41). Таким образом, мы свели задачу построения опти- мальной разделяющей гиперплоскости для строго линейно разделимой выборки к оптимизационной задаче (2.42) при условиях (2.41).

Download 0.87 Mb.

Do'stlaringiz bilan baham:

1 ... 8 9 10 11 12 13 14 15 ... 21

Книга представляет собой введение в основные понятия, методы и ал

Описание метода

Достоинства и недостатки метода

Метод опорных векторов

Оптимальность аппроксимирующих функций

Построение оптимальной разделяющей гипер- плоскости для строго линейно разделимой вы- борки

Описание задачи