Книга представляет собой введение в основные понятия, методы и ал

Основные этапы решения задач машин- ного обучения

bet	8/21
Sana	18.03.2023
Hajmi	0.87 Mb.
	#1283133
Turi	Книга

1 ... 4 5 6 7 8 9 10 11 ... 21

Bog'liq
machine-learning-mironov

2
Основные этапы решения задач машин- ного обучения

Решение каждой задачи машинного обучения состоит из следующих ос- новных этапов:

адекватное понимание задачи и данных,

∙
предобработка данных и изобретение признаков и множеств значе- ний каждого из этих признаков,

построение предсказательной модели 𝑎(, ),
сведение обучения к оптимизации,
решение проблем оптимизации и переобучения,
оценивание качества,
внедрение и эксплуатация.

Глава 2

Элементарные методы и алгоритмы машинного обучения

Линейно разделимые выборки

Во многих задачах ML

множества объектов и ответов имеют вид 𝑋 = R, 𝑌 = {−1, 1}, и

∙
задача обучения заключается в нахождении по выборке 𝑆 АФ 𝑎_𝑆
вида

𝑎_𝑆() = 𝑔

_(︁_∑︁
− ₀
)︁, где ₁, . . . , , ₀ ∈ R, (2.1)

которая минимизирует риск 𝑄(𝑎_𝑆).
В некоторых случаях задача нахождения функции 𝑎_𝑆 вида (2.1) име- ет наилучшее решение: можно найти такие значения ₁, . . . , , ₀, для которых 𝑄(𝑎_𝑆) = 0.
Из определения 𝑄(𝑎_𝑆) следует, что равенство 𝑄(𝑎_𝑆) = 0 равносильно свойству ∀ (, ) ∈ 𝑆 𝑎_𝑆() = , т.е. если функция 𝑎_𝑆 имеет вид (2.1), то

1
∀ (( , . . . , ), ) ∈ 𝑆 𝑔
_(︁_∑︁
− ₀)︁
= . (2.2)

∈
Выборка 𝑆, для которой существуют числа ₁, . . . , , ₀ R, удов- летворяющие условию (2.2), называется линейно разделимой.
Условие (2.2) можно переписать в виде: ∀ ((¹, . . . , ), ) ∈ 𝑆

₍_︁_∑︁
− ₀
)︁ ≥ 0. (2.3)

∃ ∈ ∀ ∈
Если ₁, . . . , , ₀ R: ((¹, . . . , ), ) 𝑆 неравенство (2.3) строгое, то выборка 𝑆 называется строго линейно разделимой.
Понятие строгой линейной разделимости имеет геометрическую ин- терпретацию: если выборка 𝑆 ⊆ R × {−1, 1} строго разделима, т.е.
∃ ₁, . . . , , ₀ ∈ R: ∀ ((¹, . . . , ), ) ∈ 𝑆

₍_︁_∑︁
− ₀
)︁ > 0, (2.4)

_—def

то гиперплоскость ляет множества

, определяемая уравнением

∑︀

𝑃
=1
− ₀ = 0
, разде-

= { ∈ R
_𝑆₊def
| (, 1) ∈ 𝑆} и 𝑆
= { ∈ R
| (, −1) ∈ 𝑆} (2.5)

т.е. 𝑆⁺ и 𝑆⁻ содержатся в разных полупространствах, на которые 𝑃 де- лит пространство R. Верно и обратное: если для выборки 𝑆 можно най- ти гиперплоскость 𝑃 , такую, что множества (2.5) содержатся в разных

полупространствах, на которые 𝑃 делит пространство R, то 𝑆 строго линейно разделима.
Напомним, что ∀ 𝑋 ⊆ R

множество 𝑋 называется выпуклым, если ∀ , ^′ ∈ 𝑋

{𝛼 + (1 − 𝛼)^′ | 𝛼 ∈ [0, 1]} ⊆ 𝑋, (2.6)
множество в левой части (2.6) называется отрезком, соединяющим точки и ^′, и обозначается записью [^′],

∙
выпуклой оболочкой 𝐶(𝑋) множества 𝑋 называется наи- меньшее (по включению) выпуклое множество, содержащее 𝑋,

∙
𝐶(𝑋) совпадает с пересечением совокупности всех выпуклых подмножеств R, содержащих 𝑋,

если 𝑋 – конечное множество и имеет вид {₁, . . . , }, то

=1

=1

𝐶(𝑋) = ∑︁ 𝛼, где ∀ = 1, . . . , 𝛼 ∈ R, 𝛼 ≥ 0, ∑︁ 𝛼 = 1,
и, кроме того, 𝐶(𝑋) – компактное множество (т.к. оно замкнуто и ограничено).

∀ , ^′ ∈ R запись |^′| обозначает длину отрезка [^′], которую мы понимаем как евклидову норму | − ^′ | вектора − ^′.

Теорема 1.

⊆ × {− }
Конечная выборка 𝑆 R 1, 1 строго линейно разделима тогда и только тогда, когда

Доказательство.

𝐶(𝑆⁺) ∩ 𝐶(𝑆⁻) = ∅. (2.7)

Пусть выборка 𝑆 строго линейно разделима, т.е. существует гипер- плоскость 𝑃 , разделяющая 𝑆⁺ и 𝑆⁻. Обозначим записями 𝐿₁, 𝐿₂ полу-

1

2
пространства, на которые 𝑃 делит R, и записями 𝐿∘ , 𝐿∘ – внутренние

∖
части этих полупространств, т.е. 𝐿∘= 𝐿 𝑃 ( = 1, 2). Строгая раздели- мость множеств 𝑆⁺ и 𝑆⁻ гиперплоскостью 𝑃 выражается утверждением

𝑆⁺ ⊆ 𝐿∘ , 𝑆⁻ ⊆ 𝐿∘
. (2.8)

1 2

1

2
Нетрудно доказать, что множества 𝐿∘ и 𝐿∘
выпуклы, поэтому из (2.8)

и из определения выпуклой оболочки следует, что
𝐶(𝑆⁺) ⊆ 𝐿∘ , 𝐶(𝑆⁻) ⊆ 𝐿∘
. (2.9)

1 2

1
Поскольку 𝐿∘ ∩ 𝐿∘ = ∅, то из (2.9) следует (2.7).
2
Докажем обратную импликацию. Предположим, что верно (2.7).
Поскольку множество 𝑆 конечно, то 𝑆⁺ и 𝑆⁻ тоже конечны. Как было отмечено выше, в этом случае множества 𝐶(𝑆⁺) и 𝐶(𝑆⁻) компакт- ны. Следовательно, множество

тоже компактно.
def

+
𝐷_𝑆 = 𝐶(
) × 𝐶(𝑆⁻)

∈

∈ | |

→
Обозначим символом 𝜌 функцию вида 𝐷_𝑆 R, которая сопоставля- ет паре точек (, ) 𝐷_𝑆 длину отрезка, соединяющего эти точки. Функция 𝜌 непрерывна, и ее область определения – компакт, поэтому 𝜌 принимает наименьшее значение в некоторой точке (⁺, ⁻) 𝐷_𝑆. Ес-
ли бы 𝜌(⁺, ⁻) было равно 0, т.е. ⁺ = ⁻, то это бы противоречило
предположению (2.7). Следовательно, 𝜌(⁺, ⁻) > 0.
Обозначим записями 𝑃_𝑆⁺и 𝑃_𝑆⁻гиперплоскости, проходящие через ⁺
и ⁻ соответственно, и ортогональные отрезку [⁺, ⁻]. Гиперплоскости
𝑃_𝑆⁺и 𝑃_𝑆⁻параллельны и разбивают R на три множества:

два полупространства (обозначим их записями 𝐿_𝑆⁺и 𝐿_𝑆⁻), и
полосу (𝑃_𝑆⁺, 𝑃_𝑆⁻) между этими полупространствами (не содержа- щую точек из 𝑃_𝑆⁺и 𝑃_𝑆⁻).

Нетрудно видеть, что

2
𝐿_𝑆⁺= { ∈ R | = ⁺ или ^{^}⁺⁻≥ ^𝜋}
и аналогичное свойство верно для 𝐿_𝑆⁻.

2
Докажем, что 𝑆⁺ ⊆ 𝐿_𝑆⁺, т.е. ∀ ∈ 𝑆⁺ ∖ {⁺} ^{^}⁺⁻≥ ^𝜋. Если бы

2
это было неверно, т.е. ^{^}⁺⁻< ^𝜋 , то на отрезке [⁺] была бы точка

∈

| | | | ⊆ ∈
′, такая, что ^′⁻ < ⁺⁻ . Т.к. [⁺] 𝐶(𝑆⁺), то ^′ 𝐶(𝑆⁺). Таким образом, (^′, ⁻) 𝐷_𝑆 и 𝜌(^′, ⁻) < 𝜌(⁺, ⁻). Это противоречит тому, что 𝜌 принимает наименьшее значение на паре (⁺, ⁻).
Аналогично доказывается включение 𝑆⁻ ⊆ 𝐿_𝑆⁻.

∪ ∩ ∅
Из доказанного выше следует, что (𝑆⁺ 𝑆⁻) (𝑃_𝑆⁺, 𝑃_𝑆⁻) = .
В качестве гиперплоскости, строго разделяющей 𝑆⁺ и 𝑆⁻, можно взять, например, гиперплоскость 𝑃 , проходящую через любую внутрен- нюю точку отрезка [⁺⁻] и ортогональную этому отрезку (т.е. 𝑃 будет параллельна 𝑃_𝑆⁺и 𝑃_𝑆⁻). Поскольку

𝑃 ⊆ (𝑃_𝑆⁺, 𝑃_𝑆⁻), и

∙
полупространства 𝐿_𝑆⁺и 𝐿_𝑆⁻содержатся в разных полупростран- ствах, на которые 𝑃 делит R,
то, следовательно, 𝑆⁺ и 𝑆⁻ содержатся в разных полупространствах, на которые 𝑃 делит R.

Для задачи классификации в случае строго разделимой выборки 𝑆

существует алгоритм нахождения функции 𝑎_𝑆 вида (2.1) со свойством
𝑄(𝑎_𝑆) = 0, который называется алгоритмом обучения Розенблатта
и излагается в следующем параграфе.

Алгоритм обучения Розенблатта

В этом параграфе рассматривается задача классификации, в которой

множества объектов и ответов имеют вид 𝑋 = R, 𝑌 = {−1, 1}, и

∙
задача обучения заключается в нахождении по выборке 𝑆 АФ 𝑎_𝑆
вида

𝑎_𝑆() = 𝑔

_(︁_∑︁
− ₀
)︁, где ₁, . . . , , ₀ ∈ R, (2.10)

которая минимизирует риск 𝑄(𝑎_𝑆).

Описание алгоритма обучения Розенблатта

Пусть выборка 𝑆 строго линейно разделима, т.е. ∃ ₁, . . . , , ₀ ∈ R:

∀ (, ) ∈
_(︁_∑︁
− ₀
)︁ > 0, где (¹, . . . , ) = . (2.11)

Нетрудно видеть, что неравенство в (2.11) равносильно неравенству

1
⟨( , . . . , , −1), (₁, . . . , , ₀)⟩ > 0,
поэтому задача нахождения для строго разделимой выборки 𝑆 такого вектора (₁, . . . , , ₀), который удовлетворяет условию (2.11), сводится к задаче нахождения вектора ∈ R⁺¹, такого, что
∀ (, ) ∈ 𝑆 ⟨(, −1), ⟩ > 0,

— ∈ −
где (, 1) R⁺¹ получается из добавлением компоненты, равной 1. Таким образом, задача нахождения для строго разделимой выбор-
ки АФ 𝑎_𝑆 со свойством 𝑄(𝑎_𝑆) = 0 сводится к следующей задаче: пусть выборка 𝑆 такова, что существует вектор , обладающий свойством
∀ (, ) ∈ 𝑆 ⟨, ⟩ > 0. (2.12)
Требуется найти хотя бы один вектор , обладающий свойством (2.12). Для поиска такого вектора можно использовать излагаемый ни-
же алгоритм, называемый алгоритмом Розенблатта [5]. Данный ал- горитм можно представить в виде следующей блок-схемы:
,,

∙
)
\J

/\
_\/(2.13)
\J

∈ ⟨ ⟩ ≤

где ^¯0 – вектор, компоненты которого равны 0, и , в правом прямоуголь- нике – компоненты какой-либо пары (, ) 𝑆, такой, что , 0.
Нетрудно видеть, что после завершения работы данного алгоритма значение переменной будет обладать свойством (2.12).