Книга представляет собой введение в основные понятия, методы и ал

Download 1.93 Mb.

bet	18/27
Sana	18.03.2023
Hajmi	1.93 Mb.
	#1283253
Turi	Книга

1 ... 14 15 16 17 18 19 20 21 ... 27

Bog'liq
machine-learning-mironov

Теорема 4 .
Доказательство.

Применение метода

Применим изложенный выше метод к оптимизационной задаче (2.42) при условиях (2.41). В данном случае

2
целевая функция 𝑓 имеет вид ^| ^|², и
условия являются линейными неравенствами

(⟨, ⟩ − ₀) − 1 ≥ 0, где ∈ 𝑋_𝑆. (2.59)

2
Докажем, что целевая функция выпукла. Данная функция является суперпозицией трех функций: функции ↦→ | |, функции ↦→ ², и функции ↦→ ¹. Эти функции выпуклы, т.к.

выпуклость функции ↦→ | | следует из неравенства треуголь- ника ( |𝑎 + 𝑏 | ≤ |𝑎 | + |𝑏 |) для нормы в произвольном векторном пространстве: ∀ , ^′ ∈ R, ∀ 𝛼 ∈ [0, 1]

|𝛼 + (1 − 𝛼)^′ | ≤ |𝛼 | + |(1 − 𝛼)^′ | = 𝛼 | | + (1 − 𝛼) |^′ |,

выпуклость функции ↦→ ² обосновывается следующим образом:

∀ , ^′ ∈ R, ∀ 𝛼 ∈ [0, 1] требуемое неравенство
(𝛼 + (1 − 𝛼)^′)² ≤ 𝛼² + (1 − 𝛼)(^′)²
после раскрытия скобок, перегруппировки слагаемых и приведения подобных членов преобразуется в эквивалентное неравенство
𝛼²( − ^′)² ≤ 𝛼( − ^′)²
которое верно потому, что 𝛼 ∈ [0, 1],

2

↦→

функция ¹ выпукла потому, что любая линейная функция является выпуклой.
Нетрудно доказать, что если функции 𝑓 : R → R и 𝑔 : R → R выпуклы и, кроме того, 𝑔 монотонно неубывающая, то их суперпозиция (𝑔 ∘ 𝑓 ) тоже выпукла. Действительно, ∀ , ^′ ∈ R, ∀ 𝛼 ∈ [0, 1]
(𝑔 ∘ 𝑓 )(𝛼 + (1 − 𝛼)^′) = 𝑔(𝑓 (𝛼 + (1 − 𝛼)^′)) ≤
≤ 𝑔(𝛼𝑓 () + (1 − 𝛼)𝑓 (^′)) ≤ 𝛼𝑔(𝑓 ()) + (1 − 𝛼)𝑔(𝑓 (^′)) =
= 𝛼(𝑔 ∘ 𝑓 )() + (1 − 𝛼)(𝑔 ∘ 𝑓 )(^′).

2

↦→ ↦→ →
Поскольку функции ² и ¹ : R R – выпуклы и монотонно неубывающие, то, следовательно их суперпозиция с выпуклой функцией

2

↦→ | | ↦→ | |
, т.е. функция ¹ ² тоже выпукла.
Функция Лагранжа для данной задачи имеет вид

𝐿 =

| |²

−
2

^∑︁∈𝑋_𝑆
𝜆((⟨, ⟩ − ₀) − 1), (2.60)

и соотношение (2.48) имеет следующий вид:

∀ = 1, . . . , ˆ − ^∑︁𝜆^ˆ = 0, 0 − ^∑︁𝜆^ˆ(−1) = 0,

∈𝑋_𝑆
что можно переписать в виде
∈𝑋_𝑆

∈𝑋_𝑆

∈𝑋_𝑆

ˆ = ^∑︁𝜆^ˆ, ^∑︁𝜆^ˆ = 0. (2.61)
Из теоремы 3 следует, что исходная задача сводится к задаче поиска вектора ˆ, числа ˆ₀, и набора чисел 𝜆^ˆ= 𝜆^ˆ0 𝑋_𝑆 , удовлетво- ряющих соотношениям в (2.61) и условию

Теорема 4.

∀ ∈ 𝑋_𝑆
(⟨, ˆ⟩ − ˆ₀) − 1 ≥ 0

{︂

{ ≥ | ∈ }
𝜆^ˆ((⟨, ˆ⟩ − ˆ₀) − 1) = 0.
(2.62)

{ ≥ | ∈ }
Задача нахождения объектов ˆ, ˆ₀, и 𝜆^ˆ= 𝜆^ˆ0 𝑋_𝑆 , удовле-

∑︁
творяющих соотношениям (2.61) и (2.62), сводится к задаче нахождения объектов ˆ, ˆ₀, и 𝜆^ˆ, минимизирующих значения выражения
𝜆^ˆ((⟨, ˆ⟩ − ˆ₀) − 1) (2.63)
∈𝑋_𝑆

∑︀
при условиях
ˆ =

⎪_⎩
∈𝑋_𝑆

𝜆^ˆ, 𝜆^ˆ = 0,

{︂

∑︀
∈𝑋_𝑆

∀ ∈ 𝑋_𝑆

Доказательство.

𝜆^ˆ≥ 0
(⟨, ˆ⟩ − ˆ₀) − 1 ≥ 0.
(2.64)

Пусть объекты ˆ, ˆ₀, и 𝜆^ˆ= {𝜆^ˆ≥ 0 | ∈ 𝑋_𝑆} удовлетворяют

соотношениям (2.61) и (2.62). Тогда при их подстановке вместо со- ответствующих объектов в (2.63) и (2.64) получаем, что

∙
значение суммы (2.63) будет равно 0 (т.к., согласно второму равенству в (2.62), каждое слагаемое в этой сумме равно 0), и

соотношения в (2.64) верны, это следует из (2.61) и (2.62).

С другой стороны, сумма (2.63) при условиях (2.64), не может быть меньше 0, т.к., согласно этим условиям, каждое ее слагаемое явля- ется произведением неотрицательных чисел.

{ ≥ | ∈ }
Таким образом, объекты ˆ, ˆ₀, и 𝜆^ˆ= 𝜆^ˆ0 𝑋_𝑆 – решение задачи минимизации суммы (2.63) при условиях (2.64).

Согласно условиям (2.64), каждое слагаемое в сумме (2.63) при этих условиях неотрицательно, т.е. сумма (2.63) неотрицательна, и

∙
если минимальное значение этой суммы равно 0, то каждое слагаемое в этой сумме равно 0, т.е. объекты ˆ, ˆ₀, и 𝜆^ˆ, реша- ющие задачу минимизации (2.63) при условиях (2.64), удовле-
творяют соотношениям (2.61) и (2.62), и

∙

{ ≥ | ∈ }
если минимальное значение этой суммы больше 0, то тогда решение задачи нахождения ˆ, ˆ₀, и 𝜆^ˆ= 𝜆^ˆ0 𝑋_𝑆 , удовлетворяющих соотношениям (2.61) и (2.62), не существует
(что по предположению невозможно).
Перепишем сумму (2.63) путем раскрытия скобок, перегруппировки слагаемых и использования линейности скалярного произведения:

∈^∑^︀𝑋
𝜆^ˆ , ˆ

^∑^︀⟨ ⟩ −
∈𝑋_𝑆
𝜆^ˆˆ₀

∑︀₋
∈𝑋_𝑆
𝜆^ˆ=

₌∑︀

∈𝑋_𝑆

∈𝑋_𝑆
= ⟨ ^∑^︀
⟨𝜆^ˆ, ˆ⟩ − ( ^∑^︀

∈𝑋_𝑆

∈𝑋_𝑆
𝜆^ˆ, ˆ⟩ − ( ^∑^︀
𝜆^ˆ)ˆ₀ − ^∑^︀

∈𝑋_𝑆

∈𝑋_𝑆
𝜆^ˆ)ˆ₀ − ^∑^︀
𝜆^ˆ=
𝜆^ˆ.
(2.65)

Из условий (2.64) следует, что (2.65) можно переписать в виде

∈𝑋_𝑆

∈𝑋_𝑆

⟨ˆ, ˆ⟩ − ^∑︁𝜆^ˆ= |ˆ|²− ^∑︁𝜆^ˆ. (2.66)
Выражение (2.66) можно переписать, используя лишь переменные 𝜆^ˆ:

,^∑︁^′∈𝑋_𝑆
𝜆^ˆ𝜆^ˆ^′^′⟨, ^′⟩ − 𝜆^ˆ. (2.67)

∑︁
∈𝑋_𝑆

Таким образом, исходная задача свелась к задаче нахождения набора
𝜆^ˆ= {𝜆^ˆ| ∈ 𝑋_𝑆}

минимизирующего значение выражения (2.67), при условиях

∀ ∈ 𝑋_𝑆
𝜆^ˆ≥ 0, 𝜆^ˆ = 0.

∑︁
∈𝑋_𝑆

Такая задача называется задачей квадратичного программиро- вания (ЗКП). Существует много алгоритмов решения этой задачи.
Искомый вектор ˆ вычисляется по найденному решению 𝜆^ˆданной
ЗКП согласно первому равенству в (2.64). Для вычисления искомого ˆ₀
выбирается такая пара ∈ 𝑋_𝑆, что 𝜆^ˆ̸= 0, в этом случае, согласно
второму равенству в (2.62), должно быть верно равенство
(⟨, ˆ⟩ − ˆ₀) − 1 = 0,

из которого следует, что

ˆ₀ = ⟨, ˆ⟩ − .

Если данная ЗКП имеет не единственное решение, то среди всех этих ре- шений выбирается такое, что число ˆ₀, вычисленное по этому решению, удовлетворяет последнему неравенству в (2.64).
Обоснуем, почему ∃ ∈ 𝑋_𝑆 : 𝜆^ˆ0. Если бы все числа 𝜆^ˆбыли равны
0, то ˆ – нулевой вектор, и из последнего неравенства в (2.64) следует, что ∀ ∈ 𝑋_𝑆 − ˆ₀ − 1 ≥ 0, или −ˆ₀ ≥ 1. Выборка 𝑆 предполагается нетривиальной, т.е. м.б. равно как 1, так и −1, откуда следует, что
ˆ₀ ≥ 1 и −ˆ₀ ≥ 1, что невозможно.

Download 1.93 Mb.

Do'stlaringiz bilan baham:

1 ... 14 15 16 17 18 19 20 21 ... 27