Книга представляет собой введение в основные понятия, методы и ал

Метод решения оптимизационной задачи

bet	13/21
Sana	18.03.2023
Hajmi	0.87 Mb.
	#1283133
Turi	Книга

1 ... 9 10 11 12 13 14 15 16 ... 21

Bog'liq
machine-learning-mironov

Доказательство.
Лемма об отделимости.

Метод решения оптимизационной задачи

В этом пункте мы рассмотрим подход к решению общей оптимизацион- ной задачи, частным случаем которой является оптимизационная задача (2.42) при условиях (2.41).
Данная общая задача имеет следующий вид: заданы

функция 𝑓 : R R (называемая целевой функцией), которая является выпуклой, т.е.
∀ , ^′ ∈ R, ∀ 𝛼 ∈ [0, 1] 𝑓 (𝛼 + (1 − 𝛼)^′) ≤ 𝛼𝑓 () + (1 − 𝛼)𝑓 (^′),

множество условий вида 𝑔₁() ≤ 0, . . . , 𝑔() ≤ 0, где 𝑔₁, . . . , 𝑔 – выпуклые функции вида R → R.

Обозначим записью 𝐷_𝑔₁_,...,𝑔множество

{ ∈

def
^𝐷𝑔₁,...,𝑔 ⁼^R

| ∀ = 1, . . . , 𝑔() ≤ 0}. (2.43)

Требуется найти аргумент ˆ ∈ 𝐷_𝑔₁_,...,𝑔, на котором достигается мини-

мальное значение функции 𝑓 , в предположении что минимальность рас- сматривается относительно множества 𝐷_𝑔₁_,...,𝑔, т.е. требуется, чтобы

𝑓 (ˆ) = min
^∈^𝐷𝑔₁,...,𝑔
𝑓 ().

Данную задачу можно решать с помощью теоремы Каруша-Куна- Таккера, которую называют основной теоремой выпуклой нелинейной оптимизации. Ниже мы приводим частный случай этой теоремы.

Теорема 3 (W.Karush, 1942, H.Kuhn and A.Tucker, 1951). Пусть заданы выпуклые функции 𝑓 , 𝑔₁, . . . , 𝑔 вида R → R, причем

∃ ∈ R : ∀ = 1, . . . , 𝑔() < 0. (2.44) Обозначим символом 𝐿 функцию (называемую функцией Лагранжа)

∑︁

𝐿 = 𝑓 () + 𝜆𝑔(), (2.45)

=1
где 𝜆₁, . . . , 𝜆 – переменные, называемые множителями Лагранжа.
∀ ˆ ∈ 𝐷_𝑔₁_,...,𝑔следующие утверждения эквивалентны:

𝑓 (ˆ) = min
^∈^𝐷𝑔₁,...,𝑔
𝑓 (), (2.46)

∃ 𝜆^ˆ₁, . . . , 𝜆^ˆ∈ R :
∀ = 1 . . . ,

⎪_⎩
∀ = 1 . . . ,
𝜆^ˆ≥ 0,
𝜆^ˆ𝑔(ˆ) = 0,
(2.47)

𝐿(ˆ, 𝜆^ˆ₁. . . , 𝜆^ˆ) = min 𝐿(, 𝜆^ˆ₁. . . , 𝜆^ˆ).
∈R
Если функции 𝑓, 𝑔₁, . . . , 𝑔 дифференцируемые, то функция Лагран- жа 𝐿 тоже будет дифференцируемой, и этом случае третье соотношение в (2.47) равносильно соотношению

∀

1
= 1, . . . , ^𝜕^𝐿(ˆ, 𝜆^ˆ
𝜕
, . . . , 𝜆^ˆ
) = 0. (2.48)

Доказательство.

∈
Сначала докажем, что если для точки ˆ 𝐷_𝑔₁_,...,𝑔верно утверждение (2.47), то для нее будет верно утверждение (2.46).
Т.к. ∀ = 1, . . . , , ∀ ∈ 𝐷_𝑔₁_,...,𝑔𝜆^ˆ𝑔() ≤ 0, то

∑︁

∀ ∈ 𝐷_𝑔₁_,...,𝑔𝐿(, 𝜆^ˆ₁, . . . , 𝜆^ˆ) = 𝑓 () + 𝜆^ˆ𝑔() ≤ 𝑓 (). (2.49)

Из второго соотношения в (2.47) следует, что

𝐿(ˆ, 𝜆^ˆ₁, . . . , 𝜆^ˆ) = 𝑓 (ˆ) + ∑︁ 𝜆^ˆ𝑔(ˆ) = 𝑓 (ˆ) + ∑︁ 0 = 𝑓 (ˆ). (2.50)

Из третьего соотношения в (2.47) следует, что
∀ ∈ R 𝐿(ˆ, 𝜆^ˆ₁, . . . , 𝜆^ˆ) ≤ 𝐿(, 𝜆^ˆ₁, . . . , 𝜆^ˆ). (2.51) Из (2.49) (2.50) и (2.51) следует, что для ˆ верно (2.46):
∀ ∈ 𝐷_𝑔₁_,...,𝑔𝑓 (ˆ) = 𝐿(ˆ, 𝜆^ˆ₁, . . . , 𝜆^ˆ) ≤ 𝐿(, 𝜆^ˆ₁, . . . , 𝜆^ˆ) ≤ 𝑓 ().

∈
Теперь докажем, что если для точки ˆ 𝐷_𝑔₁_,...,𝑔верно утверждение (2.46), то для нее будет верно утверждение (2.47).

{︂
Обозначим символом Λ множество всех векторов (𝜆₀, . . . , 𝜆) ∈ R⁺¹, каждый из которых удовлетворяет следующему условию: ∃ ∈ R:
𝜆₀ > 𝑓 () − 𝑓 (ˆ),
∀ = 1, . . . , 𝜆 ≥ 𝑔().
Очевидно что множество Λ непусто.

{︂
Нулевой вектор ^¯0 = (0, . . . , 0) не входит в Λ, т.к. иначе ∃ ∈ R:
0 > 𝑓 () − 𝑓 (ˆ) (⇒ 𝑓 () < 𝑓 (ˆ)),
∀ = 1, . . . , 0 ≥ 𝑔() (⇒ ∈ 𝐷_𝑔₁_,...,𝑔),

т.е. min
^∈^𝐷𝑔₁,...,𝑔
𝑓 () < 𝑓 (ˆ), что противоречит предположению (2.46).

_𝜆₍_𝛼₎def
Докажем, что множество Λ выпукло, т.е. ∀ 𝜆, 𝜆^′ ∈ Λ, ∀ 𝛼 ∈ [0, 1]
= 𝛼𝜆 + (1 − 𝛼)𝜆^′ ∈ Λ. (2.52)
Действительно, если 𝜆 и 𝜆^′ имеют вид (𝜆₀, . . . , 𝜆) и (𝜆^′₀, . . . , 𝜆^′) соответ- ственно, и вектора , ^′ таковы, что
𝜆₀ > 𝑓 () − 𝑓 (ˆ), ∀ = 1, . . . , 𝜆 ≥ 𝑔()
𝜆^′₀> 𝑓 (^′) − 𝑓 (ˆ), ∀ = 1, . . . , 𝜆^′≥ 𝑔(^′)
то нетрудно проверить (используя выпуклость 𝑓 , 𝑔₁, . . ., 𝑔), что вектор

=
^(𝛼⁾ ^def𝛼 + (1 − 𝛼)^′ обладает свойством

0

(2.53)
{︃ 𝜆⁽^𝛼⁾ > 𝑓 (⁽^𝛼⁾) − 𝑓 (ˆ),

∀ = 1, . . . , 𝜆≥ 𝑔(⁽^𝛼⁾).
Распишем (2.53) во всех деталях:
⎪^⎧𝜆⁽^𝛼⁾ = 𝛼𝜆₀ + (1 − 𝛼)𝜆^′ >
0 0

⎨

> 𝛼𝑓 () − 𝛼𝑓 (ˆ) + (1 − 𝛼)𝑓 ( ) − (1 − 𝛼)𝑓 (ˆ) ≥
≥ 𝑓 (𝛼 + (1 − 𝛼)^′) − 𝑓 (ˆ) = 𝑓 (⁽^𝛼⁾) − 𝑓 (ˆ),

_⎪∀ = 1, . . . , 𝜆⁽^𝛼⁾ = 𝛼𝜆 + (1 − 𝛼)𝜆^′ ≥
_⎪′

≥ 𝛼𝑔() + (1 − 𝛼)𝑔( ) ≥ 𝑔(𝛼 + (1 − 𝛼) ) = 𝑔(
Таким образом, (2.52) верно.

).
_⎩ _′
′ (𝛼)

Лемма об отделимости.

Множество Λ обладает свойством отделимости: ∃ 𝜆^* ∈ R⁺¹:
𝜆^* ̸= ^¯0, ∀ 𝜆 ∈ Λ ⟨𝜆^*, 𝜆⟩ ≥ 0 (2.54)
(т.е. Λ содержится в одном из полупространств, на которые де- лит пространство R⁺¹ гиперплоскость, определяемая уравнением
⟨𝜆^*, ⟩ = 0).

Доказательство.

Если размерность 𝐿(Λ) линейной оболочки множества Λ (т.е. ми- нимального линейного подпространства пространства R⁺¹, содер- жащего Λ) меньше чем + 1, то в качестве искомого вектора 𝜆^* можно взять любой ненулевой вектор из ортогонального дополне- ния 𝐿(Λ). В этом случае (2.54) верно по причине того, что
∀ 𝜆 ∈ Λ ⟨𝜆^*, 𝜆⟩ = 0.
Пусть размерность 𝐿(Λ) равна + 1. В этом случае Λ содержит линейно независимое множество из +1 векторов. Обозначим век- торы, входящие в это множество, записями ₁, . . . , ₊₁.

Λ =
Определим ^⃗^def{𝜉𝜆 | 𝜉 > 0, 𝜆 ∈ Λ}. Отметим, что Λ ⊆ Λ^⃗, и ^¯0 ̸∈ Λ^⃗.
Множество Λ^⃗выпуклое, т.к. ∀ 𝜉, 𝜉^′ > 0, ∀ 𝜆, 𝜆^′ ∈ Λ^⃗, ∀ 𝛼 ∈ [0, 1]
𝛼(𝜉𝜆) + (1 − 𝛼)(𝜉^′𝜆^′) ∈ Λ^⃗. (2.55)

Действительно, вектор в (2.55) равен 𝜉^′′𝜆^′′, где

𝜉^′′ = 𝛼𝜉 + (1 − 𝛼)𝜉^′ > 0, и
𝜆^′′ = ^𝛼𝜉 𝜆 + ⁽¹⁻^𝛼⁾^𝜉′ 𝜆^′ ∈ [𝜆, 𝜆^′], поэтому 𝜆^′′ ∈ Λ.

_𝜉′′

Докажем, что

_𝜉′′

∑︀
+1

=
=1
– внутренняя точка Λ^⃗, т.е.
∃ 𝜀 > 0:
𝜀–окре-

=
стность 𝑈 ^𝜀 ^def{^′ ∈ R⁺¹ | |^′ − | < 𝜀} вектора лежит в Λ^⃗.

Обозначим символом 𝑉 множество, состоящее из всех векторов ви-

∑︀

2
_да+1
=1
𝛼
, где
∀ = 1, . . . , |𝛼| ≤
¹ . Для каждого вектора из

=

∈

{ ∈ | | | }
единичной сферы 𝑆 ^def R⁺¹ = 1 обозначим записью 𝜀 максимальное число, такое, что 𝜀 𝑉 (такое число существует, т.к. множество 𝑉 является ограниченным). Поскольку единичная

↦→
сфера в R⁺¹ – компакт, то непрерывная функция 𝜀 на 𝑆
достигает наименьшего значения 𝜀 > 0 на некотором элементе 𝑆.

0
Итак, ∀ ∈ 𝑆 𝜀 ∈ 𝑉 , откуда следует, что 𝑈_¯^𝜀 ⊆ 𝑉 , поэтому

𝜀 𝜀

_∑︀+1 ₁₃_⃗

−

0

𝑈= + 𝑈_¯₀⊆ + 𝑉 = {

𝛼 | ₂ ≤ 𝛼 ≤ ₂ } ⊆ Λ.
Следовательно, каждый элемент 𝑈 ^𝜀 = −+𝑈_¯^𝜀 не лежит в Λ^⃗(иначе

−

некоторый отрезок из Λ^⃗с концами в 𝑈 ^𝜀

и 𝑈 ^𝜀 содержал бы ^¯0).

Обозначим записью Λ^⃗^𝑐замыкание множества Λ^⃗, т.е. множество,
получаемое добавлением к Λ^⃗всех его предельных точек. Нетрудно
доказать, что замыкание любого выпуклого множества является выпуклым множеством. В частности, множество Λ^⃗^𝑐выпукло.

−
Поскольку 𝑈 ^𝜀 ∩ Λ^⃗= ∅, то − не является предельной точкой мно-
жества Λ^⃗, поэтому − ̸∈ Λ^⃗^𝑐.
Определим ₀ как такой вектор, из Λ^⃗^𝑐, что
𝜌(−, ₀) = min{𝜌(−, ) | ∈ Λ^⃗^𝑐}.
где 𝜌 – евклидово расстояние между векторами. Такой вектор су- ществует. Действительно, обозначим

символом 𝑅 расстояние от − до какого-либо элемента Λ^⃗^𝑐, и
−
записью 𝐵^𝑅 замкнутый шар с центром в − радиуса 𝑅.

−
Поскольку множество 𝐵^𝑅 замкнуто и ограничено, то непустое мно-

−
жество Λ^⃗^𝑐∩ 𝐵^𝑅 тоже замкнуто и ограничено, т.е. оно компактно.
Нетрудно видеть, что

−
min{𝜌(−, ) | ∈ Λ^⃗^𝑐} = min{𝜌(−, ) | ∈ Λ^⃗^𝑐∩ 𝐵^𝑅 }.
Существование точки ₀, на которой функция ↦→ 𝜌(−, ) на

−
компактном множестве Λ^⃗^𝑐∩ 𝐵^𝑅 принимает наименьшее значение,
обосновывается теми же методами, которыми обосновывается ана- логичное утверждение в теореме из параграфа 2.1.

−
Также аналогичными методами обосновывается следующее утвер- ждение: гиперплоскость 𝑃 , проходящая через точку ₀ и ортого- нальная отрезку [ , ₀], делит пространство R⁺¹ на два полу- пространства, одно из которых (обозначим его 𝐿) имеет вид

2
𝐿 = { ∈ R⁺¹ | = ₀ или −^{^}₀ ≥ ^𝜋}
и Λ^⃗^𝑐⊆ 𝐿.
Докажем, что ^¯0 ∈ 𝑃 . Пусть ^¯0 ̸∈ 𝑃 . Тогда ^¯0 ≠ ₀ ∈ 𝑃 . Т.к. ^¯0 ∈ Λ^⃗^𝑐(0^¯

2

= 2
– предельная точка Λ^⃗), то −^{^}₀^¯0 ≥ ^𝜋. Поскольку ₁ ^def₀ ∈ Λ^⃗^𝑐, то

2

2
^{−^}₀₁ ≥ ^𝜋. Однако углы (−₀0^¯) и (−₀₁) являются смежными, сумма их величин равна 𝜋, что возможно только если −^{^}₀^¯0 = ^𝜋 ,
поэтому ^¯0 ∈ 𝑃 .

— − −
Вектор, определяемый отрезком [ , ₀], т.е. ₀ ( ) = ₀ + , ортогонален 𝑃 и принадлежит 𝐿, поэтому
𝐿 = { ∈ R⁺¹ | ⟨₀ + , ⟩ ≥ 0}
и в качестве искомого вектора 𝜆^* можно взять ₀ + .
Продолжим доказательство теоремы Каруша-Куна-Таккера.
Пусть вектор 𝜆^*, обладающий свойством (2.54), имеет вид (𝜆^*₀, . . . , 𝜆^*).
1. Докажем, что ∀ = 0, . . . , 𝜆^*≥ 0. Поскольку Λ содержит вектора
𝜆⁽⁰⁾ = (1, 0, . . . , 0) и 𝜆⁽⁾ = (𝜀, 0 . . . , 0, 1, 0, . . . , 0) (∀ = 1, . . . , )
где 𝜀 > 0, и единица в 𝜆⁽⁾ стоит в позиции номер (мы считаем, что первая позиция в 𝜆⁽⁾ имеет номер 0), то из (2.54) следует, что
⟨𝜆^*, 𝜆⁽⁰⁾⟩ = 𝜆^*₀≥ 0
∀ = 1, . . . , ⟨𝜆^*, 𝜆⁽⁾⟩ = 𝜆^*₀𝜀 + 𝜆^*≥ 0
откуда, ввиду произвольности 𝜀, заключаем, что 𝜆^*≥ 0.

Докажем, что

∀ ∈ {1, . . . , } 𝜆^*𝑔(ˆ) = 0. (2.56)
Т.к. ∀ 𝜀 > 0 множество Λ содержит вектор

𝜆
def
= (𝜀, 0, . . . , 0, 𝑔(ˆ), 0, . . . , 0),
то из (2.54) следует, что ⟨𝜆^*, 𝜆⟩ = 𝜆₀^*𝜀 + 𝜆^*𝑔(ˆ) ≥ 0, откуда, ввиду произвольности 𝜀, заключаем, что 𝜆^*𝑔(ˆ) ≥ 0.
Таким образом, либо 𝜆^*𝑔(ˆ) = 0, либо 𝜆^*𝑔(ˆ) > 0. Однако если бы было верно неравенство 𝜆^*𝑔(ˆ) > 0, то, учитывая доказанное в предыдущем пункте неравенство 𝜆^*≥ 0, заключаем, что 𝑔(ˆ) > 0, что противоречит условию 𝑔(ˆ) ≤ 0.

Докажем, что ∀ ∈ R

𝜆^*₀𝑓 (ˆ) + ∑︁ 𝜆^*𝑔(ˆ) ≤ 𝜆₀^*𝑓 () + ∑︁ 𝜆^*𝑔(). (2.57)

Из (2.56) следует, что левая часть (2.57) равна 𝜆^*₀𝑓 (ˆ). Т.к. ∀ 𝜀 > 0 множество Λ содержит вектор

_𝜆def
= (𝑓 () − 𝑓 (ˆ) + 𝜀, 𝑔₁(), . . . , 𝑔()),
то из (2.54) следует, что

∑︁

⟨𝜆^*, 𝜆⟩ = 𝜆₀^*(𝑓 () − 𝑓 (ˆ) + 𝜀) + 𝜆^*𝑔() ≥ 0,

=1
откуда, ввиду произвольности 𝜀, следует (2.57).

Докажем, что 𝜆^*₀0.

Если 𝜆^*₀= 0, то из 𝜆^* ̸= ^¯0 следует, что ∃ ∈ {1, . . . , } : 𝜆^*> 0.

∈
По предположению, для некоторого R выполнено условие (2.44). Для этого верно также (2.57), однако в данном случае левая часть (2.57) равна 0, а правая часть (2.57) меньше 0, что невозможно.

Искомые значения 𝜆^ˆ
, . . . , 𝜆^ˆопределяются как ^𝜆*¹, . . . , ^𝜆*.

1 _𝜆^*₀_𝜆^*₀
Истинность каждого из трех соотношений в (2.47) следует из соот-
ветствующих пунктов изложенного выше рассуждения.
Докажем, что если функции 𝑓, 𝑔₁, . . . , 𝑔 дифференцируемые, то тре- тье соотношение в (2.47) равносильно соотношению (2.48), т.е.
𝐿(ˆ, 𝜆^ˆ) = min 𝐿(, 𝜆^ˆ) ⇔ ∀ = 1, . . . , ^𝜕^𝐿(ˆ, 𝜆^ˆ) = 0, (2.58)

∈R
где 𝜆^ˆ= (𝜆^ˆ₁. . . , 𝜆^ˆ).
𝜕

⇒
Импликация « » в (2.58) верна потому, что ее правая часть является необходимым условием минимума дифференцируемой функции.
Обоснуем импликацию «⇐» в (2.58). Из выпуклости 𝑓, 𝑔₁, . . . , 𝑔 и неотрицательности 𝜆^ˆ₁, . . ., 𝜆^ˆследует выпуклость функции ↦→ 𝐿(, 𝜆^ˆ):
∀ , ^′ ∈ R, ∀ 𝛼 ∈ [0, 1] 𝐿(𝛼 + (1 − 𝛼)^′, 𝜆^ˆ) =

= 𝑓 (𝛼 + (1 − 𝛼) ) +

𝜆𝑔(𝛼 + (1 − 𝛼) ) ≤

≤ 𝛼𝑓 () + (1 − 𝛼)𝑓 ( ) +

𝜆(𝛼𝑔() + (1 − 𝛼)𝑔( )) =

=1

′ ^∑︀ˆ ′
′ ^∑︀ˆ ′

= 𝛼𝐿(, 𝜆^ˆ) + (1 − 𝛼)𝐿(^′, 𝜆^ˆ),

откуда на основании такого же рассуждения, которое приведено в конце пункта 2.3.2, следует, что значение аргумента ˆ, удовлетворяющее пра- вой части (2.58), является глобальным минимумом этой функции.

Download 0.87 Mb.

Do'stlaringiz bilan baham:

1 ... 9 10 11 12 13 14 15 16 ... 21