Книга представляет собой введение в основные понятия, методы и ал


Download 1.93 Mb.
bet20/27
Sana18.03.2023
Hajmi1.93 Mb.
#1283253
TuriКнига
1   ...   16   17   18   19   20   21   22   23   ...   27
Bog'liq
machine-learning-mironov

,𝑋𝑆


∈𝑋𝑆


∈𝑋𝑆

∑︁ 𝜆ˆ𝜆ˆ ⟨, ⟩ − ∑︁ 𝜆ˆ + 𝑐 ∑︁ 𝜉ˆ. (2.72)
Нетрудно установить, что исходная задача, рассматриваемая в насто- ящем пункте, сводится к задаче минимизации (2.72) с условиями




𝑋
𝜆ˆ = 0,

𝑆




∀ ∈ 𝑋
{︂ 0 ≤ 𝜆ˆ ≤ 𝑐,
𝜉ˆ ≥ 0,
(2.73)


=
где 𝑀 def (⟨, ˆ⟩ − ˆ0),
def

𝑀

+ 𝜉ˆ



ˆ =
(,)


𝜆ˆ.


1 ≥ 0,
Эта задача – тоже ЗКП. В результате ее решения получаются опти- мальные 𝜆ˆ, 𝜉ˆ, ˆ0, по которым можно вычислить оптимальные ˆ и 𝜂ˆ.
Отметим некоторые особенности оптимального решения 𝜆ˆ, 𝜂ˆ, 𝜉ˆ, ˆ, ˆ0

∀ ∈
исходной задачи. 𝑋𝑆 вектор относится к одному из трех классов,
в зависимости от значения 𝑀:


если 𝑀 > 1, то находится в своем полупространстве, но не на его границе (такой вектор называется периферийным),



если 𝑀 = 1, то находится в своем полупространстве, на его границе (такой вектор называется опорным),


если 𝑀 < 1, то находится за пределами своего полупространства (такой вектор называется выбросом).
Согласно соотношениям в (2.71) и (2.73), ∀ ∈ 𝑋𝑆

        • либо 𝜆ˆ = 0, 𝜂ˆ = 𝑐, либо 𝜉ˆ = 1 − 𝑀,

        • либо 𝜆ˆ = 𝑐, 𝜂ˆ = 0, либо 𝜉ˆ = 0,

        • 𝑀 + 𝜉ˆ − 1 ≥ 0.

Поэтому




если – периферийный, т.е. 𝑀 > 1, то невозможно, чтобы было верно равенство 𝜉ˆ = 1 𝑀, поэтому для такого вектора 𝜆ˆ = 0,
𝜂ˆ = 𝑐, откуда следует, что 𝜉ˆ = 0,

        • если 0 < 𝜆ˆ < 𝑐, то 0 < 𝜂ˆ < 𝑐, 𝜉ˆ = 0 и 𝑀 = 1, т.е. опорный,

        • если – выброс, т.е. 𝑀 < 1, то

          • невозможно, чтобы было верно равенство 𝜆ˆ = 0, т.к. если бы

оно было верно, то тогда было бы верно равенство 𝜉ˆ = 0,
поэтому 𝑀 − 1 ≥ 0, что противоречит неравенству 𝑀 < 1,

          • невозможно, чтобы было верно неравенство 0 < 𝜆ˆ < 𝑐, т.к. в этом случае 𝜉ˆ = 0, что, как было установлено выше, неверно,

т.е. остается единственная возможность: 𝜆ˆ = 𝑐, 𝜂ˆ = 0, и 𝜉ˆ > 0.
Читателю предлагается самостоятельно исследовать вопрос: возмож- но ли, чтобы был опорный, но 𝜆 = 0 или 𝑐 (если невозможно, то доказать это, а если возможно, то привести соответствующий пример).


    1. Ядерный метод машинного обучения

      1. Спрямляющие пространства


В некоторых случаях выборка 𝑆 линейно неразделима


не по причинам зашумленности компонентов векторов в 𝑆, пред- ставляющих объекты, или ошибочной разметки,


а по причине наличия нетривиальных зависимостей между компо- нентами векторов в 𝑆, представляющих объекты.

⊆ × {− }
Например, рассмотрим выборку 𝑆 R2 1, 1 , изображенную на картинке (в которой мы представляем вектора из R2 точками плоскости)

где черные кружочки изображают объекты из 𝑆+, а звездочки – объекты из 𝑆. Такая выборка принципиально линейно неразделима.



лучше определять по его норме || =

2 + 2, т.е. искать 𝑎𝑆 в виде

1


2

В данном случае принадлежность вектора (1, 2) ∈ R2 к 𝑆+ или 𝑆
𝑎𝑆() = 𝑔(︁ || − 0)︁.

⊆ × {− }
Поиск АФ, соответствующих таким выборкам 𝑆 R 1, 1 , для которых невозможно построить АФ 𝑎𝑆 в виде

𝑎𝑆() = 𝑔


(︁ ∑︁
0
)︁, (2.74)




может делаться методом спрямляющих пространств, который заклю- чается в следующем:



  • выбирается подходящее нелинейное отображение

𝜙 : R R𝑁 , (2.75)

=
с таким расчетом, чтобы выборка 𝑆𝜙 def {(𝜙(), ) | ∈ 𝑋𝑆} оказа-
лась бы линейно разделимой,
(R𝑁 в (2.75) называется спрямляющим пространством)

  • методом опорных векторов для 𝑆𝜙 ищется АФ 𝑎𝑆𝜙 вида (2.74), и

  • искомая АФ 𝑎𝑆 определяется как композиция 𝑎𝑆𝜙 ∘ 𝜙.

Например, для описанного выше примера в качестве спрямляющего

пространства можно взять R2, и 𝜙(1, 2
def
2, 2).

) = ( 1 2
В других ситуациях рассматриваются функции 𝜙 : R R𝑁 вида
𝜙(1, . . . , ) = (1, . . . , , 2, . . . , 2 , . . . , , . . .).
1




Нетрудно доказать, что для любой выборки 𝑆 существует спрямляю- щее пространство – это м.б., например, пространство R𝑁 , где 𝑁 – число элементов в 𝑆. Если выбрать в R𝑁 ортонормированный базис, и опре- делить 𝜙 : R R𝑁 как инъективное отображение, сопоставляющее каждому элементу 𝑋𝑆 некоторый вектор из этого базиса, то 𝑆𝜙 бу- дет линейно разделима.
Отметим важную особенность функции 𝑎𝑆𝜙 . Если 𝑆𝜙 линейно разде- лима, то, как было показано выше, 𝑎𝑆𝜙 можно искать в виде

∑︀
𝑎𝑆𝜙 () = 𝑔(⟨𝜙(), ˆ⟩ − ˆ0) =

= 𝑔( 𝜙(),

∑︀
∈𝑋𝑆
𝜆ˆ 𝜙()⟩ − ˆ0) =
(2.76)

= 𝑔(
∈𝑋𝑆
𝜆ˆ ⟨𝜙(), 𝜙()⟩ − ˆ0),



где 𝜆ˆ ищется как решение задачи минимизации выражения



при условиях
,∑︁𝑋𝑆
𝜆ˆ𝜆ˆ ⟨𝜙(), 𝜙()⟩ − 𝜆ˆ (2.77)

∑︁
∈𝑋𝑆

∀ ∈ 𝑋𝑆
𝜆ˆ ≥ 0, 𝜆ˆ = 0. (2.78)

∑︁
∈𝑋𝑆

Из (2.76) и (2.77) следует, что для построения 𝑎𝑆𝜙 не надо знать

  • ни размерности спрямляющего пространства,

  • ни векторов вида 𝜙(), где ∈ 𝑋𝑆,


⟨ ⟩
надо лишь знать скалярные произведения вида 𝜙(), 𝜙() .

⟨ ⟩
Ядерный метод ML заключается в том, что построение АФ 𝑎𝑆 де- лается методом, аналогичным описанному выше, но с заменой всех ска- лярных произведений 𝜙(), 𝜙() на выражения вида 𝐾(, ), где 𝐾 – функция вида
𝐾 : R × R R.
Данная функция называется ядром. Она определяется для 𝑆 мето- дом подбора, и должна обладать следующими свойствами:

  • симметричность:


∀ , R 𝐾(, ) = 𝐾(, ), (2.79)
  • положительная определенность:




1, . . . , R , ∀ 𝛼1, . . . , 𝛼 R

∑︁
𝛼𝛼𝐾(, ) ≥ 0. (2.80)
,=1


Построение АФ 𝑎𝑆 сводится к задаче минимизации выражения



∑︁,𝑆
𝜆ˆ𝜆ˆ 𝐾(, ) − 𝜆ˆ, (2.81)

∑︁
∈𝑋𝑆

при условиях (2.78). Искомая АФ 𝑎𝑆𝜙 определяется следующим образом:


∀ ∈ R 𝑎𝑆𝜙


() = 𝑔



(︁ ∑︁
∈𝑋𝑆
𝜆ˆ 𝐾(, ) − ˆ0)︁,


ˆ

=

∈𝑋𝑆
где 0 def 𝜆ˆ 𝐾(, ) − ′′ , и ′′ – произвольный вектор из 𝑋𝑆,

̸
такой, что 𝜆ˆ′′ = 0.
В общем случае ядро определяется как произвольная функция вида
𝐾 : 𝑋 × 𝑋 → R (2.82)
(где 𝑋 – множество, элементами которого являются объекты), являю- щаяся симметричной и положительно определенной, т.е. верны аналоги соотношений (2.79) и (2.80), в которых аргументами 𝐾 являются элемен- ты множества 𝑋.
Нетрудно доказать, что если 𝐾 – ядро вида (2.82), то

  • ∀ ∈ 𝑋 𝐾(, ) ≥ 0,

  • если ∀ ∈ 𝑋 𝐾(, ) = 0, то ∀ , ∈ 𝑋 𝐾(, ) = 0,

  • верен аналог неравенства Коши-Буняковского:

∀ , ∈ 𝑋 𝐾(, ) ≤ 𝐾(, )𝐾(, ).



      1. Примеры ядер


𝐾(, ) может иметь, например, следующий вид:

        • (𝑐⟨, ⟩ + 𝑑), где 𝑐, 𝑑 ∈ R0, ≥ 0 (полиномиальное ядро), (где R0 – множество неотрицательных действительных чисел),


          • 𝑎0 + 𝑎 sin() sin()+ 𝑏 cos() cos(), где 𝑎2 +𝑏2 < ∞
          𝜎(𝑐⟨, ⟩ + 𝑑), где 𝜎 – сигмоида (сигмоидное ядро),




≥0
(ядро Фурье),
≥0

≥1





        • 𝜎2
          exp(− |− |2 ) (гауссово ядро),


        • 𝜎2
          exp(, ) (экспоненциальное ядро),

        • 𝐾1(, )𝐾2(, ), где 𝐾1 и 𝐾2 – ядра,

        • 𝛼1𝐾1(, ) + 𝛼2𝐾2(, ), где 𝐾1 и 𝐾2 – ядра, 𝛼1 и 𝛼2R0,

        • 𝐾(𝜙(), 𝜙()), где 𝐾 – ядро, 𝜙 – произвольная функция. Приведем еще три примера ядра.

  1. В качестве ядра 𝑋 × 𝑋 → R может выступать функция вида

(, ) ↦→ ⟨𝜙(), 𝜙()⟩
где 𝜙 – произвольная функция вида
𝜙 : 𝑋 → ℋ,


и – спрямляющее пространство, которое является гильберто- вым пространством, т.е.

    • ℋ – линейное пространство со скалярным произведением, напомним, что скалярное произведение на ℋ – это функ- ция, сопоставляющая каждой паре (, ) ∈ ℋ×ℋ действитель- ное число ⟨, ⟩, и обладающая свойствами: ∀ , , ∈ ℋ

– ∀ 𝛼, 𝛼R ⟨𝛼 + 𝛼′′, ⟩ = 𝛼⟨, ⟩ + 𝛼, ⟩,
– ⟨, ⟩ = ⟨, ⟩,
– ⟨, ⟩ ≥ 0, причем ⟨, ⟩ = 0 ⇔ = ¯0 (нулевой вектор),


    • ℋ – полное метрическое пространство (где метрика 𝜌 на ℋ определяется нормой: 𝜌(, ) = | − |, а норма определяется скалярным произведением: ||2 = ⟨, ⟩), т.е. ∀ фундаменталь- ная последовательность имеет предел в ℋ,

    • ℋ – сепарабельное пространство, т.е. ∃ счетное подмноже- ство 𝐻 ⊆ ℋ: ∀ 𝜀 > 0, ∀ ℎ ∈ ℋ ∃ ℎ ∈ 𝐻 : 𝜌(ℎ, ℎ) < 𝜀.

Примеры гильбертовых пространств: R или 2, где

2 = {(1, 2, . . .) | ∑︁ 2 < ∞},
≥1

∑︁
скалярное произведение в 2 имеет вид
⟨(1, 2, . . .), (1, 2, . . .)⟩ = .
≥1




  1. × →
    Если 𝐾 – ядро вида 𝑋 𝑋 R, где 𝑋 – произвольное множество, то функция

𝐾 : 𝑓(𝑋) × 𝑓(𝑋) → R

(где 𝑓(𝑋) – множество всех конечных подмножеств 𝑋), опреде- ляемая следующим образом:






∑︁
∀ 𝐴, 𝐵 ∈ 𝑓(𝑋) 𝐾(𝐴, 𝐵) =
𝑎∈𝐴,𝑏𝐵
𝐾(𝑎, 𝑏)

тоже является ядром.

  1. Пусть заданы алфавит (т.е. множество символов) 𝐴, целое число

≥ 1, и действительное число 𝜆 ∈ (0, 1].
Обозначим записью * множество всех последовательностей
¯ = (1, . . . , ), где 1 ≤ 1 < . . . < ≤ . (2.83) Если последовательность ¯* имеет вид (2.83), то

    • запись (¯) обозначает число 1 + 1, и



для каждой цепочки 𝐴, если имеет вид 𝑎1 . . . 𝑎, то запись [ ¯ ] обозначает цепочку 𝑎1 . . . 𝑎 .
Обозначим символом ℋ гильбертово пространство функций вида
𝑓 : 𝐴 R,


∑︁
скалярное произведение на ℋ определяется следующим образом:
⟨𝑓, 𝑔⟩ = 𝑓 ()𝑔().
∈𝐴

Ядро 𝐾 : 𝐴 × 𝐴 R определяется соотношением



ℋ ∀ ∈ → ↦→
∀ , ∈ 𝐴 𝐾(, ) = ⟨𝜙(), 𝜙()⟩,



где 𝜙 : 𝐴 , 𝐴 𝜙() : 𝐴 R,
¯*:=[ ¯ ]
𝜆(¯).

𝐾 используется в задачах анализа естественно-языковых текстов.



      1. Download 1.93 Mb.

        Do'stlaringiz bilan baham:
1   ...   16   17   18   19   20   21   22   23   ...   27




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling