Книга представляет собой введение в основные понятия, методы и ал


Каноническое гильбертово пространство, опре- деляемое ядром


Download 1.93 Mb.
bet21/27
Sana18.03.2023
Hajmi1.93 Mb.
#1283253
TuriКнига
1   ...   17   18   19   20   21   22   23   24   ...   27
Bog'liq
machine-learning-mironov

Каноническое гильбертово пространство, опре- деляемое ядром




Каждому ядру 𝐾 : 𝑋2 R соответствует каноническое гильбертово пространство, определяемое ядром 𝐾. Данное пространство обознача- ется записью ℋ𝐾 и обладает следующим свойством: ∃ 𝜙 : 𝑋 → ℋ𝐾:
∀ , ∈ 𝑋 𝐾(, ) = ⟨𝜙(), 𝜙()⟩. (2.84)
𝐾 определяется как подпространство линейного пространства R𝑋
функций вида 𝑋 → R следующим образом:

        • ∀ ∈ 𝑋 обозначим записью 𝐾 функцию из R𝑋, которая отобра- жает каждый ∈ 𝑋 в 𝐾(, ),



обозначим символом 𝑋 линейное подпространство в R𝑋, порож- денное всеми функциями вида 𝐾, т.е.




∑︁
𝑋 = {
=1..
𝛼𝐾 | ≥ 1, ∀ = 1, . . . , 𝛼 R, ∈ 𝑋},





        • вид 𝑓 =

          𝛼𝐾 и 𝑔 =

          𝛽𝐾 , то
          определимскалярное произведение на ℱ𝑋: если 𝑓, 𝑔 из ℱ𝑋 имеют


=1..


=1..







⟨ ⟩



∑︁

∑︁
def
𝑓, 𝑔 =
=1..∑︁,=1..
𝛼𝛽𝐾(, ) =
=1..

𝛼𝑔() =


=1..
𝛽𝑓 ( ),

заметим, что из этого определения следует свойство
∀ , ∈ 𝑋 ⟨𝐾, 𝐾 ⟩ = 𝐾(, ) = 𝐾() = 𝐾 (), (2.85)


  • ℋ ℱ
𝐾 определяется как пополнение 𝑋 в метрике 𝜌, задаваемой ска- лярным произведением:
∀ 𝑓, 𝑔 ∈ ℱ𝑋 𝜌(𝑓, 𝑔) = |𝑓 − 𝑔 | = ⟨𝑓 − 𝑔, 𝑓 − 𝑔⟩,

        • скалярное произведение на ℋ𝐾 определяется следующим образом:

∀ 𝑓, 𝑔 ∈ ℋ𝐾, если 𝑓 = lim 𝑓 и 𝑔 = lim 𝑔, где ∀ ≥ 1 𝑓, 𝑔 ∈ ℱ𝑋,

то →∞

def
→∞




→∞
⟨𝑓, 𝑔⟩ = lim ⟨𝑓, 𝑔⟩
(нетрудно доказать, что данный предел существует и не зависит от выбора последовательностей (𝑓) и (𝑔), сходящихся к 𝑓 и 𝑔 соот- ветственно).

→ ℋ ↦→
Функция 𝜙 : 𝑋 𝐾 определяется как отображение 𝐾. Свой- ство (2.84) следует из определения функции 𝜙 и соотношения (2.85).
Нетрудно доказать, что

        • ∀ 𝑓 ∈ ℋ𝐾, ∀ ∈ 𝑋





|𝑓 ()| ≤ |𝑓 |

𝐾(, ),
𝑓 () = ⟨𝑓, 𝐾⟩,
(2.86)

неравенство в (2.86) верно потому, что оно эквивалентно неравен- ству Коши-Буняковского


|⟨𝑓, 𝐾⟩| ≤ |𝑓 | ⟨𝐾, 𝐾⟩,

        • ∀ ∈ 𝑋 функционал ℋ𝐾 R : 𝑓 ↦→ 𝑓 () непрерывен, т.е.

𝑓 = lim 𝑓 ⇒ 𝑓 () = lim 𝑓(),
→∞ →∞

√︀
это можно обосновать с использованием свойства

∀ 𝑓, 𝑓 ∈ ℋ𝐾, ∀ ∈ 𝑋 |𝑓 () − 𝑓 ()| ≤ |𝑓 − 𝑓 | 𝐾(, ),


которое следует из неравенства в (2.86).
Теорема 5. Пусть заданы

        • выборка 𝑆 ⊆ 𝑋 × R,


        • ядро 𝐾 : 𝑋2R,

        • функция потерь 𝑐 : (𝑋 × R × R)*R0

(например,
𝑐(︁
(, , 𝑓 ())=1..)︁ =
1



( − 𝑓 ())2), и

=1

        • строго возрастающая функция Ω : R0R0. Если 𝑓ˆ ∈ ℋ𝐾 – решение задачи

𝑐(︁(, , 𝑓 ())=1..)︁ + Ω( |𝑓 |) → min (2.87)



то 𝑓ˆ =
=1

𝛼𝐾
, где


𝛼1, . . . , 𝛼 R.

Доказательство.


Вектор 𝑓ˆ ∈ ℋ𝐾 можно представить в виде суммы

∑︁


𝑓ˆ = 𝛼𝐾 + 𝑓 *,
=1


где 𝑓 * – вектор из ортогонального дополнения подпространства в 𝐾, порожденного векторами 𝐾1 , . . . , 𝐾 , т.е.
∀ = 1, . . . , ⟨𝑓 *, 𝐾 ⟩ = 0. (2.88) Согласно равенству в (2.86) и соотношению (2.88), ∀ = 1, . . . ,


=1


=1

𝑓ˆ() = ⟨𝑓ˆ, 𝐾 ⟩ = ⟨∑︁ 𝛼𝐾 , 𝐾 ⟩ + ⟨𝑓 *, 𝐾 ⟩ = ∑︁ 𝛼𝐾(, ),
откуда следует, что 𝑓ˆ() не зависит от 𝑓 *, поэтому первое слагаемое в сумме в (2.87) не зависит от 𝑓 *.

̸
Докажем, что 𝑓 * = ¯0 (нулевой вектор). Если 𝑓 * = ¯0, то замена 𝑓 * на
¯0 не изменила бы первое слагаемое в сумме в (2.87), а второе бы только уменьшилось, т.к. ∀ 𝑓1, 𝑓2 ∈ ℋ𝐾 если ⟨𝑓1, 𝑓2⟩ = 0, то

2

2





2

2
|𝑓1 + 𝑓2 | = ⟨𝑓1 + 𝑓2, 𝑓1 + 𝑓2⟩ = ⟨𝑓1, 𝑓1⟩ + ⟨𝑓2, 𝑓2⟩ = |𝑓1 | + |𝑓2 |

поэтому венство
|𝑓ˆ|2

|
=


=1
𝛼𝐾 |
+ |𝑓 * |2

|
>


=1

∑︁

𝛼𝐾 |


2, откуда следует нера-

Ω( |𝑓ˆ|) > Ω( | 𝛼𝐾 |)
=1
которое противоречит предположению о том, что (2.87).

𝑓ˆ – решение задачи





    1. Задача регрессии


В задаче регрессии выборка, как правило, имеет вид
𝑆 = {(1, 1), . . . , (, )} ⊆ R × R,
т.е. ответами являются действительные числа (м.б. также и вектора из действительных чисел). Задача регрессии заключается в том, чтобы по известным значениям некоторой неизвестной функции в заданных точ- ках ( = 1, . . . , ) предсказать значения этой функции в других точках.


2.7.1 Линейная регрессия



{ } ⊆ ×
Пусть задана выборка 𝑆 = (1, 1), . . . , (, ) R R.

⟨ ⟩ ∈ ∈
Требуется найти АФ 𝑎𝑆() в виде , + 0, где R, 0 R, причем должно быть выполнено условие


𝑆


𝑄(𝑎
) = 1 ∑︁ ℒ(𝑎



, ) = 1 ∑︁(𝑎



( ) − )2 → min .

𝑆


𝑆

Поскольку множитель 1 не влияет на решение задачи поиска опти-


мальной АФ 𝑎𝑆, то мы его писать не будем.
Заметим, что
𝑎𝑆() = ⟨, ⟩ + 0 = ⟨˜, ˜⟩,
где ˜ = (, 0) и ˜ = (, 1).
Таким образом, требуется найти ˜ ∈ R+1, решающий задачу

˜) =

=1

𝑄( def ∑︁(⟨˜, ˜⟩ − )2 → min (2.89)
Обозначим символами 𝑋 и 𝑌 матрицу и столбец соответственно
˜1 ⎞ ⎛ 1

˜





𝑋 = . . . , 𝑌 = . . . .

Если рассматривать ˜ как столбец, то можно переписать (2.89) в виде


𝑄(˜) = |𝑋˜ − 𝑌 |2 → min (2.90)
𝑄(˜) – выпуклая функция, т.к. она является суперпозицией выпуклой

функции ˜
↦→ |𝑋˜ − 𝑌 | и выпуклой функции ↦→ 2, причем вторая

функция возрастает. Выпуклость второй из этих функций была обос- нована в пункте 2.5.2, выпуклость первой обосновывается следующим образом: ∀ 𝛼 ∈ [0, 1], ∀ ˜, ˜R+1
|𝑋(𝛼˜ + (1 − 𝛼)˜) − 𝑌 | =
= |𝑋(𝛼˜ + (1 − 𝛼)˜) − 𝛼𝑌 − (1 − 𝛼)𝑌 | =
= |𝛼(𝑋˜ − 𝑌 ) + (1 − 𝛼)(𝑋˜ − 𝑌 ) | ≤
≤ 𝛼 |𝑋˜ − 𝑌 | + (1 − 𝛼) |𝑋˜ − 𝑌 |.
Поэтому ˜ является решением задачи (2.90) если и только если
𝜕𝑄

∀ = 1, . . . , + 1


𝜕˜
= 0. (2.91)

Учитывая определение функции 𝑄, перепишем (2.91) в виде



𝜕𝑄

𝜕˜
∀ = 1, . . . , + 1

= ∑︁ 2(⟨˜ , ˜⟩ − )(˜ )


= 0 (2.92)



∀ ∀



Поскольку = 1, . . . , , = 1, . . . , + 1 (˜) есть элемент 𝑋


матрицы 𝑋, то соотношения (2.92) можно переписать в виде



∀ = 1, . . . , + 1
∑︁⟨˜, ˜⟩𝑋 = ∑︁ 𝑋. (2.93)




Обозначим записью 𝑋 матрицу, транспонированную к 𝑋, т.е.


∀ = 1, . . . , + 1, ∀ = 1, . . . , 𝑋 = 𝑋,
и перепишем (2.93) в виде



∀ = 1, . . . , + 1
∑︁ 𝑋 ⟨˜, ˜⟩ = ∑︁ 𝑋 . (2.94)


∀ = 1, . . . , ⟨˜, ˜⟩ есть –й элемент столбца 𝑋˜, обозначим его записью (𝑋˜). Нетрудно видеть, что ∀ = 1, . . . , + 1





  • левая сумма в (2.94), т.е.

𝑋(𝑋˜), и


=1
𝑋 (𝑋˜), есть –й элемент столбца

  • правая сумма в (2.94) есть –й элемент столбца 𝑋𝑌 .

Таким образом, столбцы 𝑋𝑋˜ и 𝑋𝑌 совпадают, т.е. искомый век- тор ˜ является решением уравнения
𝑋𝑋˜ = 𝑋𝑌. (2.95)
Нетрудно доказать, что данное уравнение всегда имеет решение. Если матрица 𝑋𝑋 невырождена, то уравнение (2.95) имеет един-
ственное решение
˜ = (𝑋𝑋)1𝑋𝑌,
а если она вырождена, то решение уравнения (2.95) м.б. неединственным. Так может произойти, например, если число пар в обучающей выборке
𝑆 меньше . В этом случае вместо задачи (2.90) разумнее решать задачу

| |
𝑄(˜) = |𝑋˜ − 𝑌 |2 + 𝑐 |˜ |2 → min, (2.96) где 𝑐 – параметр, выражающий штраф за большую ˜ .
Данная задача называется задачей гребневой (ridge) регрессии.
Поскольку минимизируемая функция 𝑄 в (2.96) является выпуклой и дифференцируемой, то искомое решение должно обращать в 0 все част- ные производные функции 𝑄:

𝜕𝑄

𝜕˜
∀ = 1, . . . , + 1

= ∑︁ 2(⟨˜ , ˜⟩ − )(˜ )



+ 2𝑐˜

= 0.

Это соотношение можно переписать в виде



∑︁



∀ = 1, . . . , + 1
(⟨˜, ˜⟩ − )𝑋 + 𝑐˜ = 0. (2.97)
=1



Нетрудно доказать, что ∀ = 1, . . . , + 1



  • первое слагаемое в (2.97), т.е. столбца 𝑋𝑋˜ − 𝑋𝑌 , и

( ˜, ˜ )𝑋, есть –й элемент

⟨ ⟩ −
=1

  • слагаемое 𝑐˜ в (2.97) есть –й элемент столбца 𝑐˜. Поэтому искомый вектор ˜ является решением уравнения

𝑋𝑋˜ − 𝑋𝑌 + 𝑐˜ = 0 (где 0 – нулевой столбец порядка + 1),
которое можно переписать в виде
(𝑋𝑋 + 𝑐𝐸)˜ = 𝑋𝑌 (где 𝐸 – единичная матрица порядка + 1).


Нетрудно доказать, что матрица 𝑋𝑋 + 𝑐𝐸 невырождена 𝑐 > 0. Таким образом, решение задачи гребневой регрессии имеет вид
˜ = (𝑋𝑋 + 𝑐𝐸)1𝑋𝑌.




    1. Download 1.93 Mb.

      Do'stlaringiz bilan baham:
1   ...   17   18   19   20   21   22   23   24   ...   27




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling