Книга представляет собой введение в основные понятия, методы и ал


Теорема 5. Пусть заданы выборка ???? ⊆ ???? × R


Download 0.87 Mb.
bet20/24
Sana18.03.2023
Hajmi0.87 Mb.
#1281521
TuriКнига
1   ...   16   17   18   19   20   21   22   23   24
Bog'liq
machine-learning-mironov

Теорема 5. Пусть заданы

        • выборка 𝑆 ⊆ 𝑋 × R,


        • ядро 𝐾 : 𝑋2R,

        • функция потерь 𝑐 : (𝑋 × R × R)*R0

(например,
𝑐(︁
(, , 𝑓 ())=1..)︁ =
1 ∑︀



( − 𝑓 ())2), и

=1

        • строго возрастающая функция Ω : R0R0. Если 𝑓ˆ ∈ ℋ𝐾 – решение задачи

𝑐(︁(, , 𝑓 ())=1..)︁ + Ω( |𝑓 |) → min (2.87)


∑︀
то 𝑓ˆ =
=1

𝛼𝐾
, где


𝛼1, . . . , 𝛼 R.

Доказательство.


Вектор 𝑓ˆ ∈ ℋ𝐾 можно представить в виде суммы

∑︁


𝑓ˆ = 𝛼𝐾 + 𝑓 *,
=1


где 𝑓 * – вектор из ортогонального дополнения подпространства в 𝐾, порожденного векторами 𝐾1 , . . . , 𝐾 , т.е.
∀ = 1, . . . , ⟨𝑓 *, 𝐾 ⟩ = 0. (2.88) Согласно равенству в (2.86) и соотношению (2.88), ∀ = 1, . . . ,


=1


=1

𝑓ˆ() = ⟨𝑓ˆ, 𝐾 ⟩ = ⟨∑︁ 𝛼𝐾 , 𝐾 ⟩ + ⟨𝑓 *, 𝐾 ⟩ = ∑︁ 𝛼𝐾(, ),
откуда следует, что 𝑓ˆ() не зависит от 𝑓 *, поэтому первое слагаемое в сумме в (2.87) не зависит от 𝑓 *.

̸
Докажем, что 𝑓 * = ¯0 (нулевой вектор). Если 𝑓 * = ¯0, то замена 𝑓 * на
¯0 не изменила бы первое слагаемое в сумме в (2.87), а второе бы только уменьшилось, т.к. ∀ 𝑓1, 𝑓2 ∈ ℋ𝐾 если ⟨𝑓1, 𝑓2⟩ = 0, то

∑︀

∑︀

2

2

2

2
|𝑓1 + 𝑓2 | = ⟨𝑓1 + 𝑓2, 𝑓1 + 𝑓2⟩ = ⟨𝑓1, 𝑓1⟩ + ⟨𝑓2, 𝑓2⟩ = |𝑓1 | + |𝑓2 |

поэтому венство
|𝑓ˆ|2



|
=
=1
𝛼𝐾 |
+ |𝑓 * |2



|
>
=1

∑︁

𝛼𝐾 |


2, откуда следует нера-

Ω( |𝑓ˆ|) > Ω( | 𝛼𝐾 |)
=1
которое противоречит предположению о том, что (2.87).

𝑓ˆ – решение задачи





    1. Задача регрессии


В задаче регрессии выборка, как правило, имеет вид
𝑆 = {(1, 1), . . . , (, )} ⊆ R × R,
т.е. ответами являются действительные числа (м.б. также и вектора из действительных чисел). Задача регрессии заключается в том, чтобы по известным значениям некоторой неизвестной функции в заданных точ- ках ( = 1, . . . , ) предсказать значения этой функции в других точках.


2.7.1 Линейная регрессия



{ } ⊆ ×
Пусть задана выборка 𝑆 = (1, 1), . . . , (, ) R R.

⟨ ⟩ ∈ ∈
Требуется найти АФ 𝑎𝑆() в виде , + 0, где R, 0 R, причем должно быть выполнено условие












𝑆
𝑄(𝑎
) = 1 ∑︁ ℒ(𝑎



, ) = 1 ∑︁(𝑎



( ) − )2 → min .






















𝑆

𝑆
Поскольку множитель 1 не влияет на решение задачи поиска опти-
мальной АФ 𝑎𝑆, то мы его писать не будем.
Заметим, что
𝑎𝑆() = ⟨, ⟩ + 0 = ⟨˜, ˜⟩,
где ˜ = (, 0) и ˜ = (, 1).
Таким образом, требуется найти ˜ ∈ R+1, решающий задачу



˜) =

=1

𝑄( def ∑︁(⟨˜, ˜⟩ − )2 → min (2.89)
Обозначим символами 𝑋 и 𝑌 матрицу и столбец соответственно
˜1 ⎞ ⎛ 1 ⎞

˜





𝑋 = . . . , 𝑌 = . . . .

Если рассматривать ˜ как столбец, то можно переписать (2.89) в виде


𝑄(˜) = |𝑋˜ − 𝑌 |2 → min (2.90)
𝑄(˜) – выпуклая функция, т.к. она является суперпозицией выпуклой

функции ˜
↦→ |𝑋˜ − 𝑌 | и выпуклой функции ↦→ 2, причем вторая

функция возрастает. Выпуклость второй из этих функций была обос- нована в пункте 2.5.2, выпуклость первой обосновывается следующим образом: ∀ 𝛼 ∈ [0, 1], ∀ ˜, ˜R+1
|𝑋(𝛼˜ + (1 − 𝛼)˜) − 𝑌 | =
= |𝑋(𝛼˜ + (1 − 𝛼)˜) − 𝛼𝑌 − (1 − 𝛼)𝑌 | =
= |𝛼(𝑋˜ − 𝑌 ) + (1 − 𝛼)(𝑋˜ − 𝑌 ) | ≤
≤ 𝛼 |𝑋˜ − 𝑌 | + (1 − 𝛼) |𝑋˜ − 𝑌 |.
Поэтому ˜ является решением задачи (2.90) если и только если
𝜕𝑄

∀ = 1, . . . , + 1


𝜕˜
= 0. (2.91)

Учитывая определение функции 𝑄, перепишем (2.91) в виде



𝜕𝑄

𝜕˜
∀ = 1, . . . , + 1

= ∑︁ 2(⟨˜ , ˜⟩ − )(˜ )








= 0 (2.92)


∀ ∀












Поскольку = 1, . . . , , = 1, . . . , + 1 (˜) есть элемент 𝑋
матрицы 𝑋, то соотношения (2.92) можно переписать в виде



∀ = 1, . . . , + 1
∑︁⟨˜, ˜⟩𝑋 = ∑︁ 𝑋. (2.93)




Обозначим записью 𝑋 матрицу, транспонированную к 𝑋, т.е.


∀ = 1, . . . , + 1, ∀ = 1, . . . , 𝑋 = 𝑋,
и перепишем (2.93) в виде



∀ = 1, . . . , + 1
∑︁ 𝑋 ⟨˜, ˜⟩ = ∑︁ 𝑋 . (2.94)


∀ = 1, . . . , ⟨˜, ˜⟩ есть –й элемент столбца 𝑋˜, обозначим его записью (𝑋˜). Нетрудно видеть, что ∀ = 1, . . . , + 1





  • левая сумма в (2.94), т.е.

𝑋(𝑋˜), и

∑︀
=1
𝑋 (𝑋˜), есть –й элемент столбца

  • правая сумма в (2.94) есть –й элемент столбца 𝑋𝑌 .

Таким образом, столбцы 𝑋𝑋˜ и 𝑋𝑌 совпадают, т.е. искомый век- тор ˜ является решением уравнения
𝑋𝑋˜ = 𝑋𝑌. (2.95)
Нетрудно доказать, что данное уравнение всегда имеет решение. Если матрица 𝑋𝑋 невырождена, то уравнение (2.95) имеет един-
ственное решение
˜ = (𝑋𝑋)1𝑋𝑌,
а если она вырождена, то решение уравнения (2.95) м.б. неединственным. Так может произойти, например, если число пар в обучающей выборке
𝑆 меньше . В этом случае вместо задачи (2.90) разумнее решать задачу

| |
𝑄(˜) = |𝑋˜ − 𝑌 |2 + 𝑐 |˜ |2 → min, (2.96) где 𝑐 – параметр, выражающий штраф за большую ˜ .
Данная задача называется задачей гребневой (ridge) регрессии.
Поскольку минимизируемая функция 𝑄 в (2.96) является выпуклой и дифференцируемой, то искомое решение должно обращать в 0 все част- ные производные функции 𝑄:

𝜕𝑄

𝜕˜
∀ = 1, . . . , + 1

= ∑︁ 2(⟨˜ , ˜⟩ − )(˜ )



+ 2𝑐˜







= 0.
















Это соотношение можно переписать в виде

∑︁



∀ = 1, . . . , + 1
(⟨˜, ˜⟩ − )𝑋 + 𝑐˜ = 0. (2.97)
=1


∑︀
Нетрудно доказать, что ∀ = 1, . . . , + 1



  • первое слагаемое в (2.97), т.е. столбца 𝑋𝑋˜ − 𝑋𝑌 , и

( ˜, ˜ )𝑋, есть –й элемент

⟨ ⟩ −
=1

  • слагаемое 𝑐˜ в (2.97) есть –й элемент столбца 𝑐˜. Поэтому искомый вектор ˜ является решением уравнения

𝑋𝑋˜ − 𝑋𝑌 + 𝑐˜ = 0 (где 0 – нулевой столбец порядка + 1),
которое можно переписать в виде
(𝑋𝑋 + 𝑐𝐸)˜ = 𝑋𝑌 (где 𝐸 – единичная матрица порядка + 1).


Нетрудно доказать, что матрица 𝑋𝑋 + 𝑐𝐸 невырождена 𝑐 > 0. Таким образом, решение задачи гребневой регрессии имеет вид
˜ = (𝑋𝑋 + 𝑐𝐸)1𝑋𝑌.



    1. Метрическая модель обучения




Метрическая модель обучения связана с использованием некоторой меры близости 𝜌 на множестве объектов 𝑋, которую называют метрикой. Метрика 𝜌 должна быть подобрана так, чтобы зависимость 𝑓 : 𝑋 𝑌 между объектами и ответами (которую аппроксимирует АФ 𝑎𝑆) была согласована с 𝜌, т.е. если объекты и близки по этой метрике, то ответы 𝑓 () и 𝑓 () были бы примерно одинаковы.
Во многих задачах метрический подход существенно проще, чем рас- смотренный выше подход, основанный на описании объектов в виде век- торов значений признаков. Применение метрической модели более пред- почтительно по сравнению с другими моделями в тех случаях, когда объекты имеют сложную структуру (например, это м.б. изображения, временные ряды, структуры белков, и т.п.).


      1. Понятие метрики


Метрикой на множестве 𝑋 называется функция

{︂ удовлетворяющая условию: ∀ , ∈ 𝑋
𝜌 : 𝑋 × 𝑋 → R0,
𝜌(, ) = 0 = ,
𝜌(, ) = 𝜌(, ).
В некоторых случаях 𝜌 может также удовлетворять условию
∀ , , ′′ ∈ 𝑋 𝜌(, ) ≤ 𝜌(, ) + 𝜌(, )
(которое называется неравенством треугольника).
Примеры метрики:


  • ⎯⎸∑︁
    евклидова метрика на 𝑋 = R:

∀ , R 𝜌(, ) = ( )2,



=1



где = (1, . . . , ), = (1, . . . , ),




  • взвешенная метрика на 𝑋 = R: предполагается, что заданы веса 1, . . . , R0 и действительное число ≥ 1,

∀ , R 𝜌(, ) =
(︁ ∑︁

|
|


)︁ 1










где = (1, . . . , ), = (1, . . . , ),
(евклидова метрика является частным случаем взвешенной метри-
ки: в ней = 2 и ∀ = 1, . . . , = 1),

∀ ∈


метрика на множестве символьных строк 𝐶*, где 𝐶 – конечное мно- жество, элементы которого называются символами: , 𝐶*
𝜌(, ) равно наименьшему числу элементарных операций, кото- рые надо выполнить чтобы получить из , где под элементар- ной операцией понимается

  • удаление какого-либо символа из строки, или

  • вставка какого-либо символа в произвольное место строки.




      1. Download 0.87 Mb.

        Do'stlaringiz bilan baham:
1   ...   16   17   18   19   20   21   22   23   24




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling