Лекция Типы задач машинного обучения. Инструментальные средства для машинного обучения


Download 69.52 Kb.
bet1/3
Sana10.03.2023
Hajmi69.52 Kb.
#1257058
TuriЛекция
  1   2   3
Bog'liq
Лекция 2. Типы задач машинного обучения. Инструментальные средства для машинного обучения


Лекция 2. Типы задач машинного обучения. Инструментальные средства для машинного обучения.
План:

  1. Введение в типы задач машинного обучения.

  2. Алгоритмы обучения с учителем и без учителя.

  3. Требующиеся для машинного обучения инструментальные средства (Octave / Matlab / Python ), знакомство с анализом и опциями МО.


1. Машинное обучение применяется для решения задач в следующих областях (основные сферы применения):

  1. Медицинская диагностика.

  2. Техника, в частности:

    1. Автоматизация и управление.

    2. Техническая диагностика.

    3. Робототехника.

    4. Компьютерное зрение.

    5. Распознавание речи.

  1. Экономика, в частности:

    1. Кредитный скоринг (credit scoring).

    2. Предсказание ухода клиентов (churm prediction).

    3. Обнаружение мошенничества (fraud detection).

    4. Биржевой технический анализ (technical analysis).

    5. Биржевой надзор (market surveillance).

  2. Офисная автоматизация, в частности:

    1. Распознавание текста.

    2. Обнаружение спама.

    3. Категоризация документов.

    4. Распознавание рукописного ввода.

Если же говорить об обобщенных типах задач машинного обучения, то можно выделить следующие:

  1. Регрессия (или иногда встречается термин «аппроксимация»);

  2. Классификация;

  3. Кластеризация.

Помимо указанных видов существуют и другие, но остановимся на обозначенных, так как они наиболее распространены. Рассмотрим формальную постановку этих задач.
Задача регрессии – приближение неизвестной целевой зависимости на некотором множестве данных. Пусть X – множество данных – описаний некоторых объектов. Y – множество возможных ответов для Х. В задаче регрессии предполагается, что существует неизвестная целевая зависимость у: Х→Y, чьи значения известны только на объектах обучающей выборки ХY={(х1,y1)… n,yn)}, х ϵ Х, y ϵ Y. Необходимо получить алгоритм а: X→Y, приближающий целевую зависимость как на множестве XY, так и на X. То есть решить задачу регрессии – значит найти алгоритм, обладающий способностью к обобщению эмпирических фактов (способностью к выводу общих знаний из частных наблюдений, прецедентов).
Задача классификации – распределение некоторого множества объектов по заданному множеству групп (классов). При этом есть некоторое подмножество объектов, для которых распределение по классам известно, классовая принадлежность остальных – неизвестна. Требуется построить алгоритм, который указывал бы классовую принадлежность для любого объекта из исходного множества.
Формально постановку задачи классификации можно описать следующим образом. Пусть X – множество данных – описаний некоторых объектов. Y конечное множество классов, отмеченных метками. Существует неизвестная целевая зависимость – отображение у: Х→Y, чьи значения известны только на объектах обучающей выборки ХY= {(х1, y1) … (хn, yn)}, х ϵ Х, y ϵ Y. Необходимо получить алгоритм а: X→Y, способный классифицировать произвольный объект х ϵ Х.
Как можно заметить, данная задача схожа с предыдущей. Однако главная особенность задачи регрессии заключается в том, что функция a: X→Y является непрерывной вещественной функцией. Задача классификации отличается от этого тем, что Y – дискретное множество. Кроме того, в отличие от задачи аппроксимации у задачи классификации выделяют несколько типов. По количеству классов можно выделить:

  1. Классификацию на два класса: множество Y содержит всего две метки.

  2. Классификацию на множество классов: Y содержит от трех до нескольких тысяч меток.

По характеру разделения объектов на классы можно выделить:

  1. Классификацию на непересекающиеся классы: один объект принадлежит только одному классу.

  2. Классификацию на пересекающиеся классы: один объект может принадлежать нескольким классам.

  3. Классификацию на нечеткие множества: объект принадлежит всем классам с определенной степенью принадлежности.

Задача кластеризации – разделение некоторого множества объектов на непересекающиеся группы (кластеры) таким образом, чтобы каждая группа состояла из схожих объектов, а объекты разных кластеров существенно отличались.
Формально постановку задачи кластеризации можно описать следующим образом. Пусть X – множество данных – описаний неко- торых объектов. Y – множество кластеров, отмеченных метками. Определена функция расстояния между объектами из исходного множества Х: f (x, x’), и есть некоторая обучающая выборка объектов Хо= {х1… хn)}, х ϵ Х. Необходимо разбить обучающую выборку на кластеры, приписав каждому x номер кластера yi, так, чтобы близкие по метрике f объекты принадлежали одному кластеру, а объекты разных кластеров существенно отличались по метрике f. То есть необходимо построить алгоритм а: X→Y, который любому х ϵ Х ставит в соответствие номер кластера y ϵ Y. Причем, иногда множество Y известно заранее, но чаще все-таки ставится задача получить оптимальное число кластеров, исходя из характера данных. Оптимальность оценивается по какому-либо критерию качества кластеризации.
Задача кластеризации сложнее аппроксимации и классификации.
Это обусловлено следующими причинами:

  1. Нет однозначного критерия качества кластеризации. Существует ряд эвристических критериев, а также ряд бескритериальных алгоритмов, выполняющих вполне осмысленную кластеризацию, но дающих на одних и тех же данных разные результаты.

  2. Число кластеров, как правило, заранее неизвестно и задается субъективно.

  3. На результат кластеризации существенное влияние оказывает выбранная метрика расстояния, которая, как правило, также выбирается субъективно.

Однако, несмотря на описанные выше сложности, кластеризация помогает достичь следующие цели:

  1. Улучшить понимание данных за счет выявления их кластерной структуры: разбиение объемной выборки на группы схожих объектов может упростить дальнейшую обработку данных за счет применения к каждому кластеру своих мето- дов анализа.

  2. Осуществить сжатие данных. В данном случае подразуме- вается сокращение объемной выборки за счет работы с наиболее яркими представителями кластеров (групп схожих объектов).

  3. Выявить новизну в массиве данных: обнаружить нетипичные объекты, которые не удается отнести ни к одному кластеру.

  4. Решить задачу таксономии: построить древообразную иерар- хическую структуру, упорядочивающую исходные данные. Ее построение достигается за счет дробления крупных клас- теров на более мелкие, которые в свою очередь также дро- бятся на еще более мелкие. Визуально таксономия отобра- жается в виде графика – дендрограммы.



Download 69.52 Kb.

Do'stlaringiz bilan baham:
  1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling