Лекция Типы задач машинного обучения. Инструментальные средства для машинного обучения
Download 69.52 Kb.
|
Лекция 2. Типы задач машинного обучения. Инструментальные средства для машинного обучения
Лекция 2. Типы задач машинного обучения. Инструментальные средства для машинного обучения. План: Введение в типы задач машинного обучения. Алгоритмы обучения с учителем и без учителя. Требующиеся для машинного обучения инструментальные средства (Octave / Matlab / Python ), знакомство с анализом и опциями МО. 1. Машинное обучение применяется для решения задач в следующих областях (основные сферы применения): Медицинская диагностика. Техника, в частности: Автоматизация и управление. Техническая диагностика. Робототехника. Компьютерное зрение. Распознавание речи. Экономика, в частности: Кредитный скоринг (credit scoring). Предсказание ухода клиентов (churm prediction). Обнаружение мошенничества (fraud detection). Биржевой технический анализ (technical analysis). Биржевой надзор (market surveillance). Офисная автоматизация, в частности: Распознавание текста. Обнаружение спама. Категоризация документов. Распознавание рукописного ввода. Если же говорить об обобщенных типах задач машинного обучения, то можно выделить следующие: Регрессия (или иногда встречается термин «аппроксимация»); Классификация; Кластеризация. Помимо указанных видов существуют и другие, но остановимся на обозначенных, так как они наиболее распространены. Рассмотрим формальную постановку этих задач. Задача регрессии – приближение неизвестной целевой зависимости на некотором множестве данных. Пусть X – множество данных – описаний некоторых объектов. Y – множество возможных ответов для Х. В задаче регрессии предполагается, что существует неизвестная целевая зависимость у: Х→Y, чьи значения известны только на объектах обучающей выборки ХY={(х1,y1)… (хn,yn)}, х ϵ Х, y ϵ Y. Необходимо получить алгоритм а: X→Y, приближающий целевую зависимость как на множестве XY, так и на X. То есть решить задачу регрессии – значит найти алгоритм, обладающий способностью к обобщению эмпирических фактов (способностью к выводу общих знаний из частных наблюдений, прецедентов). Задача классификации – распределение некоторого множества объектов по заданному множеству групп (классов). При этом есть некоторое подмножество объектов, для которых распределение по классам известно, классовая принадлежность остальных – неизвестна. Требуется построить алгоритм, который указывал бы классовую принадлежность для любого объекта из исходного множества. Формально постановку задачи классификации можно описать следующим образом. Пусть X – множество данных – описаний некоторых объектов. Y – конечное множество классов, отмеченных метками. Существует неизвестная целевая зависимость – отображение у: Х→Y, чьи значения известны только на объектах обучающей выборки ХY= {(х1, y1) … (хn, yn)}, х ϵ Х, y ϵ Y. Необходимо получить алгоритм а: X→Y, способный классифицировать произвольный объект х ϵ Х. Как можно заметить, данная задача схожа с предыдущей. Однако главная особенность задачи регрессии заключается в том, что функция a: X→Y является непрерывной вещественной функцией. Задача классификации отличается от этого тем, что Y – дискретное множество. Кроме того, в отличие от задачи аппроксимации у задачи классификации выделяют несколько типов. По количеству классов можно выделить: Классификацию на два класса: множество Y содержит всего две метки. Классификацию на множество классов: Y содержит от трех до нескольких тысяч меток. По характеру разделения объектов на классы можно выделить: Классификацию на непересекающиеся классы: один объект принадлежит только одному классу. Классификацию на пересекающиеся классы: один объект может принадлежать нескольким классам. Классификацию на нечеткие множества: объект принадлежит всем классам с определенной степенью принадлежности. Задача кластеризации – разделение некоторого множества объектов на непересекающиеся группы (кластеры) таким образом, чтобы каждая группа состояла из схожих объектов, а объекты разных кластеров существенно отличались. Формально постановку задачи кластеризации можно описать следующим образом. Пусть X – множество данных – описаний неко- торых объектов. Y – множество кластеров, отмеченных метками. Определена функция расстояния между объектами из исходного множества Х: f (x, x’), и есть некоторая обучающая выборка объектов Хо= {х1… хn)}, х ϵ Х. Необходимо разбить обучающую выборку на кластеры, приписав каждому x номер кластера yi, так, чтобы близкие по метрике f объекты принадлежали одному кластеру, а объекты разных кластеров существенно отличались по метрике f. То есть необходимо построить алгоритм а: X→Y, который любому х ϵ Х ставит в соответствие номер кластера y ϵ Y. Причем, иногда множество Y известно заранее, но чаще все-таки ставится задача получить оптимальное число кластеров, исходя из характера данных. Оптимальность оценивается по какому-либо критерию качества кластеризации. Задача кластеризации сложнее аппроксимации и классификации. Это обусловлено следующими причинами: Нет однозначного критерия качества кластеризации. Существует ряд эвристических критериев, а также ряд бескритериальных алгоритмов, выполняющих вполне осмысленную кластеризацию, но дающих на одних и тех же данных разные результаты. Число кластеров, как правило, заранее неизвестно и задается субъективно. На результат кластеризации существенное влияние оказывает выбранная метрика расстояния, которая, как правило, также выбирается субъективно. Однако, несмотря на описанные выше сложности, кластеризация помогает достичь следующие цели: Улучшить понимание данных за счет выявления их кластерной структуры: разбиение объемной выборки на группы схожих объектов может упростить дальнейшую обработку данных за счет применения к каждому кластеру своих мето- дов анализа. Осуществить сжатие данных. В данном случае подразуме- вается сокращение объемной выборки за счет работы с наиболее яркими представителями кластеров (групп схожих объектов). Выявить новизну в массиве данных: обнаружить нетипичные объекты, которые не удается отнести ни к одному кластеру. Решить задачу таксономии: построить древообразную иерар- хическую структуру, упорядочивающую исходные данные. Ее построение достигается за счет дробления крупных клас- теров на более мелкие, которые в свою очередь также дро- бятся на еще более мелкие. Визуально таксономия отобра- жается в виде графика – дендрограммы. Download 69.52 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling