Лекция Типы задач машинного обучения. Инструментальные средства для машинного обучения
Способы обучения и оценки его качества
Download 69.52 Kb.
|
Лекция 2. Типы задач машинного обучения. Инструментальные средства для машинного обучения
2. Способы обучения и оценки его качества. Основная характеристика систем, разрабатываемых с помощью методов машинного обучения, – способность к обучению. В зависимости от видов решаемых задач применяют различные алгоритмы реализации этой ключевой особенности. В рамках данного пособия рассмотрим три основных вида обучения, а также определим классы задач, подходящие для каждого из этих видов.
Первый тип – обучение с учителем. Дано некоторое множество объектов и множество возможных реакций системы на эти объекты. При этом ответы и объекты связаны между собой некоторой неизвестной зависимостью. Есть конечная совокупность пар объект-ответ (прецедентов), называемая обучающей выборкой. На ее основе необходимо выявить алгоритм, который впоследствии для любого объекта из исходного множества даст достаточно точный ответ. Для измерения точности ответов используется один из функционалов качества, как правило, завязанный на вычислении отклонения полученного ответа от ожидаемого, то есть вычислении ошибки. Рассмотрим некоторые их виды. В приведенных ниже формулах используются следующие обозначения: XY={(x1,y1)…(xn,yn)} – обучающая выборка, n – количество прецедентов, уi – фактическое значение (ожидаемый ответ) в i-м прецеденте (уi ϵ XY), у^i – выданный системой ответ для xi (xi ϵ XY). Средняя ошибка представляет собой усреднение ошибок для каждого образца и вычисляется по формуле: Средняя абсолютная ошибка представляет собой усреднение абсолютных ошибок на каждом шаге и вычисляется по формуле Среднеквадратическая ошибка вычисляется как сумма средних квадратов ошибок. Формула: Корень из среднеквадратической ошибки вычисляется по формуле Средняя относительная ошибка вычисляется как среднее относительных ошибок: Средняя абсолютная относительная ошибка вычисляется как среднее относительных ошибок по модулю: Симметричная средняя абсолютная относительная ошибка вычисляется как У всех представленных мер качества есть свои достоинства и недостатки. Например, у первой и пятой недостаток заключается в том, что положительные и отрицательные ошибки аннулируют друг друга, поэтому в некоторых случаях они не являются достаточно хорошими индикаторами качества. В связи с этим чаще всего используется третья или четвертая меры. Обучение с учителем используется при решении задач аппроксимации и классификации. В первом случае ответы являются действительными числами или векторами, во втором – выбираются из конечного множества меток-классов. Необходимо отметить, что при- веденные выше формулы подходят только для случаев, когда ответ системы и требуемый ответ – действительные числа, получаемые при решении задачи аппроксимации. В задачах классификации же оценка качества чаще всего завязана на соотношении количеств правильно и неправильно отнесенных к классам объектов. Второй тип обучения – обучение без учителя. Формально постановку задачи обучения без учителя можно описать следующим образом. Пусть X – множество данных – описаний некоторых объектов. Необходимо найти множество Y, состоящее из взаимосвязей f: (x, x’) между объектами из X (x, x’ ϵ Х, f ϵ Y). Качество выявления взаимосвязей проверяется некоторой метрикой, выбранной исходя из решаемой задачи. Обучение без учителя используется для решения следующих типов задач: Задача кластеризации. Поиск правил ассоциации. Сокращение размерности данных. Визуализация данных. В определенной степени каждая из последних трех задач является производной от первой или ее частным случаем. Рассмотрим подробнее формулировки названных задач. Под задачей поиска правил ассоциаций подразумевается выявление в признаковых описаниях объектов (исходных данных) таких наборов и значений признаков, которые особенно часто (неслучайно часто) встречаются в исходных данных. Если же прово- дить аналогию с первой задачей, то каждое правило в данном случае может быть представлено как кластер. Задача сокращения размерности данных состоит в следующем. Существует большой (значительно большой) объем признаковых опи- саний объектов. Причем этот объем обуславливается внушительным количеством измерений признакового пространства. Необходимо представить те же данные в пространстве меньшей размерности, при этом минимизировав потери информации. Группировка по кластерам как раз и будет одним из вариантов решения проблемы. Задача визуализации данных является по сути частным случаем предыдущей: ее цель – представить исходные данные в отображаемом пространстве, то есть пространстве размерности 2 или 3. Как следует из описанного выше, обучение без учителя в какой- то мере так или иначе сводится к кластеризации. Поэтому для оценки качества обучения данным способом, как правило, используют метрики качества кластеризации. Причем при их выборе учитывается, что эти метрики не должны зависеть от исходных данных, а только от результатов разбиения. Все оценки качества можно разделить на внешние и внутренние. Первые используют внешнюю информацию об истинном разбиении объектов на кластеры, вторые опираются только на набор исходных данных, то есть данные метрики могут работать с неразмеченной выборкой, когда заранее не известно истинное разбиение объектов на группы. И именно с их помощью определяют оптимальное число кластеров. Download 69.52 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling