Лекция Введение. Введение в машинное обучение и его основные концепции

Рисунок 1. Области науки о данных

bet	2/8
Sana	08.03.2023
Hajmi	351.38 Kb.
	#1251911
Turi	Лекция

1 2 3 4 5 6 7 8

Bog'liq
Лекция 1. Введение. Введение в машинное обучение и его основные концепции

Статистические модели и методы

Рисунок 1. Области науки о данных

Сложность работы в сфере DataMining обуславливается неточностью, противоречивостью, разнородностью, неполнотой дан- ных, которые при этом могут иметь гигантские объемы. Для их обработки требуются специальные программные средства: инструменты преобразования «сырых» данных в информацию, а информацию в знания. Кроме того, алгоритмы обработки данных должны

иметь возможность обучаться по прецедентам. Машинное обучение (МО) как раз и занимается разрешением подобных сложностей.
Причем в настоящее время усилия сконцентрированы на повышении не столько качества решения, сколько скорости и оптимальности его получения.

Статистические модели и методы: Обратимся к статистике и кратко опишем ее модели и методы, которые могут быть использованы для решения задач машинного обучения, а именно методы регрессионного анализа.

В контексте машинного обучения под регрессионным анализом понимается процесс построения математической модели, описывающей зависимость некоторой целевой характеристики объекта или процесса от других его характеристик. Например, зависимость числа новых клиентов от величины зарплаты работающего на улице промоутера.
В задаче регрессионного анализа всегда есть обучающая выборка, состоящая из входных параметров и откликов, а также начальная параметрическая модель, в самом простом случае – линейная, однако не обязательно таковая. Для задачи из примера эта модель может иметь вид y=β₀+β₁×x, где х – размер зарплаты промоутера; у – количество новых клиентов; β₀ и β₁ – параметры модели. Задача регрессии – оценить их, то есть найти такие значения β₀ и β₁, чтобы полученная модель отражала зависимость между входом и выходом с требуемой точностью.
После получения адекватной модели мы можем решать задачу прогнозирования, подставляя в полученную формулу величину x и вычисляя величину y (с удовлетворяющей нас погрешностью). Приведенный выше пример модели – модель парной линейной регрессии, но помимо нее существует и множественная, и нелинейная регрессии. Начнем рассмотрение с самого простого.
Допустим, мы хотим описать зависимость между двумя факторами моделью вида y=β₀+β₁×x. Первое, что необходимо учесть, – построенная линия никогда не будет точно проходить по опытным точкам, поэтому истинный вид регрессионной модели будет y=β₀+β₁×x+е, где е – ошибки наблюдений. Второе – прежде чем переходить к оцениванию параметров модели, целесообразно построить диаграмму рассеяния, чтобы убедиться, что выбранная модель действительно может описать зависимость между факторами. На диаграмме рассеяния каждой паре «зависимый-влияющий параметр» соответствует точка на плоскости. Как правило, зависимый фактор откладывается по оси ординат, а второй – по оси абсцисс. Модель парной линейной регрессии графически представляет собой линию, следовательно, использовать ее для описания зависимости целесообразно, если на диаграмме рассеяния точки располагаются вокруг (и достаточно близко) какой-либо прямой. Отклонение реальных точек от модельных – остатки или ошибки наблюдений, которые обозначаются е. Пример диаграммы рассеяния показан на рисунке 2.

Download 351.38 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8