Рисунок 2. Диаграмма рассеяния
Если после анализа диаграммы рассеяния принимается решение использовать линейную парную регрессию для моделирования зависимости, то следующим шагом будет нахождение параметров модели β0 и β1. Для решения этой задачи в девяносто девяти процентах случаев используется метод наименьших квадратов, предложенный Гауссом более двухсот лет назад. Суть данного метода заключается в минимизации суммы квадратов отклонений опытных данных от модельных. Формально эта задача описывается так:
i
.
В данном случае ei вычисляется следующим образом:
,
где yi – реальное выходное значение для входного значения xi.
Чтобы решить указанную задачу оптимизации, решают систему уравнений:
Найдя необходимые частные производные и выполнив преобра- зования по упрощению выражений, получают нормальную систему уравнений для парной линейной регрессии:
Рассмотрим для примера построение парной линейной регрес- сии для задачи зависимости ежемесячного количества новых клиен- тов от почасовой зарплаты промоутера по данным, представленным в таблице 7.
Таблица 7. Данные для анализа
Зарплата (x)
|
100
|
120
|
130
|
150
|
Количество клиентов (y)
|
70
|
100
|
120
|
140
|
Подставим данные в систему уравнений и получим следующий ее вид:
Выразим β0 из первого уравнения:
Подставим во второе и найдем β1:
В итоге получим уравнение регрессии:
y = 1,4231x − 70,385.
Полученные коэффициенты можно интерпретировать следующим образом. β0 – значение при x=0. То есть, если у нас не будет работать промоутер (то есть мы не будем платить ему зарплату), ежемесячно мы прогнозируем отток 70 клиентов. Содержательная интерпретация второго коэффициента следующая: каждый рубль в зарплате промоутера дает 1,4 нового клиента в месяц.
Do'stlaringiz bilan baham: |