Лабораторная работа №1 "Парная регрессия" Студент гр. М-163-17 Фамилия Ж. М
Download 0.88 Mb. Pdf ko'rish
|
eko.lab.1
Каршинснкий энжинерно-экономический инстититут печати
ЭКОНОМЕТРИКА Лабораторная работа №1 “Парная регрессия”
Студент гр. М-163-17 Фамилия Ж.М.
Преподаватель Рахимов.А.
Карши
2020
Задание Построить поле корреляции для заданной совокупности наблюдений, на основе визуального анализа удалить из выборки аномальные наблюдения (не более 5% от исходного числа), добиваясь увеличения коэффициента детерминации для линейной модели парной регрессии. Используя встроенные функции Excel, для скорректированной выборки наблюдений построить модели парной регрессии для 6 заданных функций регрессии: линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической. Для каждой из построенных моделей определить коэффициент детерминации, среднюю ошибку
аппроксимации, коэффициент эластичности. Прокомментировать качество построенных моделей. Привести расчетные формулы и выполнить вычисления параметров уравнения парной линейной регрессии, показателей статистической значимости уравнения регрессии в целом, коэффициентов регрессии и корреляции, точечного и интервального прогноза. Используя надстройку Excel “Анализ данных” и матричные вычисления, продублировать вычисления параметров модели парной линейной регрессии и всех показателей, характеризующих ее качество. С помощью пакета STATISTICA провести расчеты для линейной, гиперболической и обратной функций регрессии. Построить график с доверительными интервалами прогноза для линейной регрессии. Проанализировать возможность улучшения качества модели регрессии за счет применения нелинейных функций регрессии и удаления некоторых наблюдений (не более 10%).
Исходные данные
Поле корреляции по исходным данным Стоимость полиграфических работ, y 0 5 10 15 20 25 0 200 400 600 800 1000 1200 1400 1600 1800 2000 Объем заказа, тыс. л.отт.
Выявление и удаление аномальных наблюдений
y = 0.0086x + 2.6112 R 2 = 0.711 0 5 10 15 20 25 0 200 400 600 800 1000 1200 1400 1600 1800 2000 Объем заказа, тыс. л.отт. Аномальное наблюдение? Аномальное наблюдение? Аномальное наблюдение? Аномальное наблюдение? Аномальное наблюдение?
Значения коэффициента детерминации для исходной выборки и после поочередного удаления предполагаемых на основе визуального анализа аномальных наблюдений:
0.711 235.2 1.42 0.7266 250 10.1 0.7704 630 4.58 0.7415 1300 10.86 0.7181 1800 20.54 0.3879
По результатам проведенного анализа из выборки удалено наблюдение (10,1; 250). Скорректированная выборка (27 наблюдений) Описательная статистика Модели парной регрессии Линейная Стоимость полиграфических работ, y y = 0.0087x + 2.3832 R 2 = 0.7704 0 5 10 15 20 25 0 500 1000 1500 2000 Объем заказа, тыс. л.-отт.
Степенная Стоимость полиграфических работ, y y = 0.3087x 0.4892 R 2 = 0.4429 0 5 10 15 20 25 0 500 1000 1500 2000 Объем заказа, тыс. л.-отт.
Экспоненциальная Стоимость полиграфических работ, y y = 2.9886e 0.0011x R 2 = 0.4803 0 5 10 15 20 25 0 500 1000 1500 2000 Объем заказа, тыс. л.-отт.
Логарифмическая Стоимость полиграфических работ, y y = 3.3858Ln(x) - 12.988 R 2 = 0.5468 0 5 10 15 20 25 0 500 1000 1500 2000 Объем заказа, тыс. л.-отт.
Обратная
Стоимость полиграфических работ, y 0 2 4 6 8 10 12 14 0 200 400 600 800 1000 1200 1400 Объем заказа, тыс. л.-отт. 2364 , 0 R x 0002004 , 0 3442 , 0 1 y 2 = − =
Гиперболическая
Стоимость полиграфических работ, y 0 5 10 15 20 25 0 200 400 600 800 1000 1200 1400 1600 1800 2000 Объем заказа, тыс. л.-отт. 583 0,2 R x 4 , 464 035 , 8 y 2 = − =
Расчетные формулы Коэффициент детерминации , ) y y ( ) y ˆ y ( 1 R 2 j 2 j j 2 − − − =
где j y - наблюдавшееся значение результативного показателя;
y ˆ - расчетное значение по уравнению регрессии;
Коэффициент детерминации рассчитывался для степенной функции регрессии: 0.6191 384.06 146.27 1 R 2 обр = − =
для экспоненциальной функции регрессии: 0.7801 384.06 84.45 1 R 2 обр = − =
для обратной функции регрессии: 0.236365 138.2846 105.5989 1 R 2 обр = − =
и для гиперболической функции регрессии: . 0.285875 384.06 273.7588 1 R 2 гиперб = − =
Коэффициент детерминации для линейной и логарифмической функций получен с помощью команды Excel: Диаграмма_Добавить линию тренда. Средняя ошибка аппроксимации Для расчета средней ошибки аппроксимации использовались формулы: − =
j j y ) y ˆ y ( n 100 A ,
, n ) y ˆ y ( y 100 A 2 j j − =
− = y ) y ˆ y ( n 100 A j j . Для каждой модели выбиралось минимальное из трех рассчитанных значений .
Коэффициент эластичности Для линейной функции:
= + = + =
Для степенной функции: . 0.4892 b Э = = Для экспоненциальной функции: . 0.351342 319.4019 0.0011 x b Э = = = Для полулогарифмической функции: . 0.5468 5.76645 3.3858 12.988 - 3.3858 x b a b Э ln = + = + =
Для обратной функции: . 0.1842 319.4019 0.0002004 0.3442 319.4019 0.0002004 x b a x b Э = − = + − =
Для гиперболической функции: 0.22093. .396 64 4 319.4019 8.035 464.396 b x a b Э = − = + − =
Вид модели Коэффициент детерминации Средняя ошибка аппроксимации Коэффициент эластичности Линейная 0.7704
29.79% 0.5383
Степенная 0.6191
32.66% 0.4892
Экспоненциальная 0.7801
29.98% 0.3513
Логарифмическая 0.5468
36.60% 0.5180
Обратная 0.2364
35.91% 0.1804
Гиперболическая 0.2583
42.92% 0.2209
Из рассмотренных моделей наибольшее значение коэффициента детерминации, близкое к требуемой величине 0.8, имеют линейная и экспоненциальная модели. Однако, высокая величина средней ошибки аппроксимации (около 30%) ограничивает возможность их практического применения. Ни одна из других моделей не соответствует предъявляемым требованиям по величине коэффициента детерминации и средней ошибки аппроксимации. Расчетные формулы для определения параметров регрессии и корреляции
Система нормальных линейных алгебраических уравнений относительно параметров парной линейной регрессии
= + = + = + = + 8 . 8546 7 b 680555 6 a 85 . 623 8 21 . 39 1 b 85 . 623 8 a 27 x y x b x a y x b na j j 2 j j j j
Решение системы: a = 2.38315; b = 0,00868. Коэффициент регрессии (альтернативные формулы)
= = =
0.00868 .4 19 3 - 247427.98 .4 19 3 5.1559 - 2909.14 x x x y yx b 2 2 2 * = = − − =
0.00868 145410.39 1262.33 ) x (x ) x )(x y (y b 2 j j j = = − − − =
Свободный член уравнения регрессии 2.38315 .4 19 3 0.00868 - 5.1559 x b y a * = = − =
Коэффициент корреляции 0.87772 3.7715 381.33 0.00868 σ σ b y x r yx = = =
0.87772 .33 81 3 3.7715 1262.33 σ σ x) (y, cov x y yx r = = =
0.87772 3926080.6 384.057 34082.844 ) x x ( ) y y ( ) x x ( ) y y ( * * * j j j yx 2 2 j r = = − − − − =
Индекс корреляции 0.87772 24 2 14. 659 2 3. 1 σ σ 1 ρ 2 2 y ост xy = − = − = 0.87772 384.057 88.179 1 y y y y 1 ρ ) ( ) ( j j j 2 2 xy = − = − = − −
Коэффициент детерминации
0.87772 r R 2 2 yx 2 = = =
(для парной линейной регрессии). ( )
( ) . 0.7704 384.057 295.88 y y y y R j j 2 2 2 = = − − =
Скорректированный коэффициент детерминации ( ) ( )
25 26 0.7704 1 1 2 n 1 n R 1 1 R 2 2 = − − = − − − − =
Более 76% дисперсии результативного показателя (Стоимость полиграфических работ) обусловлено изменением фактора-аргумента (Объем заказа в тыс. л.-отт.). По этому показателю рассматриваемая модель регрессии удовлетворяет необходимым требованиям.
Стандартная ошибка регрессии ( ) 1.87808 25 88.179 2 n s y j y j
2 ост
= = − = −
F-критерий Фишера
( ) ( ) ( ) .8854
3 8 5 2 / 88.179 1 / 295.88 1 m n / m / F y j
y j y y j 2 2 факт = = − − = − −
( ) .8854 3 8 1 25 0.7704 1 0.7704
m 1 m n R 1 R F 2 2 факт
= − = − − − =
F табл =FРАСПОБР(0.05;1;25) = 4.2417
F табл =FРАСПОБР(0.01;1;11) = 7.7698
При уровне значимости = 0,05 и при более строгом подходе ( = 0,01) уравнение регрессии в целом является значимым.
Стандартные ошибки параметров регрессии и коэффициента корреляции 0.47147
.33 81 3 27 6680555.4 1.878 σ
x s m x ост
a j 2 = = =
0.00095 27 381.33
1.878 n σ s m x ост b = = =
0.09583 25 0.7704 1 2 n r 1 m 2 2 r = − = − − =
Расчетные значения T-критериев Стьюдента 5.055
0.47147 2.383
m a t a a = = =
9.1589
0.000948 0.00868
m b t b b = = =
9.1589
0.09583 0.87772
m r t r r = = =
Соотношение между T-критериями Стьюдента и F-критерием Фишера
.885
3 8 9.1589 9.1589 F t t 2 2 b r 2 2 = = = =
Табличное значение T-критерия Стьюдента T табл =СТЬЮДРАСПОБР(0.05;25) = 2.05954
T табл =СТЬЮДРАСПОБР(0.01;25) = 2.7874
При уровне значимости = 0,05 и при = 0,01 параметры уравнения регрессии a и b, а также коэффициент корреляции r являются значимыми.
Точечный прогноз 5.4332
.4 19 3 1 . 1 0.00868 2.383
x b a y p p = + = + =
5.4332 .4 19 3 1 . 0 0.00868 5.1559
) x x ( b y y p p = + = − + =
Ошибка прогноза
( ) ( ) ( ) 1.91278
3926080.6 .4 19 3 1 . 0 27 1 1 1.878
x x x x n 1 1 s m 2 j 2 p 2 ост p * * y = + + = − + + = −
Доверительный интервал прогноза с учетом индивидуального рассеивания результирующего показателя при x = 1.1x средн.
9.37264 y 1.49376
1.91278 2.0595
5.4332 y 1.91278 2.0595 5.4332
m t y y m t y p p p 2 n , p p p 2 n , p y y + − + − − −
Доверительный интервал прогноза без учета индивидуального рассеивания результирующего показателя при x = 1.1x средн.
Доверительные интервалы прогноза с учетом и без учета индивидуального рассеивания результирующего показателя при различных значениях x
“Анализ данных”
Матричные вычисления
Т 2 ост МНК B МНК Т МНК 2 ост Т 1 Т МНК ) X X ( ) B X Y ( ) B X Y ( 1 m n 1 Y X ) X X ( B s s − − = − − − − = =
Расчеты с помощью пакета STATISTICA
Параметры регрессии Regression Summary for Dependent Variable: Стоимость полиграфических работ, y (Spreadsheet1) R= .87772475 R?= .77040074 Adjusted R?= .76121677 F(1,25)=83.885 p<.00000 Std.Error of estimate: 1.8781 N=27 Beta
Std.Err. of Beta
B Std.Err.
of B t(25)
p-level Intercept Объем заказа в тыс. л.-отт., x 2.383154 0.471474 5.054686 0.000032 0.877725 0.095833 0.008681 0.000948 9.158895 0.000000
Доверительные интервалы прогноза Scatterplot (Spreadsheet1 2v*27c) Стоимость полиграфических работ, y = 2.3832+0.0087*x -200 0
400 600
800 1000
1200 1400
1600 1800
2000 Объем заказа в тыс. л.-отт., x 0 2 4 6 8 10 12 14 16 18 20 22 С то и м о ст ь п о л и гр аф и ч ес ки х р аб о т, y
Пунктирная линия на графике соответствует прогнозу для значения фактора, превышающего на 10% его среднюю величину (ранее было получено: 1,49376 ≤ y р ≤ 9,37264). Парная нелинейная регрессия
Regression Summary for Dependent Variable: Стоимость полиграфических работ, y (Пример парной регрессии.sta) R= .50822911 R?= .25829683 Adjusted R?= .22862870 F(1,25)=8.7062 p<.00680 Std.Error of estimate: 3.3755 N=27 Beta
Std.Err. of Beta
B Std.Err.
of B t(25)
p-level Intercept 1/V2 8.035
1.1722 6.85452 0.000000 -0.508229 0.172244 -464.396 157.3889 -2.95063 0.006796
Analysis of Variance; DV: Стоимость полиграфических работ, y (Пример парной регрессии.sta) Effect Sums of
Squares df Mean Squares F p-level Regress. Residual
Total 99.2007
1 99.20072 8.706206 0.006796 284.8563 25 11.39425 384.0571
Результаты расчетов совпадают с полученными ранее в Excel:
линеаризованной модели -464.4 8.03501 157.389 1.17222 0.2583 3.37554 8.70621 25 99.2007 284.856
Дополнительно получена скорректированная величина индекса детерминации 0,2286 и уровни значимости свободного члена и коэффициента регрессии.
Regression Summary for Dependent Variable: 1/V1 (Пример парной регрессии.sta) R= .45802304 R?= .20978511 Adjusted R?= .17817651 F(1,25)=6.6370 p<.01628 Std.Error of estimate: .15416 N=27 Beta
Std.Err. of Beta
B Std.Err.
of B t(25)
p-level Intercept Объем заказа в тыс. л.-отт., x 0.344175 0.038700 8.89333 0.000000 -0.458023 0.177788 -0.000200 0.000078 -2.57623 0.016283
Analysis of Variance; DV: 1/V1 (Пример парной регрессии.sta) Effect Sums of
Squares df Mean Squares F p-level Regress. Residual
Total 0.157729
1 0.157729 6.636964 0.016283 0.594129 25 0.023765 0.751858
Результаты расчетов в Excel:
линеаризованной модели -0.00020043594 0.34418 7.7802E-05 0.0387 0.209785106 0.15416 6.636963798 25 0.157728585 0.59413
Для гиперболической и обратной функций регрессии результаты, полученные пакетом STATISTICA, полностью совпадают с параметрами линеаризованных моделей регрессии, рассчитанных ранее с помощью функции Excel "ЛИНЕЙН".
Нелинейная функция регрессия с двумя слагаемыми
За счет применения нелинейной функции с двумя слагаемыми не удалось улучшить коэффициент детерминации, дополнительный фактор
x 1/2
оказался незначимым, его включение в модель нецелесообразно. Не привело к улучшению модели включение в качестве дополнительного фактора 1/x, ln(x), x 2 . Некоторое улучшение исходной модели парной линейной регрессии имеет место при замене x на x 2 .
Исключение наблюдения методом Монте-Карло
Объем заказа в тыс. л.-отт., x Стоимость полиграфических работ, y 0.901497058 67.2222 2.16 0.708706091 280 7.31 0.458937517 336 4.89 0.21076708 184.8 4.85 0.173503726 630 4.58 0.984780677 109.2 2.13 0.122357235 1300 10.86 0.297489252 143 4.4 0.792862629 1800 20.54 0.079878536 184.8 1.66 0.277892891 311.111 5.62 0.84261417 600 8.33 0.513903269 300 5.2 0.035772746 100.8 2.07 0.339773519 144.222 4.77 0.102913686 79.8 3.81 0.194761822 66 4.33 0.239156682 270 2.9 0.352146129 281.944 5.45 0.255540589 136.111 5.01 0.847962716 176.4 3.32 0.923866415 235.2 1.42 0.555366508 81 1.64 0.592801588 260 2.78 0.946900586 90.7407 4.14 0.389226652 115.5 6.18 0.101839229 340 8.86
R 2 = 0.8201 0 5 10 15 20 25 150 350 550 750 950 1150 1350 1550 1750 1950
За счет удаления точки (340; 8,86) коэффициент детерминации увеличивается с 0,7704 до 0,7965. За счет дальнейшего удаления точки (115,5; 6,18) коэффициент детерминации увеличивается до 0,8201. Download 0.88 Mb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling