Математическая статистика. Основные понятия
Download 478.23 Kb. Pdf ko'rish
|
kr-11
Линейная корреляция Две случайные величины
и
Y могут быть функционально зависимы, статистически зависимы или независимы. Наиболее простой формой зависимости между величинами является функциональная зависимость, при которой каждому значению одной величины соответствует определенное значение другой. Однако на практике связь между величинами носит случайный характер.
Статистической называется зависимость, при которой изменение одной из случайных величин ведет к изменению закона распределения другой величины. В частности, если при изменении одной из величин изменяется среднее значение другой, то статистическая зависимость называется корреляционной. Статистическая зависимость более сложна,
чем функциональная. Она возникает, если одна величина зависит не только от другой, но и от ряда прочих случайных факторов. Примерами статистической зависимости являются связи между ростом ребенка и его возрастом, между урожайностью ягодных культур и их рыночными ценами, между температурой закалки и твердостью стали и т. д.
Пусть произведено n независимых опытов, в которых наблюдались случайные величины X и
Y . В результате опытов получены пары чисел
i y x ,
) , 1
; , 1 ( ____
____ k j l i . Данные сводят в корреляционную таблицу:
X /
1 y 2
…
__
y
1 x
11 n
12 n
… k n 1
1 x n __ 1 x y 2
21
22
…
x n __ 2 x y
l x
1 p n 2
n
n
x n __
x y
n 1
n 2
n
y n n
13
В первой строке таблицы указаны наблюденные значения случайной величины k y y y Y ,...,
, : 2 1 ; в первом столбце – величины l x x x X ,...,
, : 2 1 . На
пересечении строк и столбцов вписаны частоты j i n
наблюдаемых пар значений случайных величин. Пустая клетка означает, что соответствующая пара чисел в результате опытов не наблюдалась. В столбце x n записаны суммы частот строк, в строке y n - суммы частот столбцов, причем n n n j i y x
объем
выборки.
Назовем условным средним __ x y среднее арифметическое значений случайной величины Y , соответствующих значению x X . Уравнение ) (
x f y x называют уравнением регрессии Y на
X ; функцию ) (x f называют регрессией Y на
X , а ее график - линией регрессии.
Если функция регрессии ) (x f известна, то можно по значению одной случайной величины прогнозировать значение другой случайной величины. Корреляция называется линейной, если линия регрессии является прямой, т. е. b ax y x __ .
Ломаная, соединяющая точки i x i i y x M , , называется эмпирической (опытной) линией регрессии. Если точки i x i i y x M , располагаются около некоторой прямой, то в качестве уравнения теоретической линии регрессии берется
b ax x f ) ( , где коэффициенты находятся по формулам: x y xy r a ; __ __ x a y b , y x r
( определен ниже).
(7) x y
1
1 x
x
Рис. 6
Ковариацией двух случайных величин X и
Y называется числовая характеристика
co Y M X M Y X M Y X , .
Коэффициентом корреляции между случайными величинами X и
Y
называется безразмерная величина b ax y x 14
y x y x Y X co r ,
;
(8) где
x и y - средние квадратические отклонения величин X и
Y .
Коэффициент корреляции y x r
характеризует степень тесноты линейной зависимости между случайными величинами X и
Y , при этом связь тем теснее, чем ближе
к единице ( 1 1
y x r ). Применяется таблица Чеддока для характеристики тесноты связи между случайными величинами
и
Y :
Диапазон измерения выборочного y x r
Характер тесноты 0,1-0,3
0,3-0,5 0,5-0,7
0,7-0,9 0,9-0,99 слабая умеренная заметная высокая
линейная
Если 0
y x r , то при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать. Если 0
y x r , то при возрастании одной случайной величины другая имеет тенденцию в среднем убывать.
Если 0
y x r , то линейная корреляционная связь отсутствует, и случайные величины называются некоррелированными. Если 3 1 n r y x , то связь между случайными величинами
и
Y достаточно вероятна.
Чтобы сделать обоснованные выводы о тесноте зависимости между случайными величинами X и
Y по опытным данным, нужно установить значимость коэффициента корреляции, т. е. проверить нулевую гипотезу 0
том, что 0
y x r .
По опытным данным вычисляют критерий проверки
2
. 1 2
x y x набл r n r Т .
(9)
При заданном уровне значимости и числу степеней свободы 2
n r
находят критическое значение крит t для двусторонней критической области по таблице Стьюдента (смотрите таблицу прил. 3).
Если крит набл t Т , то выдвинутую гипотезу 0 H принимают, т. е. выборочный коэффициент незначим, а случайные величины
и
Y
некоррелированы. Если
крит набл t Т - гипотезу 0 H отвергают, т. е. выборочный коэффициент корреляции значимо отличается от нуля, а случайные величины коррелированны. 15
y x r
, проверить его значимость и найти уравнение линии регрессии.
16,5-19,5 19,5-22,5 22,5-25,5 25,5-28,5 28,5-21,5 31,5-34,5 34,5-37,5 97,5-102,5 6 3 1
102,5-107,5
4 3 2 107,5-112,5
5 2
112,5-117,5
6 3
117,5-122,5
3 9 2 1 122,5-127,5
5 7 3 127,5-132,5
4 4 132,5-137,5
1 5 1 137,5-142,5
2 4 4
i x X , по формуле j i j j x x n y n y i i
7 1 __ 1 . Тогда
5 , 19 1 24 3 21 6 18 10 1 __ 1 x y ;
4 , 29 2 33 3 30 4 27 9 1 __ 2 x y и т. д. Составим корреляционную таблицу
X /
18 21 24
27 30
33 36
i x n __
x y 100
6 3 1
10 19,5 105
4 3 2
9 29,4 110
6 5 2
13 26,1 115
1 6 3
10 27,6 120
2 3 9 2 1 17 29,5 125
5 7 3
15 29,6 130
1
4 4
9 30,7 135
1 5 1 7 30,0 140
2 4 4 10 33,6 j y n 6 3 11 24
35 16
5 100
Контроль расчетов: 100
i y x n n n - объем выборки.
Для построения эмпирической линии регрессии точки 5 , 19
;
100 1 M , 4 , 29
; 105
2 M ,…,
6 , 33
;
140 9 M соединим ломаной линией.
16
x y
0
x
Рис. 7
Для нахождения выборочного коэффициента линейной корреляции y x r
найдем
17 120
10 115
13 110
9 105
10 100
100 1 1 9 1 __ i x i i n x n x
55 , 119 10 140
7 135
9 130
15 125
;
16 33 35 30 24 27 11 24 3 21 6 18 100 1 1 7 1 __
y i j n y n y
41 , 28 5 36 . Вспомогательно найдем
1443625 10 140 ... 13 110 9 105
10 100
2 2 2 2 9 1 2 i x i i n x ;
82503
5 36 ... 11 24 3 21 18 18 2 2 2 2 7 1 2 j y j j n y ;
3 30 105
4 27 105 1 24 100 3 21 100 6 18 100 j
, i j j i i n y x
1 24 115
2 30 110 5 27 110 6 24 110 2 33 105
9 30 120 3 27 120 2 24 120 3 30 115 6 27 115
3 33 125
7 30 125 5 27 125 1 36 120 2 33 120
5 30 135 1 27 135 4 33 130 4 30 130 1 24 130
342600
4 36 140 4 33 140 2 30 140 1 33 135 . Тогда 05 , 144
55 , 119 1443625 100
1 ) ( 1 2 2 __ 9 1 2 2
n x n i x i i x
002
, 12 05 , 144
x .
9 , 17 41 , 28 82503
100 1 ) ( 1 2 2 __ 7 1 2 2 y n y n j y j j y
23 , 4 9 , 17
.
Определим ковариацию между X и
Y по формуле
585
, 29 41 , 28 55 , 119
342600 100
1 1 , c __ __ , y x n y x n Y X o j i j i j i . Находим коэффициент корреляции по формуле (8): 100
105 110
115 120
125 130
135 140
19,5 26,1
29,4 33,6
54 , 3 21
, 0 x y x
17
59 , 0 29 , 4 002 , 12 585 , 29
y x r . Имеем 3 87 , 5 99 59 , 0 1
r y x , следовательно, связь между случайными величинами
и
Y достаточно вероятна.
Для проверки значимости коэффициента корреляции проверим нулевую гипотезу 0 : 0 y x r H ; конкурирующая гипотеза 0 :
1
x r H .
Найдем по опытным данным величину
99 , 8 59 , 0 1 98 59 , 0 2
T .
Найдем критическое значение крит t по таблице критерия Стьюдента (прил. 3) при уровне значимости 05 , 0 и числе степеней свободы 98 2 n r
1,98
крит t . Тогда
крит набл t T , поэтому гипотезу 0 H отвергаем и принимаем гипотезу 1
и
Y коррелированы.
По виду эмпирической линии регрессии можно предположить, что между случайными величинами существует линейная корреляция, т. е. b ax y x __ . Находим коэффициенты a и b по формулам (7):
21 , 0 002 , 12 23 , 4 59 , 0 a ;
54 , 3 55 , 119 21 , 0 41 , 28 b .
Тогда уравнение линейной регрессии
54 , 3 21 , 0 __ x y x .
Для построения полученной прямой возьмем две точки
110 140
__ x y 26,4
32,7
График прямой __ x y достаточно близко расположен по отношению к опытной линии регрессии. Коэффициент корреляции 59 , 0
y x r показывает, что зависимость между случайными величинами
и
Y заметная и с увеличением значений одной случайной величины значения другой случайной величины имеют тенденцию в среднем увеличиваться.
|
ma'muriyatiga murojaat qiling