Математическая статистика. Основные понятия


Download 478.23 Kb.
Pdf ko'rish
bet1/3
Sana30.11.2020
Hajmi478.23 Kb.
#156515
  1   2   3
Bog'liq
kr-11


 



Математическая статистика. Основные понятия. 

 

Математическая статистика – это раздел математики, который изучает 

методы  сбора,  систематизации,  обработки  результатов  наблюдений  массовых 

случайных явлений. 

Любое  множество,  подлежащее  изучению  в  статистике,  называется 



генеральной  совокупностью.  Любое  подмножество  генеральной  совокупности 

называется выё  боркой.  Количество  элементов  в  генеральной  совокупности 

или 

в 

выборке 



называется 

объемом

Элементы 

выборки 

могут 


характеризоваться  числами,  отражающими  какой-либо  признак  изучаемого 

объекта. Эти числа называются вариантами, так как от выборки к выборке эти 

значения меняются. 

 

Первым  шагом  в  обработке  полученных  данных  является  составление 



статистического или вариационного ряда. 

 

Статистический ряд  – это таблица,  в которой перечислены варианты в 

порядке возрастания и указаны соответствующие им частоты. 

 

Для  графического  изображения  статистического  ряда  частот  служит 



ломаная в прямоугольной декартовой системе координат с вершинами в точках 



i

i

n

,

  -  называемая  полигоном  частот,  или  ломаная  с  вершинами  в  точках 







n

n

x

i

i

,

 - называемая полигоном относительных частот. Здесь 



i

 - возможные 

значения  вариант, 



i

  -  частота,  т.  е.  количество  появления 

i

  варианты,    - 

объем  выборки.  При  большом  объеме  выборки  ее  элементы  объединяются  в 

группы  (разряды),  представляя  результаты  опытов  в  виде  сгруппированного 

статистического ряда. Для этого интервал, содержащий все элементы выборки, 

разбивается на   непересекающихся интервалов, обычно одинаковой длины 

 

Для  графического  изображения  сгруппированной  выборки  служит 



ступенчатая  фигура  из  прямоугольников,  называемая  гистограммой.  Для 

построения гистограммы на оси  ox откладываются интервалы длины , которые 

служат основаниями прямоугольников, а их высоты определяются отношением 

l

n

i

, если мы строим гистограмму частот, или 



l

n

n

i

, если мы строим гистограмму 



относительных частот. 

 

 



Пример  1.  а)  Дан  статистический  ряд.  Требуется  построить  полигон 

относительных частот. б) Дан сгруппированный статистический ряд. Требуется 

построить гистограмму относительных частот. 

а)  


i

x

 

значения 



вариант 

15 


16 

17 


18 

19 


i

n

 

частоты 





 



 

 



б)  

границы 


интервалов 

10-20  20-30  30-40 

40-50 

50-60 


частоты 



18 


12 

 

 



Решение.  а)  Для  построения  полигона  частот  найдем  относительные 

частоты по формуле 



n

n

i

, где 


20

3

5



6

5

1



5

1









i



i

n

n

Результат запишем в таблицу  



 

i

 

15 


16 

17 


18 

19 


 

i

 





20 



n

n

i

 

1/20=0,05 



5/20=0,25 

6/20=0,3  5/20=0,25  3/20=0,15 





 

Строим ломаную с координатами 







n

n

x

i

i

,

 (рис. 1). 



n

n

i

 

 



 

 

 



 

 

 



 

 

 



 

 

 



   

 

 



Рис. 1 

 

Замечание.  Обычно  при  построении  полигона  масштаб  по  осям  берется 

неодинаковым.  

 

б)  Для  построения  гистограммы  относительных  частот  найдем 



относительные  частоты  по  формуле 

n

n

i

,  высоты  прямоугольников 

  по 


формуле 

nl

n

h

i

,  где 



40

12

18



7

2

1



1









n

i

i

n

n

10





l

.  Величина   

характеризует  плотность  попадания  вариант  в  i-ый  интервал.  Результаты 

удобно записать в таблицу. 

 

 

0,3 



0,05 

15 


16 

17 


18 

19 


0,15 

 

 



1





i



i

x

x

 

10 - 20 



20 - 30 

30 - 40 


40 - 50 

50 - 60 


 

i

n

 



18 



12 



40

 

n



n

i

 

 



1/40 = 0,025 

 

2/40 = 0,05 



 

7/40 = 0,175 

 

18/40 = 0,45 



 

12/40 = 0,3 



1



 

 

nl



n

i

 

0,025/10 =  



0,0025 

0,05/10 = 

0,005 

0,175/10 = 



0,0175 

0,45/10 = 

0,045 

0,3/10 = 



0,03 

 

 



 

Строим гистограмму (рис. 2). 

 

nl

n

i

 

 



 

 

 



 

 

 



 

 

i



 

 

 



 

 

Рис. 2 



 

Статистические гипотезы 

 

Во  многих  случаях  результаты  наблюдений  используются  для  проверки 



предположений  (гипотез)  относительно  тех  или  иных  свойств  распределения 

генеральной  совокупности.  В  частности,  такого  рода  задачи  возникают  при 

сравнении  различных  технологических  процессов  или  методов  обработки  по 

определенным 

измеряемым 

признакам, 

например, 

по 


точности, 

производительности и т. д.  

 

Пусть 


X

 



  наблюдаемая  дискретная  или  непрерывная  случайная 

величина. 

 

Статистической  гипотезой  называется  предположение  относительно 

параметров или вида распределения случайной величины 



X

 



Основной  или  нулевой  гипотезой 

0

H

  называют  выдвинутую  гипотезу,  а 

гипотезу 

1

H

, ей противоречащую 

 конкурирующей или альтернативной.  



 

Правило,  по  которому  принимается  решение  принять  или  отклонить 

гипотезу 

0

H

 

называют  статистическим  критерием 



K

. 

Обычно 


статистические  критерии  выражаются  числами,  которые  вычисляются  по 

вариантам  выборки,  или  находятся  теоретически.  Значение  критерия, 

найденное на основе выборки наблюдений случайной величины 

X

, называют 

0,045 

0,005 


10 

20 


30 

40 


50 

60 


 



выборочным  и  обозначают 



в

.  Значение  критерия,  которое  находится  по 

таблице, называется теоретическим и обозначается 



T

.  

 

Проверка  статистической  гипотезы  основывается  на  принципе,  в 



соответствии  с  которым  маловероятные  события  считаются  невозможными,  а 

события,  имеющие  большую  вероятность,  считаются  достоверными.  Этот 

принцип  можно  реализовать  следующим  образом.  Перед  анализом  выборки 

фиксируется некоторая малая вероятность 

, называемая уровнем значимости, 



и  равная  вероятности  отвергнуть  правильную 

0

  гипотезу.  Таким  образом, 

вероятность  принять  правильную 

0

  гипотезу  будет  равна 



1



.  Уровень 

значимости 

 определяет размер «критической области». 



 

Критическая  область 



k

 

  те  значения  критерия 



K

,  при  которых 

гипотезу 

0

  отвергают.  Критерий,  основанный  на  использовании  заранее 

заданного уровня значимости, называется критерием значимости.  

 

Таким  образом,  проверка  значимости  статистической  гипотезы  при 



помощи критерия значимости может быть разбита на следующие этапы: 

1)  сформулировать проверяемую (

0

) и альтернативную (

1

) гипотезы; 

2)  назначить уровень значимости 



3)  выбрать статистический критерий; 

4)  определить теоретическое (



T

) и выборочное (

в

) значения критерия

5)  определить критическую область 



k

6)  принять статистическое решение: если 



в

K

k

V

, то гипотезу 



0

 принять, т. е. 

считать,  что  гипотеза 

0

  не  противоречит  результатам  наблюдений;  если 

в

K

k

V

,  то  отклонить  гипотезу 



0

  как  не  согласующуюся  с  результатами 

наблюдений. 

 

Критерий Пирсона 

2

 





 (хи-квадрат) 

 

Этот критерий был введен английским математиком К. Пирсоном (1857 – 



1936).  Критерий  служит  для  проверки  гипотезы  о  виде  распределения 

случайной величины 



X

 



Итак,  пусть  имеется  сгруппированный  статистический  ряд,  разбитый  на 

  интервалов,  где    -  заранее  выбранное  число, 

i

  -  число  вариант, 

попадающих  в 



i

  интервал,    -  объем  выборки, 



i



i

i

x

X

x

P

p



1



 

  - 


вероятность  попадания  случайной  величины 

X

  в 


i

  -  ый  интервал  при 

выбранном законе распределения случайной величины. 

 

При  этих  условиях  Пирсон  предложил  в  качестве  критерия 



K

 

рассмотреть случайную величину 



 

 

 







k

i

i

i

i

np

np

n

1

2



2

, (



i

 - случайные величины).         (1) 

Он доказал, что 

2



 при больших   практически не зависит от гипотетического 



распределения и определяется функцией плотности 

 

 



 

 


2

1

2



2

/

 



2

2

1



r

r

r

r

e

u

u

r

Г

u









0



u

  

 



 

 

        (2) 



где   - число степеней свободы, определяемое по формуле 

1





m



k

r

, здесь 


-  число  параметров  гипотетического  закона  распределения,  подлежащих 

определению по опытным данным. 

 

График функции плотности 



 

u

r

 имеет вид (рис. 3): 



 

 


u

r

 



 

 

 



 

 

 



 

 

             



 

 

  Рис. 3 



 

Критерий 

2



  заключается  в  следующем.  По  опытным  данным  считают 



выборочное значение критерия Пирсона  

 

 



 

 

 







k

i

i

i

i

в

np

np

n

1

2



2

, (



i

 - выборочные частоты). 

По  таблице  критических  точек  распределения 

2



  (прил.  1)  по  заданному 



уровню  значимости 

  и  числу  степеней  свободы    находят  теоретическое 



значение критерия Пирсона 

2

T

.  


 

Если значение 

2

в

 окажется больше или равно 



2

T

, то гипотезу отвергают. 



Если  же 

2

в

  меньше 



2

T

,  то  гипотезу  принимают  и  считают  ее  не 



противоречащей опытным данным. 

 

При  использовании  критерия  хи-квадрат  рекомендуем  промежуточные 



результаты заносить в таблицу: 

 





i

i

x

,

1



 

i

 

i

 

i

np  

i

i

np

n

 



2



i

i

np

n

 





i



i

i

np

np

n

2



 



1

0

x



x

 

1



 

1

 

1

np  

1

1



np

n

 



2



1

1

np



n

 



1



2

1

1



np

np

n

 







 



k

k

x

x

,

1



 

k



 

k

p

 

k



np

 

k



k

np

n

 



2



k

k

np

n

 





k



k

k

np

np

n

2



 

 


 



Замечание.  Разбивку  на  интервалы  надо  производить  так,  чтобы  в  каждом  из 

них  было  5-10  наблюдений.  Интервалы,  содержащие  мало  наблюдений, 

рекомендуется объединять с соседними. 

 

     Пример 2. Даны результаты наблюдений некоторой случайной величины 



X

Проверить гипотезу о ее нормальном распределении. 



 

интервалы 

 

3,5-4,5 


4,5-5,5 

5,5-6,5 


6,5-7,5 

7,5-8,5 


8,5-9,5 

число  


вариант 

13 



25 

16 


11 

 



Решение.  1.  Построим  гистограмму  относительных  частот  (рис.  4), 

данные для ее построения занесем в таблицу (

80







i

n

n

, длина интервалов 

1



l



). 

 





i

i

x

,

1



 

(4) 


3,5-4,5 

(5) 


4,5-5,5 

(6) 


5,5-6,5 

(7) 


6,5-7,5 

(8) 


7,5-8,5 

(9) 


8,5-9,5 

i

 

13 



25 

16 


11 



n



n

i

 

075



,

0

80



6

 



1625

,

0



80

13



 

3125


,

0

80



25

 



2

,

0



80

16



 

1375


,

0

80



11

 



11125

,

0



80

9



 

nl

n

h

i

 



0,075 

0,1625 


0,3125 

0,2 


0,1375 

0,1125 


 

 

 

 

 

 



 

 

 



 

 

 



 

 

 



 

 

 



 

   

 

 

 



 

 

Рис. 4 



 

2.  По  виду  гистограммы  можно  предположить,  что  наблюдаемая  случайная 

величина  имеет  нормальное  распределение  - 



2

,



a

N

.  Функция  плотности 

0,3125 

3,5  4,5 



6,5  7,5  8,5  9,5 

5,5 


График функции плотности 

0,075 


 

вероятности  нормального  распределения  имеет  вид 



 



2

2

2



 

2

1





a

x

e

x

f



,  где 


параметры   и 

 неизвестны. 



В  качестве  значений  параметров  распределения  возьмем  их  оценки, 

полученные  на  основе  опытных  данных.  Оценкой  параметра    является 

величина  



n

n

x

n

x

n

x

n

x

n

x

k

k

k

i

i

i





...



1

2

2



1

1

1



__

 



 

 

         (3) 



оценкой параметра 

2



 является величина 

 

 



i

n

i

i

n

x

x

n

s

2

1



__

2

1



1





 



.  



 

 

 



 

 

         (4) 



В обеих формулах 

i

 - середина 

i

-го интервала. 

 

 



5

,



6

9

9



11

8

16



7

25

6



13

5

6



4

80

1



1

6

1



__













i



i

i

n

x

n

x

 











 





25

)



5

,

6



6

(

13



)

5

,



6

5

(



6

)

5



,

6

4



((

79

1



1

1

2



2

2

6



1

2

__



2

i

i

i

n

x

x

n

s

 

 



 

4

,



1

97

,



1

 

97



,

1

)



9

)

5



,

6

8



(

11

)



5

,

6



7

(

2



2









s

 

Итак,  выдвигаем  гипотезу  о  том,  что  изучаемая  случайная  величина 



имеет функцию плотности вероятности 

 

 



 

 

97



,

1

2



)

5

,



6

(

2



2

4

,



1

1

)



(





x

e

x

f

  



 

 

                   (5) 



 

Ее график построим на том же чертеже, что и гистограмму (рис. 4). Для 

построения достаточно найти точки максимума 

5

,



6

max




x



x

28



,

0

97



,

1

4



,

0

4



,

0

max





s

y

 и точки перегиба 

4

,

1



5

,

6







s

x

x

пер

17



,

0

97



,

1

24



,

0

24



,

0





s



y

пер

. Затем эти точки следует соединить плавной линией, 

учитывая форму кривой нормального распределения. (рис. 4). 

3.  Зададимся  уровнем  значимости,  например, 

05

,

0



.  Для  получения 



надежных  выводов  на  основе  критерия  хи-квадрат  нужно  объединить  первый 

интервал, содержащий мало наблюдений, со вторым интервалом. Тогда имеем 

всего 

5



k

 интервалов. Определим 

 

r

T

 

,



2



2

3



5

1







m



k

r

 (  – число 

степеней свободы,   – число неизвестных параметров). Итак, 



99

,

5



2

 

;



05

,

0



2



T

 

(прил. 1). 



4.  Вычислим 







k

i

i

i

i

в

np

np

n

1

2



2

.  Для  этого  сначала  вычислим  вероятности, 



попадания  исследуемой  случайной  величины  в  каждый  интервал,  согласно 

 

10 


гипотезе. В случае нормального распределения они вычисляются по формуле:

 

 



 











 









s

x

x

s

x

x

x

X

x

P

p

i

i

i

i

i

1

1



 

 

 



Тогда 


22



,

0

97



,

1

5



,

6

5



,

3

97



,

1

5



,

6

5



,

5

5



,

5

5



,

3

 

























X

P

 



26



,

0

97



,

1

5



,

6

5



,

5

97



,

1

5



,

6

5



,

6

5



,

6

5



,

5

 

























X

P

где 



 

x

 – функция Лапласа, значения которой приведены в прил. 2. 



Аналогично 



16

,

0



5

,

7



5

,

6



 





x

P



16

,



0

5

,



8

5

,



7

 





x



P

,  


06



,

0

5



,

9

5



,

8

 





x

P

Вычисления 



2

 удобно вести, фиксируя промежуточные результаты в таблице. 



 

i

 

i

 

i

np  

i

i

np

n

 



2



i

i

np

n

 





i



i

i

np

np

n

2



 

19 


0,22 

17,6 


1,4 

1,96 


0,11 

25 


0,26 

20,8 


4,2 

17,64 


0,85 

16 


0,26 

20,8 


4,8 

23,06 


1,11 

11 


0,16 

12,8 


1,8 

3,24 


0,25 

0,08 



4,8 

4,2 


17,64 

3,89 


 

21

,



6

2



в

. Величина 



2

в

 равна сумме значений в последнем столбце таблицы. 



5.  Сравним 

2

в

  и 


2

T

  : 



99

,

5



21

,

6



2

2





T



в



.  Таким  образом,  при  выбранном 

уровне  значимости 

 

2

в



  принадлежит  критической  области 



k

,  а  значит 

гипотезу  о  нормальном  распределении  следует  отвергнуть.  Следует  отметить, 

что вероятность того, что мы ошибаемся, меньше 0,05. 

 

 



Пример  3. Результаты  наблюдений  случайной  величины  представлены в 

виде статистического ряда. 

 

i

 

 





4 и более 

 

i



 

54 


27 

14 


100



1





n



n

i

n

n

 

 



Решение. 1. Построим полигон относительных частот 







n

n

i

 - ломаную линию с 

вершинами в точках 







n

n

x

i

i

,

, рис. 5 (на рис. сплошная линия). 



 

11 


p

n

n

i

 

,



 

 

 



 

 

 



 

 

 



 

 

 



 

      

 

 

 



      Рис. 5 

 

2.  По  виду  полигона  частот  можно  выдвинуть  предположение,  что  изучаемая 



случайная  величина  имеет  пуассоновский  закон  распределения,  т.  е. 







e



k

k

X

P

k

!

 Так как в законе Пуассона параметр равен математическому 



ожиданию, а его оценкой является величина 

__

, то  







k

n

i

i

n

n

x

x

1

__



,  


7

,

0



100

0

4



3

3

14



2

27

1



54

,

0



__









x

и изучаемая случайная величина имеет закон распределения 



 

 



 


!

7

,



0

7

,



0

k

e

p

k

X

P

k

k





 

 

 



 

 

        (6) 



где 

3

,



2

,

1



,

0



k

3.  Зададимся  уровнем  значимости,  например, 



05

,

0



.  Последние  2  разряда, 



содержащие  мало  наблюдений  (нужно  5-10),  можно  объединить.  Определим 

 


r

T

,

2



   



2

1

1



4

1







m

k

r

, итак 


99



,

5

2



 

;

 



05

,

0



2



T

 (прил. 1). 



4. Вычислим 







k

i

i

i

i

в

np

np

n

1

2



2

. Для этого сначала вычислим вероятности 



k

 

для каждого из четырех интервалов: 

 

5

,



0

!

0



7

,

0



5

,

0



0

0





e



p

,

 



35

,

0



!

1

7



,

0

7



,

0

1



1





e

p

 



12

,

0



!

2

7



,

0

7



,

0

2



2





e

p

03



,

0

12



,

0

35



,

0

5



,

0

1



1

2

1



3







p

p

p

 



Используя  полученные  вероятности,  построим  ломаную  с  вершинами  в 

точках 




i



i

p

 

,

 



.  На  рис.  5  эта  ломаная  показана  пунктирной  линией. 

Вычисление 

2

в

 оформляем в виде таблицы. 



 

 





0,1 

0,2 


0,3 

0,4 


Полигон относительных частот 

0,54 


 

12 


i

 

i

 

i

np  

i

i

np

n

 



2



i

i

np

n

 





i



i

i

np

np

n

2



 

54 


0,5 

50

5



,

0

100



 



54-50=4 

16

4



2

 



32

,

0



50

16



 

27 


0,35 

35 


-8 

64 


1,83 

14 


0,12 

12 


0,33 



0,03 




1,33 

Величина 

2

в

 равна сумме величин в последнем столбце таблицы, т. е. 



2

в

=3,18. 



5.  Сравним 

2

в

  и 


2

T



2

в

=3,18<



2

T

=5,99.  Таким  образом, 



2

в

  в  критическую 



область не входит. Делаем вывод: гипотеза опытным данным не противоречит. 

 


Download 478.23 Kb.

Do'stlaringiz bilan baham:
  1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling