Charakterystyki opisowe rozkładu jednej cechy Wykład 3


Download 445 b.
Sana30.07.2017
Hajmi445 b.
#12393


  • Charakterystyki opisowe rozkładu jednej cechy

  • Wykład 3

  • dr Małgorzata Radziukiewicz


Klasyfikacja miar statystycznych

  • ze względu na informacje, jakie przynoszą one o rozkładzie cechy w zbiorowości:

  •  Miary poziomu  Miary dyspersji  Miary asymetrii



Klasyfikacja miar statystycznych

  • ze względu zakres danych niezbędnych do wyliczenia tych miar:

  • miary klasyczne

  • dla wyliczenia tych miar wykorzystuje się wartości cechy zaobserwowane u wszystkich badanych jednostek

  • miary pozycyjne

  • dla wyliczenia tych miar wykorzystuje się wartości cechy tylko niektórych jednostek, wybranych ze względu na pozycję, jaka zajmują one w uporządkowanym ciągu zaobserwowanych jednostek cechy



Klasyfikacja miar statystycznych

  • dodatkowo, miary statystyczne mogą być miarami:

  • ● absolutnymi

  • mianowanymi, a więc wyrażonymi w mianie badanej cechy – lata, metry, sztuki, kilogramy, godziny itp..

  • ● względnymi (stosunkowymi)

  • niemianowanymi, wyrażonymi w ułamku lub w procencie – uzyskanymi poprzez podzielenie przez siebie odpowiednich miar absolutnych



Miary jednej cechy  Miary poziomu



Miary poziomu rozkładu liczebności zwane są wartościami przeciętnymi

  • Miary poziomu rozkładu liczebności zwane są wartościami przeciętnymi

  • (lub średnimi)

  • najbardziej rozpowszechnione w praktyce

  • zacierają różnice indywidualne badanych jednostek

  • o wartości liczbowej tej miary decydują wartości liczbowe cechy posiadane przez wszystkie jednostki populacji

  • za pomocą jednej liczby podają centralną tendencję (poziom wartości zmiennej)











Podstawową i najbardziej znaną miarą położenia i jednocześnie miarą tendencji centralnej jest średnia

  • Podstawową i najbardziej znaną miarą położenia i jednocześnie miarą tendencji centralnej jest średnia

  • Jest to średnia arytmetyczna wartości cechy

  • Aby wyznaczyć poziom średniej badana cecha musi być mierzalną



Jak otrzymać wartość średniej arytmetycznej dla danych indywidualnych?

  • dysponując n wartościami cechy:

  • w pierwszej kolejności obliczamy sumę tych wartości:

  • a następnie dzielimy przez liczbę obserwacji n:



Średnia arytmetyczna jest pewną abstrakcyjną wielkością, wypadkową wszystkich zaobserwowanych wartości cechy, powstałą wskutek operacji matematycznej

  • Średnia arytmetyczna jest pewną abstrakcyjną wielkością, wypadkową wszystkich zaobserwowanych wartości cechy, powstałą wskutek operacji matematycznej

  • Obliczona wartość średnia z reguły przyjmuje wartość w zbiorowości nie występującą

  • Średnia arytmetyczna zaciera różnice indywidualne

  • Zmiana jakiejkolwiek wartości w zbiorze danych pociąga za sobą zmianę wartości średniej



Jak otrzymać wartość średniej arytmetycznej dla danych pogrupowanych?

  • w tym przypadku można uzyskać jedynie pewne przybliżenie, przyjmując, że każda jednostka ni należąca do danej klasy ma wartość cechy równą wartościom środka przedziału klasowego:



Właściwości średniej arytmetycznej



Właściwości średniej arytmetycznej

  • Wartość liczbowa średniej arytmetycznej ma takie samo miano jak badana cecha



Właściwości średniej arytmetycznej

  • Średnia arytmetyczna zawiera się między krańcowymi wartościami cechy:



Właściwości średniej arytmetycznej

  • Średnia arytmetyczna obliczona z wartości sum xi + yi jest równa sumie średnich arytmetycznych obliczonych oddzielnie dla obu wartości:



Właściwości średniej arytmetycznej

  • Wartość średniej arytmetycznej nie ulega zmianie, jeśli wszystkie wagi pomnożymy przez liczbę stałą c:



Właściwości średniej arytmetycznej

  • Jeżeli zbiorowość (populację) liczącą n elementów podzielimy na r podgrup (podpopulacji) o liczebnościach w1, w2, w3,…….wr, wówczas średnia arytmetyczna całej zbiorowości (populacji) jest równa średniej ważonej średnich arytmetycznych ( gdzie j = 1,2,…r) podgrup (podpopulacji), z wagami wj :



Właściwości średniej arytmetycznej

  • Jeśli zmniejszymy każdy wariant cechy xi o stałą c, to średnia arytmetyczna też ulegnie zmniejszeniu o stałą c:



Właściwości średniej arytmetycznej

  • Jeśli pomnożymy każdy wariant cechy xi przez stałą c, to nowa średnia arytmetyczna będzie c – krotnością średniej pierwotnej:



Właściwości średniej arytmetycznej

  • Jeśli od każdego wariantu xi odejmiemy średnią arytmetyczną wówczas suma tych różnic jest równa zeru:

  • Powyższą własność formułujemy często w innej formie: suma odchyleń od średniej arytmetycznej jest równa zeru:



Właściwości średniej arytmetycznej

  • Suma kwadratów odchyleń wartości zmiennych badanej cechy od średniej arytmetycznej rozkładu jest najmniejsza

  • Oznacza to, że suma kwadratów odchyleń poszczególnych wartości zmiennych badanej cechy od jakiejkolwiek innej wartości zmiennej rozkładu, różnej od średniej, będzie zawsze większa



Ograniczenia w stosowaniu średniej arytmetycznej



Niejednokrotnie średnia arytmetyczna nie może być uznana za wielkość reprezentatywną dla całego danego zbioru, w sensie wyrażania tendencji centralnej, jej wartość poznawcza jest niewielka (lub nawet żadna), a niekiedy wprowadza po prostu w błąd

  • Niejednokrotnie średnia arytmetyczna nie może być uznana za wielkość reprezentatywną dla całego danego zbioru, w sensie wyrażania tendencji centralnej, jej wartość poznawcza jest niewielka (lub nawet żadna), a niekiedy wprowadza po prostu w błąd



Ograniczenia w stosowaniu średniej arytmetycznej

  • W przypadku, gdy przedziały klasowe są otwarte (górny i dolny lub jeden z nich).

  • a) gdy liczebności przedziałów otwartych są stosunkowo nieliczne, można je zamknąć i umownie ustalić środek przedziału;

  • b) gdy udział liczebności przedziałów otwartych w ogólnej sumie liczebności jest znaczny, rezygnujemy z obliczania średniej



Ograniczenia w stosowaniu średniej arytmetycznej

  • B. Gdy największe liczebności skupiają się zdecydowanie wokół najniższych lub najwyższych wartości cechy (szereg jest skrajnie asymetryczny).



Ograniczenia w stosowaniu średniej arytmetycznej

  • C. Wartość poznawcza średniej jest żadna, wówczas, gdy ustalamy średnią ze zbiorów niejednorodnych



Ograniczenia w stosowaniu średniej arytmetycznej

  • D. Obliczanie średniej mija się z celem również w tych szeregach, które dają rozkłady z kilkoma skupiskami dominującymi (są to tzw. szeregi wielomodalne)



W większości przypadków rozkłady cech mierzalnych (zwanych zmiennymi) charakteryzują się pewną tendencja centralną, która polega na tym, że w miarę wzrostu liczebności (częstości) zmniejszają się różnice pomiędzy wartościami zmiennej a wartością centralną.

  • W większości przypadków rozkłady cech mierzalnych (zwanych zmiennymi) charakteryzują się pewną tendencja centralną, która polega na tym, że w miarę wzrostu liczebności (częstości) zmniejszają się różnice pomiędzy wartościami zmiennej a wartością centralną.

  • Rozkłady, które nie odpowiadają temu warunkowi, nie powinny być opisywane za pomocą wartości średniej.



rozkłady skrajnie asymetryczne

  • rozkłady skrajnie asymetryczne



Średnia geometryczna



Średnią geometryczną n liczb jest pierwiastek stopnia n z iloczynu tych liczb.

  • Wykorzystywana jest do badania zbiorowości, w których wartości jednostek są przedstawiane w liczbach względnych



Mediana



Mediana odpowiada środkowi zbioru danych, w którym to zbiorze wartości cechy uporządkowano kolejno od najmniejszej do największej (czyli według rosnącej wartości cechy).

  • Mediana odpowiada środkowi zbioru danych, w którym to zbiorze wartości cechy uporządkowano kolejno od najmniejszej do największej (czyli według rosnącej wartości cechy).



cecha jest skokowa

  • cecha jest skokowa

  • jeśli liczba obserwacji n jest liczbą nieparzystą, mediana jest wartością, którą przybiera 0,5(n+1) jednostka liczebności populacji (obserwacja środkowa):

  • jeśli liczba obserwacji n jest liczbą parzystą, mediana jest średnią arytmetyczną wartości cechy dwóch sąsiadujących jednostek o numerach porządkowych 0,5n oraz 0,5(n+2):



cecha jest ciągła

  • cecha jest ciągła

  • wtedy szereg rozdzielczy jest pod postacią klasowych przedziałów odmian cechy i wówczas kumulacja liczebności wskazuje tylko klasę, w której znajduje się mediana

  • wyznaczenie mediany wymaga posłużenia się wzorem interpolacyjnym:

  • gdzie:

      • xm0 –dolna granica klasy mediany
      • hm –rozpiętość przedziału klasy mediany
      • nm – liczebność przedziału klasy dominanty


medianę M(X) można zdefiniować jako taką wartość cechy, że prosta pionowa przechodząca przez nią dzieli obszar pod krzywą na dwie równe części

  • medianę M(X) można zdefiniować jako taką wartość cechy, że prosta pionowa przechodząca przez nią dzieli obszar pod krzywą na dwie równe części

  • w praktyce medianę obliczamy w sytuacji, gdzie jedna lub kilka wartości leży daleko od środka zbioru

  • mediana ma często zastosowanie w ekonomii w rozkładach dochodów

  • Uwaga!!!

  • mediana ma sens tylko wtedy, gdy zbiór danych jest uporządkowany rosnąco lub malejąco.



przykład

  • przykład

  • Sprzedaż filmowych kaset video ma ograniczenia czasowe (na ekrany wchodzą coraz to nowsze filmy i „stare” szybko schodzą z ekranów kin).

  • Właściciel musi decydować rozsądnie, z jakimi filmami nabyć taśmy.

  • W tej sytuacji miary: - średnia i mediana – nie będą jemu pomocne.

  • Zamiast tego, właścicielowi potrzebna jest wiedza na temat, które filmy są najbardziej popularne i cieszą się największym zainteresowaniem, a zatem które filmy prawdopodobnie będą sprzedawać się najlepiej.



Dominanta (moda)



charakterystyczne własności dominanty

  • dominanta znajduje zastosowanie wówczas, gdy chcemy jedną liczbą wyrazić wartość cechy najbardziej typową i najczęściej występującą

  • istnieje możliwość stosowania dominanty w przypadku analizy cech mierzalnych i niemierzalnych

  • dla cechy niemierzalnej dominantą jest ten wariant cechy, która ma największą częstość występowania w badanej zbiorowości

  • dominanta jest jedyną miarą przeciętną, która można wyznaczyć dla cech niemierzalnych



charakterystyczne własności dominanty

  • jest również możliwe - dla dużych liczebności i odpowiadającym im różnym wartościom - więcej niż jedna dominanta (moda);

  • zbiór z 2-oma modami nazywamy dwumodalnym, zbiory z 3-ema modami trzymodalnymi;

  • zbiory mające powyżej 2 mód zwą się wielomodalnymi;

  • w diametralnie różnym przypadku, gdy każda wartość w zbiorze występuje tylko raz – zbiór nie ma mody.



w przypadku, kiedy wartości zmiennej pogrupowane są w szereg rozdzielczy sposób wyznaczanie dominanty (mody) w oparciu o jej definicję nie może być zastosowany

  • w przypadku, kiedy wartości zmiennej pogrupowane są w szereg rozdzielczy sposób wyznaczanie dominanty (mody) w oparciu o jej definicję nie może być zastosowany

  • analizując liczebności poszczególnych klas można określić przedział wartości cechy, który dominuje w badanej zbiorowości. Nie wiadomo jednak, która wartość dominuje w badanej zbiorowości

  • dominantę (modę) wyznacza się wówczas w sposób przybliżony poprzez interpolację jej wartości z przedziału klasowego



metoda obliczania dominanty

  • Metoda interpolacyjna polega na obliczeniu dominanty według wzoru:

  • lub:

  • gdzie:

  • Dx0 - dolna granica przedziału dominującego;

  • n D - liczebność (częstości względne) przedziału dominującego;

  • nD-1 - liczebność (częstości względne) przedziału poprzedzającego przedział dominujący;

  • nD+1 - liczebność (częstości względne) przedziału następującego po przedziale dominującym;

  • hD - rozpiętość przedziału dominującego.



Uwaga!!!

  • obliczając dominantę (modę) należy pamiętać o tym, że:

  • w szeregu rozdzielczym może występować jedno wyraźnie zaznaczone maksimum (tzn. rozkład empiryczny jest jednomodalny);

  • przedział dominanty (mody) oraz dwa sąsiadujące z nim przedziały muszą mieć takie same rozpiętości (szerokości);

  • jeśli dominanta w szeregu rozdzielczym występuje w skrajnych przedziałach klasowych, wówczas nie oblicza się jej według wzoru interpolacyjnego



Średnie pozycyjne wyższych rzędów



W statystyce często używane są:

  • W statystyce często używane są:

  • percentyle – dzielimy całkowitą liczebność na 100 części (a=100 elementów, b=99 percentyli)

  • decyle – całkowitą liczebność dzielimy na 10 części (a=10 elementów, b=9 decyli)

  • kwartyle – całkowitą liczebność dzielimy na 4 części (a=4 elementy, b=3 kwartyle)

  • kwintyle - całkowitą liczebność dzielimy na 5 części (a=5 elementów, b=4 kwintyle)



k-ty percentyl zbioru danych uporządkowanych rosnąco jest to wartość x mająca tę własność, że k procent liczebności zbioru leży na lub poniżej wartości x

  • k-ty percentyl zbioru danych uporządkowanych rosnąco jest to wartość x mająca tę własność, że k procent liczebności zbioru leży na lub poniżej wartości x



Przy dzieleniu zbiorowości statystycznej na a równych elementów i uzyskiwaniu b = a-1 charakterystyk korzystamy z formuły:

  • Przy dzieleniu zbiorowości statystycznej na a równych elementów i uzyskiwaniu b = a-1 charakterystyk korzystamy z formuły:

  • gdzie:

      • Qa,b – symbol przeciętnej pozycyjnej
      • xq0 –dolna granica przedziału, w której znajduje się poszukiwana przeciętna pozycyjna
      • hq –rozpiętość przedziału klasy liczonej przeciętnej pozycyjnej
      • nq – liczebność klasy liczonej przeciętnej pozycyjnej


Kwartyle

  • kwartyle to takie wartości cechy Q4,1, Q4,2 i Q4,3 , że ¼ obserwacji leży poniżej Q4,1, ¼ powyżej Q4,3 , ¼ obserwacji leży między Q4,1 a medianą a ¼ obserwacji leży między medianą a Q4,3.

  • wielkość Q4,1 zwana jest kwartylem dolnym a Q4,3 kwartylem górnym.



Uwaga!

  • Posługiwanie się przeciętnymi pozycyjnymi wyższych rzędów ma sens tylko wówczas, gdy liczebność zbiorowości statystycznej jest znaczna.



Download 445 b.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling