Kryteria dobroci dopasowania rozkładów. Testowanie hipotezy rozkładu. Kryterium Pearsona Jest to metoda Pearsona

Do końca XIX wieku rozkład normalny uznawano za uniwersalne prawo zmienności danych. Jednak K. Pearson zauważył, że częstości empiryczne mogą znacznie różnić się od rozkładu normalnego. Pojawiło się pytanie, jak to udowodnić. Wymagane było nie tylko porównanie graficzne, które ma charakter subiektywny, ale także ścisłe uzasadnienie ilościowe.

W ten sposób wymyślono to kryterium χ 2(chi-kwadrat), która bada istotność rozbieżności pomiędzy częstotliwościami empirycznymi (obserwowanymi) i teoretycznymi (oczekiwanymi). Stało się to już w 1900 roku, ale kryterium to jest nadal w użyciu. Ponadto został przystosowany do rozwiązywania szerokiego zakresu problemów. Przede wszystkim jest to analiza danych kategorycznych, tj. te, które wyrażają się nie ilością, ale przynależnością do jakiejś kategorii. Na przykład klasa samochodu, płeć uczestnika eksperymentu, rodzaj rośliny itp. Operacji matematycznych, takich jak dodawanie i mnożenie, nie można zastosować do takich danych; można je dla nich jedynie obliczyć.

Oznaczamy obserwowane częstotliwości O (obserwowane), oczekiwany - E (oczekiwane). Jako przykład weźmy wynik 60-krotnego rzutu kostką. Jeśli jest symetryczny i jednolity, prawdopodobieństwo otrzymania dowolnej strony wynosi 1/6, a zatem oczekiwana liczba trafień w każdą stronę wynosi 10 (1/6∙60). Zapisujemy obserwowane i oczekiwane częstotliwości w tabeli i rysujemy histogram.

Hipoteza zerowa zakłada, że ​​częstotliwości są spójne, to znaczy rzeczywiste dane nie są sprzeczne z oczekiwanymi. Alternatywna hipoteza głosi, że odchylenia w częstotliwościach wykraczają poza wahania losowe, a rozbieżności są istotne statystycznie. Aby wyciągnąć rygorystyczne wnioski, potrzebujemy.

  1. Sumaryczna miara rozbieżności między obserwowanymi i oczekiwanymi częstotliwościami.
  2. Rozkład tej miary w przypadku, gdy prawdziwa jest hipoteza o braku różnic.

Zacznijmy od odległości pomiędzy częstotliwościami. Jeśli po prostu weźmiesz różnicę O - E, wówczas miara taka będzie zależała od skali danych (częstotliwości). Na przykład 20 - 5 = 15 i 1020 - 1005 = 15. W obu przypadkach różnica wynosi 15. Ale w pierwszym przypadku oczekiwane częstotliwości są 3 razy mniejsze niż obserwowane, a w drugim przypadku - tylko 1,5 %. Potrzebujemy miary względnej, która nie zależy od skali.

Zwróćmy uwagę na następujące fakty. Ogólnie rzecz biorąc, liczba kategorii, w których mierzone są częstotliwości, może być znacznie większa, więc prawdopodobieństwo, że pojedyncza obserwacja będzie należeć do tej czy innej kategorii, jest dość małe. Jeśli tak, to rozkład takiej zmiennej losowej będzie zgodny z prawem rzadkich zdarzeń, tzw Prawo Poissona. W prawie Poissona, jak wiadomo, wartość matematycznej wartości oczekiwanej i wariancji pokrywa się (parametr λ ). Oznacza to, że oczekiwana częstotliwość dla jakiejś kategorii zmiennej nominalnej E ja będzie równoczesny i jego rozproszenie. Co więcej, prawo Poissona ma tendencję do normalizacji przy dużej liczbie obserwacji. Łącząc te dwa fakty, otrzymujemy, że jeśli hipoteza o zgodności częstotliwości obserwowanych i oczekiwanych jest poprawna, to: z dużą liczbą obserwacji, wyrażenie

Należy pamiętać, że normalność pojawi się tylko przy wystarczająco wysokich częstotliwościach. W statystyce powszechnie przyjmuje się, że całkowita liczba obserwacji (suma częstotliwości) musi wynosić co najmniej 50, a oczekiwana częstotliwość w każdej gradacji musi wynosić co najmniej 5. Tylko w tym przypadku pokazana powyżej wartość ma standardowy rozkład normalny . Załóżmy, że ten warunek jest spełniony.

Standardowy rozkład normalny ma prawie wszystkie wartości w granicach ±3 (reguła trzech sigma). W ten sposób uzyskaliśmy względną różnicę częstotliwości dla jednej gradacji. Potrzebujemy miary dającej się uogólnić. Nie można po prostu zsumować wszystkich odchyleń - otrzymujemy 0 (zgadnij dlaczego). Pearson zasugerował zsumowanie kwadratów tych odchyleń.

To jest znak Test chi-kwadrat osoba. Jeśli częstotliwości rzeczywiście odpowiadają oczekiwanym, wówczas wartość kryterium będzie stosunkowo niewielka (ponieważ większość odchyleń będzie w okolicach zera). Ale jeśli kryterium okaże się duże, oznacza to znaczne różnice między częstotliwościami.

Kryterium Pearsona staje się „duże”, gdy wystąpienie takiej lub nawet większej wartości staje się mało prawdopodobne. A żeby obliczyć takie prawdopodobieństwo, trzeba znać rozkład kryterium przy wielokrotnym powtarzaniu eksperymentu, gdy hipoteza zgodności częstotliwości jest prawidłowa.

Jak łatwo zauważyć, wartość chi-kwadrat zależy również od liczby wyrazów. Im jest ich więcej, tym większą wartość powinno mieć kryterium, ponieważ każdy termin będzie miał udział w sumie. Dlatego dla każdej ilości niezależny warunkach, będzie miała własną dystrybucję. Okazało się, że χ 2 to cała rodzina dystrybucji.

I tu dochodzimy do delikatnego momentu. Co to jest liczba niezależny warunki? Wygląda na to, że każdy termin (tj. odchylenie) jest niezależny. K. Pearson też tak myślał, ale okazał się niesłuszny. W rzeczywistości liczba niezależnych składników będzie o jeden mniejsza niż liczba stopni zmiennej nominalnej N. Dlaczego? Bo jeśli mamy próbkę, dla której obliczono już sumę częstości, to zawsze jedną z częstości można wyznaczyć jako różnicę między liczbą całkowitą a sumą wszystkich pozostałych. Dlatego różnice będą nieco mniejsze. Ronald Fisher zauważył ten fakt 20 lat po opracowaniu przez Pearsona swojego kryterium. Nawet stoły musiały zostać przerobione.

Z tej okazji Fisher wprowadził do statystyki nowe pojęcie - stopień wolności(stopnie swobody), które reprezentują liczbę niezależnych składników sumy. Pojęcie stopni swobody ma wyjaśnienie matematyczne i pojawia się jedynie w rozkładach związanych z rozkładem normalnym (Studenta, Fishera-Snedecora i samego chi-kwadrat).

Aby lepiej zrozumieć znaczenie stopni swobody, przejdźmy do fizycznego odpowiednika. Wyobraźmy sobie punkt poruszający się swobodnie w przestrzeni. Ma 3 stopnie swobody, ponieważ może poruszać się w dowolnym kierunku w przestrzeni trójwymiarowej. Jeśli punkt porusza się po dowolnej powierzchni, to ma już dwa stopnie swobody (w przód i w tył, w lewo i w prawo), chociaż nadal znajduje się w przestrzeni trójwymiarowej. Punkt poruszający się po sprężynie ponownie znajduje się w przestrzeni trójwymiarowej, ale ma tylko jeden stopień swobody, ponieważ może poruszać się do przodu lub do tyłu. Jak widać przestrzeń, w której znajduje się obiekt, nie zawsze odpowiada rzeczywistej swobodzie poruszania się.

W przybliżeniu w ten sam sposób rozkład kryterium statystycznego może zależeć od mniejszej liczby elementów niż składniki potrzebne do jego obliczenia. Ogólnie rzecz biorąc, liczba stopni swobody jest mniejsza niż liczba obserwacji o liczbę istniejących zależności.

Zatem rozkład chi-kwadrat ( χ 2) jest rodziną rozkładów, z których każdy zależy od parametru stopni swobody. Formalna definicja testu chi-kwadrat jest następująca. Dystrybucja χ 2(chi-kwadrat) s k stopnie swobody to rozkład sumy kwadratów k niezależne standardowe normalne zmienne losowe.

Następnie moglibyśmy przejść do samego wzoru, za pomocą którego obliczana jest funkcja rozkładu chi-kwadrat, ale na szczęście wszystko już dawno zostało dla nas obliczone. Aby obliczyć prawdopodobieństwo zainteresowania, możesz skorzystać albo z odpowiedniej tabeli statystycznej, albo z gotowej funkcji w Excelu.

Interesujące jest obserwowanie, jak zmienia się kształt rozkładu chi-kwadrat w zależności od liczby stopni swobody.

Wraz ze wzrostem stopni swobody rozkład chi-kwadrat ma tendencję do bycia normalnym. Wyjaśnia to działanie centralnego twierdzenia granicznego, zgodnie z którym suma dużej liczby niezależnych zmiennych losowych ma rozkład normalny. Nie mówi nic o kwadratach)).

Testowanie hipotezy za pomocą testu chi-kwadrat Pearsona

Teraz dochodzimy do testowania hipotez metodą chi-kwadrat. Ogólnie rzecz biorąc, technologia pozostaje. Hipotezą zerową jest to, że obserwowane częstotliwości odpowiadają oczekiwanym (tj. nie ma między nimi różnicy, ponieważ pochodzą z tej samej populacji). Jeżeli tak jest, to rozrzut będzie stosunkowo niewielki, w granicach wahań losowych. Miarę dyspersji wyznacza się za pomocą testu chi-kwadrat. Następnie albo samo kryterium porównuje się z wartością krytyczną (dla odpowiedniego poziomu istotności i stopni swobody), albo, co jest bardziej poprawne, oblicza się zaobserwowaną wartość p, tj. prawdopodobieństwo uzyskania tej samej lub nawet większej wartości kryterium, jeśli hipoteza zerowa jest prawdziwa.

Ponieważ interesuje nas zgodność częstotliwości, wówczas hipoteza zostanie odrzucona, gdy kryterium będzie większe niż poziom krytyczny. Te. kryterium jest jednostronne. Czasami jednak (czasami) konieczne jest sprawdzenie hipotezy lewej ręki. Na przykład, gdy dane empiryczne są bardzo podobne do danych teoretycznych. Wtedy kryterium może należeć do mało prawdopodobnego obszaru, ale po lewej stronie. Faktem jest, że w warunkach naturalnych uzyskanie częstotliwości praktycznie pokrywających się z teoretycznymi jest mało prawdopodobne. Zawsze jest jakaś losowość, która powoduje błąd. Jeśli jednak nie ma takiego błędu, być może dane zostały sfałszowane. Mimo to hipoteza prawostronna jest zwykle testowana.

Wróćmy do problemu kości. Obliczmy wartość testu chi-kwadrat, korzystając z dostępnych danych.

Znajdźmy teraz wartość krytyczną przy 5 stopniach swobody ( k) i poziom istotności 0,05 ( α ) zgodnie z tabelą wartości krytycznych rozkładu chi-kwadrat.

Oznacza to, że rozkład chi-kwadrat 0,05 kwantyla (prawy ogon) z 5 stopniami swobody χ2 0,05; 5 = 11,1.

Porównajmy wartości rzeczywiste i tabelaryczne. 3,4 ( χ 2) < 11,1 (χ2 0,05; 5). Obliczone kryterium okazało się mniejsze, co oznacza, że ​​hipoteza o równości (zgodności) częstotliwości nie zostaje odrzucona. Na rysunku sytuacja wygląda następująco.

Jeżeli obliczona wartość mieściłaby się w obszarze krytycznym, hipoteza zerowa zostałaby odrzucona.

Bardziej poprawne byłoby obliczenie również wartości p. Aby to zrobić, należy znaleźć w tabeli najbliższą wartość dla danej liczby stopni swobody i przyjrzeć się odpowiadającemu jej poziomowi istotności. Ale to jest ostatnie stulecie. Będziemy korzystać z komputera, w szczególności programu MS Excel. Excel ma kilka funkcji związanych z chi-kwadrat.

Poniżej znajduje się ich krótki opis.

CH2.OBR– wartość krytyczna kryterium przy danym prawdopodobieństwie po lewej stronie (jak w tablicach statystycznych)

CH2.OBR.PH– wartość krytyczna kryterium dla danego prawdopodobieństwa po prawej stronie. Funkcja zasadniczo powiela poprzednią. Ale tutaj możesz od razu wskazać poziom α , zamiast odejmować ją od 1. Jest to wygodniejsze, ponieważ w większości przypadków potrzebny jest prawy koniec rozkładu.

ROZKŁAD CH2– wartość p po lewej stronie (można obliczyć gęstość).

ROZKŁ.CH2.PH– wartość p po prawej stronie.

TEST CHI2– natychmiast przeprowadza test chi-kwadrat dla dwóch zakresów częstotliwości. Przyjmuje się, że liczba stopni swobody jest o jeden mniejsza niż liczba częstotliwości w kolumnie (tak jak powinna), zwracając wartość p.

Obliczmy dla naszego eksperymentu wartość krytyczną (tabelaryczną) dla 5 stopni swobody i alfa 0,05. Formuła Excela będzie wyglądać następująco:

CH2.OBR(0,95;5)

CH2.OBR.PC(0,05;5)

Wynik będzie taki sam - 11,0705. Jest to wartość, którą widzimy w tabeli (w zaokrągleniu do 1 miejsca po przecinku).

Na koniec obliczmy wartość p dla kryterium 5 stopni swobody χ 2= 3,4. Potrzebujemy prawdopodobieństwa po prawej stronie, więc bierzemy funkcję z dodaniem HH (prawy ogon)

ROZKŁ.CH2.PH(3,4;5) = 0,63857

Oznacza to, że przy 5 stopniach swobody prawdopodobieństwo uzyskania wartości kryterium χ 2= 3,4 i więcej to prawie 64%. Oczywiście hipoteza nie zostaje odrzucona (wartość p jest większa niż 5%), częstości są w bardzo dobrej zgodności.

Sprawdźmy teraz hipotezę o zgodności częstotliwości za pomocą testu chi-kwadrat i funkcji Excela CHI2.TEST.

Żadnych tabel, żadnych uciążliwych obliczeń. Podając jako argumenty funkcji kolumny z obserwowanymi i oczekiwanymi częstotliwościami, natychmiast otrzymujemy wartość p. Uroda.

Teraz wyobraź sobie, że grasz w kości z podejrzanym facetem. Podział punktów od 1 do 5 pozostaje taki sam, ale rzuca 26 szóstkami (łączna liczba rzutów wynosi 78).

Wartość p w tym przypadku okazuje się wynosić 0,003, czyli znacznie mniej niż 0,05. Istnieją uzasadnione powody, aby wątpić w ważność kości. Oto jak to prawdopodobieństwo wygląda na wykresie rozkładu chi-kwadrat.

Samo kryterium chi-kwadrat okazuje się tutaj wynosić 17,8, co oczywiście jest większe niż tabela (11,1).

Mam nadzieję, że udało mi się wyjaśnić, jakie jest kryterium zgodności χ 2(chi-kwadrat Pearsona) i jak można go wykorzystać do testowania hipotez statystycznych.

Na koniec jeszcze raz o ważnym warunku! Test chi-kwadrat działa prawidłowo tylko wtedy, gdy liczba wszystkich częstotliwości przekracza 50, a minimalna wartość oczekiwana dla każdej gradacji jest nie mniejsza niż 5. Jeżeli w dowolnej kategorii oczekiwana częstotliwość jest mniejsza niż 5, ale suma wszystkich częstotliwości przekracza 50, to taką kategorię łączy się z najbliższą, aby ich łączna częstość przekraczała 5. Jeżeli nie jest to możliwe lub suma częstości jest mniejsza niż 50, należy zastosować dokładniejsze metody testowania hipotez. Porozmawiamy o nich innym razem.

Poniżej znajduje się film przedstawiający sposób testowania hipotezy w Excelu za pomocą testu chi-kwadrat.

Chi-kwadrat Test Pearsona jest najprostszym testem służącym do testowania istotności związku między dwiema skategoryzowanymi zmiennymi. Kryterium Pearsona opiera się na fakcie, że w tabeli z dwoma wejściami oczekiwany częstości w ramach hipotezy „nie ma zależności między zmiennymi” można obliczyć bezpośrednio. Wyobraź sobie, że 20 mężczyzn i 20 kobiet zostaje zapytanych o wybór wody gazowanej (marka A lub marka B). Jeśli nie ma związku między preferencjami a płcią, to naturalnie oczekiwać równy wybór marki A i marki B dla każdej płci.

Znaczenie statystyki chi-kwadrat a jego poziom istotności zależy od całkowitej liczby obserwacji i liczby komórek w tabeli. Zgodnie z zasadami omówionymi w pkt , stosunkowo niewielkie odchylenia obserwowanych częstotliwości od oczekiwanych okażą się istotne, jeśli liczba obserwacji będzie duża.

Stosowanie tego kryterium ma tylko jedno istotne ograniczenie chi-kwadrat(poza oczywistym założeniem losowego doboru obserwacji), a mianowicie, że oczekiwane częstotliwości nie powinny być bardzo małe. Wynika to z faktu, że kryterium chi-kwadrat poprzez kontrole natury prawdopodobieństwa w każdej komórce; a jeśli oczekiwane częstotliwości w komórkach staną się małe, na przykład mniejsze niż 5, wówczas prawdopodobieństw tych nie można oszacować z wystarczającą dokładnością przy użyciu dostępnych częstotliwości. Dalsze dyskusje można znaleźć w: Everitt (1977), Hays (1988) lub Kendall i Stuart (1979).

Test chi-kwadrat (metoda największej wiarygodności).Maksymalne prawdopodobieństwo chi-kwadrat ma na celu przetestowanie tej samej hipotezy dotyczącej zależności w tabelach kontyngencji jako kryterium chi-kwadrat Osoba. Jednak jego obliczenia opierają się na metodzie największej wiarygodności. W praktyce statystyki MP chi-kwadrat pod względem wielkości bardzo zbliżonym do zwykłej statystyki Pearsona chi-kwadrat. Więcej informacji na temat tych statystyk można znaleźć u Bishopa, Fienberga i Hollanda (1975) lub Fienberga (1977). W rozdziale Analiza logliniowa statystyki te omówiono bardziej szczegółowo.

Poprawka Yatesa. Aproksymacja statystyk chi-kwadrat dla tabel 2x2 z małą liczbą obserwacji w komórkach można poprawić zmniejszając wartość bezwzględną różnic pomiędzy częstotliwościami oczekiwanymi i obserwowanymi o 0,5 przed podniesieniem do kwadratu (tzw. Poprawka Yatesa). Korektę Yatesa, która czyni oszacowanie bardziej umiarkowanym, stosuje się zwykle w przypadkach, gdy tabele zawierają tylko małe częstości, na przykład, gdy niektóre oczekiwane częstości stają się mniejsze niż 10 (dalsze omówienie: Conover, 1974; Everitt, 1977; Hays , 1988; Kendall i Stuart, 1979 oraz Mantel, 1974).

Dokładny test Fishera. Kryterium to ma zastosowanie wyłącznie do stołów 2x2. Kryterium opiera się na następującym rozumowaniu. Biorąc pod uwagę częstotliwości krańcowe w tabeli, załóż, że obie zmienne tabelaryczne są niezależne. Zadajmy sobie pytanie: jakie jest prawdopodobieństwo otrzymania częstości zaobserwowanych w tabeli na podstawie podanych częstotliwości marginalnych? Okazuje się, że to prawdopodobieństwo jest obliczane Dokładnie licząc wszystkie tabele, które można zbudować w oparciu o tabele marginalne. Zatem kryterium Fishera oblicza dokładny prawdopodobieństwo wystąpienia obserwowanych częstotliwości w ramach hipotezy zerowej (brak związku pomiędzy zmiennymi tabelarycznymi). Tabela wyników pokazuje zarówno poziomy jednostronne, jak i dwustronne.

Chi-kwadrat McNemara. Kryterium to ma zastosowanie, gdy częstotliwości w tabeli 2x2 reprezentują zależny próbki. Na przykład obserwacje tych samych osób przed i po eksperymencie. W szczególności można policzyć liczbę studentów, którzy mają minimalne osiągnięcia z matematyki na początku i na końcu semestru lub preferencje tych samych respondentów przed i po ogłoszeniu. Obliczane są dwie wartości chi-kwadrat: OGŁOSZENIE I PNE. Chi-kwadrat A/D testuje hipotezę, że częstotliwości w komórkach A I D(lewy górny, prawy dolny) są takie same. Chi-kwadrat B/C testuje hipotezę o równości częstotliwości w komórkach B I C(prawy górny, lewy dolny).

Współczynnik Fi.Plac Phi reprezentuje miarę relacji między dwiema zmiennymi w tabeli 2x2. Jego wartości różnią się od 0 (brak zależności między zmiennymi; chi-kwadrat = 0.0 ) zanim 1 (bezwzględny związek między dwoma czynnikami w tabeli). Szczegóły w: Castellan i Siegel (1988, s. 232).

Korelacja tetrachoryczna. Ta statystyka jest obliczana (i stosowana) tylko do tabel krzyżowych 2x2. Jeśli tablicę 2x2 można postrzegać jako wynik (sztucznego) podziału wartości dwóch zmiennych ciągłych na dwie klasy, to współczynnik korelacji tetrachorycznej pozwala oszacować związek między tymi dwiema zmiennymi.

Współczynnik koniugacji. Współczynnik kontyngencji jest oparty na statystyce chi-kwadrat miara relacji cech w tabeli kontyngencji (zaproponowana przez Pearsona). Przewaga tego współczynnika nad statystykami konwencjonalnymi chi-kwadrat jest to, że jest to łatwiejsze do interpretacji, ponieważ zakres jego zmian mieści się w przedziale od 0 zanim 1 (Gdzie 0 odpowiada przypadkowi niezależności cech z tabeli, a wzrost współczynnika świadczy o wzroście stopnia powiązania). Wadą współczynnika kontyngencji jest to, że jego maksymalna wartość „zależna” jest od wielkości tabeli. Współczynnik ten może osiągnąć wartość 1 tylko wtedy, gdy liczba klas nie jest ograniczona (por. Siegel, 1956, s. 201).

Interpretacja środków komunikacyjnych. Istotną wadą miar asocjacji (omówioną powyżej) jest trudność ich interpretacji w konwencjonalnych kategoriach prawdopodobieństwa lub „wyjaśnionej proporcji wariancji”, jak w przypadku współczynnika korelacji R Pearson (patrz Korelacje). Dlatego nie ma jednej, ogólnie przyjętej miary lub współczynnika asocjacji.

Statystyki oparte na rangach. W wielu problemach pojawiających się w praktyce mamy pomiary tylko w porządkowy skala (patrz Podstawowe pojęcia statystyki). Dotyczy to szczególnie pomiarów z zakresu psychologii, socjologii i innych dyscyplin związanych z badaniem człowieka. Załóżmy, że przeprowadziłeś wywiady z wieloma respondentami, aby poznać ich stosunek do określonych sportów. Pomiary reprezentujesz na skali z następującymi pozycjami: (1) Zawsze, (2) zazwyczaj, (3) Czasami i (4) nigdy. Oczywiście odpowiedź czasami się zastanawiam wykazuje mniejsze zainteresowanie respondenta niż odpowiedź Zwykle jestem zainteresowany itp. Można zatem uporządkować (uszeregować) stopień zainteresowania respondentów. Jest to typowy przykład skali porządkowej. Zmienne mierzone na skali porządkowej posiadają własne rodzaje korelacji, które pozwalają na ocenę zależności.

R Spearmana. Statystyka R Spearmana można interpretować w taki sam sposób, jak korelację Pearsona ( R Pearsona) w kategoriach wyjaśnionej proporcji wariancji (pamiętając jednak, że statystyka Spearmana obliczana jest według rang). Zakłada się, że zmienne są mierzone co najmniej w porządkowy skala. Obszerne omówienie korelacji rang Spearmana, jej mocy i skuteczności można znaleźć na przykład u Gibbonsa (1985), Haysa (1981), McNemara (1969), Siegela (1956), Siegela i Castellana (1988), Kendalla (1948). ), Olds (1949) oraz Hotelling i Pabst (1936).

Tau Kendall. Statystyka tau Odpowiednik Kendalla R Spearmana przy pewnych podstawowych założeniach. Ich moce są również równoważne. Zwykle jednak wartości R Spearmana i tau Modele Kendalla różnią się między sobą zarówno wewnętrzną logiką, jak i sposobem obliczania. W pracy Siegel i Castellan (1988) autorzy wyrazili związek między tymi dwiema statystykami w następujący sposób:

1 < = 3 * Тау Кендалла - 2 * R Спирмена < = 1

Co ważniejsze, statystyki Kendalla tau i Spearmana R mają różne interpretacje: natomiast statystyki R Spearmana można uznać za bezpośredni analogię statystyki R Pearson, obliczony według rang, statystyki Kendalla tau raczej na podstawie prawdopodobieństwa. Dokładniej, testuje, czy istnieje różnica między prawdopodobieństwem, że zaobserwowane dane są w tej samej kolejności dla dwóch wielkości i prawdopodobieństwem, że są one w innej kolejności. Kendall (1948, 1975), Everitt (1977) oraz Siegel i Castellan (1988) szczegółowo omawiają tau Kendall. Zazwyczaj obliczane są dwie statystyki tau Kendall: tau B I tau C. Miary te różnią się jedynie sposobem obsługi dopasowywania rang. W większości przypadków ich znaczenie jest dość podobne. Jeśli pojawią się różnice, wydaje się, że najbezpieczniejszym sposobem jest uwzględnienie mniejszej z dwóch wartości.

Współczynnik d Sommera: d(X|Y), d(Y|X). Statystyka D Miara Sommera jest niesymetryczną miarą związku między dwiema zmiennymi. Ta statystyka jest bliska tau B(por. Siegel i Castellan, 1988, s. 303-310).

Statystyki gammy. Jeśli w danych znajduje się wiele pasujących wartości, statystyki gamma lepszy R Włócznik lub tau Kendall. Jeśli chodzi o podstawowe założenia, statystyki gamma odpowiednik statystyki R Tau Spearmana lub Kendalla. Jej interpretacja i obliczenia są bardziej podobne do statystyki Tau Kendalla niż do statystyki R Spearmana. Mówiąc krótko, gamma reprezentuje również prawdopodobieństwo; dokładniej, różnica między prawdopodobieństwem, że kolejność rang dwóch zmiennych jest zgodna, minus prawdopodobieństwo, że tak nie jest, podzielone przez jeden minus prawdopodobieństwo dopasowania. Zatem statystyki gamma w zasadzie równoważne tau Kendall, z tą różnicą, że dopasowania są wyraźnie brane pod uwagę w normalizacji. Szczegółowe omówienie statystyk gamma można znaleźć u Goodmana i Kruskala (1954, 1959, 1963, 1972), Siegela (1956) oraz Siegela i Castellana (1988).

Współczynniki niepewności. Te współczynniki mierzą komunikacja informacyjna pomiędzy czynnikami (wierszami i kolumnami tabeli). Pojęcie zależność informacyjna wywodzi się z informacyjnego podejścia do analizy tablic częstości, w celu wyjaśnienia tego zagadnienia można zapoznać się z odpowiednimi podręcznikami (patrz Kullback, 1959; Ku i Kullback, 1968; Ku, Varner i Kullback, 1971; zob. także Bishop, Fienberg i Holland, 1975, s. 344-348). Statystyka S(Y, X) jest symetryczny i mierzy ilość informacji zawartej w zmiennej Y względem zmiennej X lub w zmiennej X względem zmiennej Y. Statystyka S(X|Y) I S(Y|X) wyrazić zależność kierunkową.

Wielowymiarowe reakcje i dychotomie. Zmienne takie jak odpowiedź wielowymiarowa i dychotomie wielowymiarowe powstają w sytuacjach, gdy badacza interesuje nie tylko „prosta” częstotliwość zdarzeń, ale także niektóre (często nieustrukturyzowane) właściwości jakościowe tych zdarzeń. Naturę zmiennych wielowymiarowych (czynników) najlepiej zrozumieć na przykładach.

  • · Reakcje wielowymiarowe
  • · Wielowymiarowe dychotomie
  • · Tabela krzyżowa odpowiedzi wielowymiarowych i dychotomii
  • Tabela krzyżowa zmiennych w parach z odpowiedziami wielowymiarowymi
  • · Komentarz końcowy

Odpowiedzi wielowymiarowe. Wyobraź sobie, że w trakcie dużego badania marketingowego poprosiłeś klientów o wymienienie 3 najlepszych napojów bezalkoholowych z ich punktu widzenia. Typowe pytanie może wyglądać tak.

Kryterium Pearsona do testowania hipotezy o postaci prawa rozkładu zmiennej losowej. Testowanie hipotez dotyczących rozkładów normalnych, wykładniczych i jednorodnych z wykorzystaniem kryterium Pearsona. Kryterium Kołmogorowa. Przybliżona metoda sprawdzania normalności rozkładu, powiązana z szacunkami współczynników skośności i kurtozy.

W poprzednim wykładzie rozważano hipotezy, w których zakładano, że prawo rozmieszczenia populacji jest znane. Teraz zaczniemy testować hipotezy dotyczące rzekomego prawa nieznanego rozkładu, czyli przetestujemy hipotezę zerową, że populacja jest rozłożona według jakiegoś znanego prawa. Zazwyczaj testy statystyczne służące do testowania takich hipotez nazywane są testami dobroci dopasowania.

Zaletą kryterium Pearsona jest jego uniwersalność: można go wykorzystać do testowania hipotez dotyczących różnych praw dystrybucji.

1. Testowanie hipotezy o rozkładzie normalnym.

Należy uzyskać wystarczająco dużą próbkę P z dużą liczbą różnych opcji znaczeń. Dla wygody przetwarzania dzielimy przedział od najmniejszej do największej wartości opcji na S równych częściach i założymy, że wartości się różnią

mrówki wpadające do każdego przedziału są w przybliżeniu równe liczbie wyznaczającej środek przedziału. Licząc liczbę opcji mieszczących się w każdym przedziale, stworzymy tzw. próbkę pogrupowaną:

opcje X 1 X 2 x s

częstotliwości P 1 P 2 n.s ,

Gdzie x ja- wartości środków przedziałów i n ja- liczba opcji zawartych w I-interwał (częstotliwości empiryczne).

Na podstawie uzyskanych danych można obliczyć średnią próbki i odchylenie standardowe próbki σ B. Sprawdźmy założenie, że populacja rozkłada się zgodnie z prawem normalnym z parametrami M(X) = , D(X) = . Następnie możesz znaleźć liczbę liczb z wielkości próbki P, które powinny znajdować się w każdym przedziale przy tym założeniu (to znaczy częstotliwościach teoretycznych). Aby to zrobić, korzystając z tabeli wartości funkcji Laplace'a, znajdujemy prawdopodobieństwo dostania się do środka I interwał:

Gdzie i ja I b ja- granice I-ty interwał. Mnożąc otrzymane prawdopodobieństwa przez liczebność próby n, znajdujemy częstości teoretyczne: p ja = n? p ja. Naszym celem jest porównanie częstości empirycznych i teoretycznych, które oczywiście różnią się od siebie, i sprawdzenie, czy różnice te są nieistotne, nie obalają hipotezy o rozkładzie normalnym badanej zmiennej losowej, czy też są tak duże, że zaprzeczają tej hipotezie. W tym celu stosuje się kryterium w postaci zmiennej losowej

Jego znaczenie jest oczywiste: sumuje się części, które kwadraty odchyleń częstotliwości empirycznych od teoretycznych tworzą z odpowiednich częstotliwości teoretycznych. Można udowodnić, że niezależnie od rzeczywistego prawa rozkładu populacji ogólnej, prawo rozkładu zmiennej losowej (20.1) dąży do prawa rozkładu (patrz wykład 12) z liczbą stopni swobody k = s - 1 - R, Gdzie R- liczba parametrów rozkładu oczekiwanego oszacowana na podstawie danych próbnych. Rozkład normalny charakteryzuje się zatem dwoma parametrami k = s - 3. Dla wybranego kryterium konstruowany jest prawostronny obszar krytyczny, określony przez warunek


Gdzie α - poziom istotności. W konsekwencji obszar krytyczny jest określony przez nierówność, a obszar akceptacji hipotezy wynosi .

Tak więc, aby przetestować hipotezę zerową N 0: populacja ma rozkład normalny - należy obliczyć obserwowaną wartość kryterium z próby:

i korzystając z tabeli punktów krytycznych rozkładu χ 2, znajdź punkt krytyczny, korzystając ze znanych wartości α i k = s - 3. Jeżeli - hipoteza zerowa zostanie przyjęta, jeśli zostanie odrzucona.

2. Testowanie hipotezy o rozkładzie równomiernym.

Przy zastosowaniu kryterium Pearsona do testowania hipotezy o równomiernym rozkładzie populacji przy oszacowanej gęstości prawdopodobieństwa

Należy po obliczeniu wartości z dostępnej próbki oszacować parametry A I B według wzorów:

Gdzie A* I B*- oceny A I B. Rzeczywiście, dla równomiernego rozkładu M(X) = , , skąd można uzyskać system wyznaczania A* I B*: , którego rozwiązaniem są wyrażenia (20.3).

Następnie, zakładając, że , możemy znaleźć częstotliwości teoretyczne za pomocą wzorów

Tutaj S- liczba przedziałów, na które podzielona jest próbka.

Obserwowaną wartość kryterium Pearsona oblicza się ze wzoru (20.1`), a wartość krytyczną oblicza się z tabeli, biorąc pod uwagę fakt, że liczba stopni swobody k = s - 3. Następnie wyznacza się granice obszaru krytycznego w taki sam sposób, jak przy testowaniu hipotezy rozkładu normalnego.

3. Testowanie hipotezy o rozkładzie wykładniczym.

W tym przypadku, dzieląc istniejącą próbkę na przedziały o jednakowej długości, rozważamy ciąg opcji, równomiernie oddalonych od siebie (zakładamy, że wszystkie opcje wchodzące w skład I przedziału, przyjmij wartość pokrywającą się z jego środkiem) i odpowiadające im częstotliwości n ja(liczba przykładowych opcji zawartych w I-ty interwał). Obliczmy na podstawie tych danych i przyjmijmy jako oszacowanie parametru λ rozmiar. Następnie częstości teoretyczne oblicza się ze wzoru

Następnie porównuje się obserwowaną i krytyczną wartość kryterium Pearsona, biorąc pod uwagę fakt, że liczba stopni swobody k = s - 2.

Stosowanie tego kryterium polega na zastosowaniu takiej miary (statystyki) rozbieżności pomiędzy wartością teoretyczną F(X) i rozkład empiryczny F* P (X) , co w przybliżeniu jest zgodne z prawem dystrybucji χ 2 . Hipoteza N 0 Spójność rozkładów sprawdza się analizując rozkład tych statystyk. Zastosowanie kryterium wymaga konstrukcji szeregu statystycznego.

Niech więc próba zostanie przedstawiona statystycznie obok liczby cyfr M. Zaobserwowany współczynnik trafień I- ranga N I. Zgodnie z teoretycznym prawem dystrybucji oczekiwana częstotliwość trafień w I-ta kategoria to F I. Różnica między obserwowaną a oczekiwaną częstotliwością będzie ( N IF I). Aby znaleźć ogólny stopień rozbieżności pomiędzy F(X) I F* P (X) należy obliczyć ważoną sumę kwadratów różnic wszystkich cyfr szeregu statystycznego

Wartość χ 2 z nieograniczonym powiększeniem N ma rozkład χ 2 (rozkład asymptotyczny jako χ 2). Rozkład ten zależy od liczby stopni swobody k, tj. liczba niezależnych wartości terminów w wyrażeniu (3.7). Liczba stopni swobody jest równa liczbie y minus liczba zależności liniowych nałożonych na próbkę. Jedno połączenie istnieje ze względu na fakt, że dowolną częstotliwość można obliczyć z sumy częstotliwości w pozostałych M–1 cyfra. Dodatkowo, jeżeli parametry rozkładu nie są z góry znane, wówczas pojawia się kolejne ograniczenie wynikające z dopasowania rozkładu do próby. Jeśli próbka to ustali S parametrów rozkładu, wówczas będzie liczba stopni swobody k= MS–1.

Obszar akceptacji hipotez N 0 jest określony przez warunek χ 2 < χ 2 (k; A) , gdzie χ 2 (k; A) – punkt krytyczny rozkładu χ2 z poziomem istotności A. Prawdopodobieństwo błędu I rodzaju wynosi A, nie można jasno określić prawdopodobieństwa wystąpienia błędu II rodzaju, ponieważ istnieje nieskończenie duża liczba różnych sposobów, w jakie rozkłady mogą się nie zgadzać. Moc testu zależy od liczby cyfr i wielkości próbki. Kryterium to zaleca się stosować, gdy N>200, użycie jest dozwolone, gdy N>40, to w takich warunkach kryterium jest ważne (z reguły odrzuca błędną hipotezę zerową).

Algorytm sprawdzania według kryterium

1. Konstruuj histogram metodą równego prawdopodobieństwa.

2. Na podstawie wyglądu histogramu postawić hipotezę

H 0: F(X) = F 0 (X),

H 1: F(X) ¹ F 0 (X),

Gdzie F 0 (X) - gęstość prawdopodobieństwa hipotetycznego prawa dystrybucji (na przykład jednolitego, wykładniczego, normalnego).

Komentarz. Hipotezę o prawie rozkładu wykładniczego można postawić, jeśli wszystkie liczby w próbie są dodatnie.

3. Oblicz wartość kryterium korzystając ze wzoru

,

Gdzie
Trafienia I-ty przedział;

P I- teoretyczne prawdopodobieństwo wpadnięcia zmiennej losowej I- ten przedział pod warunkiem, że hipoteza H 0 jest poprawne.

Wzory do obliczeń P I w przypadku praw wykładniczych, jednolitych i normalnych są one odpowiednio równe.

prawo wykładnicze

. (3.8)

W której A 1 = 0, B M = +¥.

Jednolite prawo

Normalne prawo

. (3.10)

W której A 1 = -¥, B M = +¥.

Notatki. Po obliczeniu wszystkich prawdopodobieństw P I sprawdź, czy relacja odniesienia jest spełniona

Funkcja Ф( X) - dziwne. Ф(+¥) = 1.

4. Z tabeli Chi-kwadrat w Dodatku wybierz wartość
, gdzie a jest określonym poziomem istotności (a = 0,05 lub a = 0,01), oraz k- liczba stopni swobody określona wzorem

k = M - 1 - S.

Tutaj S- liczba parametrów, od których zależy wybrana hipoteza H 0 prawo dystrybucji. Wartości S dla prawa jednolitego jest to 2, dla prawa wykładniczego jest to 1, dla prawa normalnego jest to 2.

5. Jeśli
, następnie hipoteza H 0 zostaje odrzucone. W przeciwnym razie nie ma powodu, aby to odrzucać: z prawdopodobieństwem 1 – b jest prawdą, a z prawdopodobieństwem – b jest błędne, ale wartość b jest nieznana.

Przykład 3 . 1. Korzystając z kryterium c 2, postawić i przetestować hipotezę dotyczącą prawa rozkładu zmiennej losowej X, których serie zmian, tablice przedziałów i histogramy rozkładu podano w przykładzie 1.2. Poziom istotności a wynosi 0,05.

Rozwiązanie . Na podstawie wyglądu histogramów stawiamy hipotezę, że zmienna losowa X rozdzielone zgodnie z prawem normalnym:

H 0: F(X) = N(M, S);

H 1: F(X) ¹ N(M, S).

Wartość kryterium oblicza się ze wzoru:

(3.11)

Jak zauważono powyżej, podczas testowania hipotezy lepiej jest zastosować histogram o równym prawdopodobieństwie. W tym przypadku

Prawdopodobieństwa teoretyczne P I Obliczamy korzystając ze wzoru (3.10). Jednocześnie w to wierzymy

P 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

0,5(-0,845+1) = 0,078.

P 2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

P 3 = 0,094; P 4 = 0,135; P 5 = 0,118; P 6 = 0,097; P 7 = 0,073; P 8 = 0,059; P 9 = 0,174;

P 10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

Następnie sprawdzamy spełnienie współczynnika kontroli

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Następnie wybierz wartość krytyczną z tabeli „Chi-kwadrat”.

.

Ponieważ
potem hipoteza H 0 zostaje zaakceptowane (nie ma powodu do odrzucenia).

​ Test χ 2 Pearsona jest metodą nieparametryczną, która pozwala ocenić istotność różnic pomiędzy rzeczywistą (ujawnioną) liczbą wyników lub cech jakościowych próby mieszczących się w poszczególnych kategoriach, a teoretyczną liczbą, jakiej można się spodziewać w badanym grupy, jeśli hipoteza zerowa jest prawdziwa. W uproszczeniu metoda pozwala ocenić istotność statystyczną różnic pomiędzy dwoma lub większą liczbą wskaźników względnych (częstotliwości, proporcje).

1. Historia rozwoju kryterium χ 2

Test chi-kwadrat do analizy tablic kontyngencji został opracowany i zaproponowany w 1900 roku przez angielskiego matematyka, statystyka, biologa i filozofa, twórcę statystyki matematycznej i jednego z twórców biometrii Karla Pearsona(1857-1936).

2. Dlaczego stosuje się test χ 2 Pearsona?

W analizie można zastosować test chi-kwadrat tabele awaryjne zawierające informację o częstości występowania skutków w zależności od obecności czynnika ryzyka. Na przykład, czteropolowa tabela kontyngencji następująco:

Jest wynik (1) Brak wyniku (0) Całkowity
Istnieje czynnik ryzyka (1) A B A+B
Brak czynnika ryzyka (0) C D C+D
Całkowity A+C B+D A+B+C+D

Jak wypełnić taką tabelę awaryjnych? Spójrzmy na mały przykład.

Prowadzone są badania nad wpływem palenia tytoniu na ryzyko rozwoju nadciśnienia tętniczego. W tym celu wytypowano dwie grupy osób – do pierwszej zakwalifikowano 70 osób palących co najmniej 1 paczkę papierosów dziennie, do drugiej – 80 osób niepalących w tym samym wieku. W pierwszej grupie 40 osób miało nadciśnienie. W drugim badaniu nadciśnienie tętnicze stwierdzono u 32 osób. Odpowiednio prawidłowe ciśnienie krwi w grupie palaczy miało 30 osób (70 – 40 = 30), a w grupie osób niepalących – u 48 (80 – 32 = 48).

Wypełniamy czteropolową tabelę kontyngencji danymi początkowymi:

W powstałej tabeli kontyngencji każda linia odpowiada określonej grupie podmiotów. Kolumny pokazują liczbę osób z nadciśnieniem tętniczym lub prawidłowym ciśnieniem krwi.

Zadanie jakie stoi przed badaczem brzmi: czy istnieją istotne statystycznie różnice pomiędzy częstością występowania osób z nadciśnieniem wśród osób palących i niepalących? Odpowiedź na to pytanie można uzyskać, obliczając test chi-kwadrat Pearsona i porównując otrzymaną wartość z wartością krytyczną.

3. Warunki i ograniczenia stosowania testu chi-kwadrat Pearsona

  1. Porównywalne wskaźniki należy mierzyć w nominalna skala(na przykład płeć pacjenta to mężczyzna lub kobieta) lub w porządkowy(na przykład stopień nadciśnienia tętniczego, przyjmujący wartości od 0 do 3).
  2. Ta metoda pozwala analizować nie tylko tabele czteropolowe, gdy zarówno czynnik, jak i wynik są zmiennymi binarnymi, to znaczy mają tylko dwie możliwe wartości (na przykład płeć męska lub żeńska, obecność lub brak pewna choroba w wywiadzie...). Test chi-kwadrat Pearsona można również zastosować w przypadku analizy tabel wielopolowych, gdy czynnik i (lub) wynik przyjmują trzy lub więcej wartości.
  3. Porównywane grupy muszą być niezależne, co oznacza, że ​​przy porównywaniu obserwacji przed i po nie należy stosować testu chi-kwadrat. Test McNemara(przy porównywaniu dwóch powiązanych populacji) lub obliczone Test Q Cochrana(w przypadku porównania trzech lub więcej grup).
  4. Podczas analizy tabel czteropolowych oczekiwane wartości w każdej komórce musi być ich co najmniej 10. Jeżeli w chociaż jednej komórce oczekiwane zjawisko przyjmuje wartość od 5 do 9, należy obliczyć test chi-kwadrat z poprawką Yatesa. Jeżeli w chociaż jednej komórce oczekiwane zjawisko jest mniejsze niż 5, wówczas do analizy należy zastosować Dokładny test Fishera.
  5. Analizując tabele wielopolowe, oczekiwana liczba obserwacji nie powinna być mniejsza niż 5 w więcej niż 20% komórek.

4. Jak obliczyć test chi-kwadrat Pearsona?

Aby obliczyć test chi-kwadrat, potrzebujesz:

Algorytm ten ma zastosowanie zarówno do tabel czteropolowych, jak i wielopolowych.

5. Jak interpretować wartość testu chi-kwadrat Pearsona?

Jeżeli uzyskana wartość kryterium χ 2 jest większa od wartości krytycznej, stwierdzamy, że istnieje związek statystyczny pomiędzy badanym czynnikiem ryzyka a wynikiem na odpowiednim poziomie istotności.

6. Przykład obliczenia testu chi-kwadrat Pearsona

Określmy istotność statystyczną wpływu czynnika palenia tytoniu na częstość występowania nadciśnienia tętniczego, korzystając z omówionej powyżej tabeli:

  1. Obliczamy oczekiwane wartości dla każdej komórki:
  2. Znajdź wartość testu chi-kwadrat Pearsona:

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Liczba stopni swobody f = (2-1)*(2-1) = 1. Korzystając z tabeli, znajdujemy wartość krytyczną testu chi-kwadrat Pearsona, która na poziomie istotności p=0,05 i liczba stopni swobody 1 wynosi 3,841.
  4. Uzyskaną wartość testu chi-kwadrat porównujemy z wartością krytyczną: 4,396 > 3,841, zatem zależność częstości występowania nadciśnienia tętniczego od obecności palenia jest istotna statystycznie. Poziom istotności tej zależności odpowiada p<0.05.