Godhetskriterier for distribusjoner. Tester fordelingshypotesen. Pearson-kriterium Pearson-metoden er det

Frem til slutten av 1800-tallet ble normalfordelingen ansett som den universelle variasjonsloven i data. K. Pearson bemerket imidlertid at empiriske frekvenser kan avvike sterkt fra normalfordelingen. Spørsmålet oppsto om hvordan man skulle bevise dette. Ikke bare en grafisk sammenligning, som er subjektiv, var nødvendig, men også en streng kvantitativ begrunnelse.

Slik ble kriteriet oppfunnet χ 2(chi square), som tester betydningen av avviket mellom empiriske (observerte) og teoretiske (forventede) frekvenser. Dette skjedde tilbake i 1900, men kriteriet er fortsatt i bruk i dag. Dessuten er den tilpasset for å løse et bredt spekter av problemer. Først og fremst er dette analysen av kategoriske data, dvs. de som ikke uttrykkes etter mengde, men ved å tilhøre en eller annen kategori. For eksempel klassen til bilen, kjønnet til eksperimentdeltakeren, typen plante, etc. Matematiske operasjoner som addisjon og multiplikasjon kan ikke brukes på slike frekvenser, kan bare beregnes for dem.

Vi angir de observerte frekvensene Om (observert), forventet - E (Forventet). Som et eksempel, la oss ta resultatet av å kaste en terning 60 ganger. Hvis den er symmetrisk og ensartet, er sannsynligheten for å få en side 1/6, og derfor er det forventede antallet å få hver side 10 (1/6∙60). Vi skriver de observerte og forventede frekvensene i en tabell og tegner et histogram.

Nullhypotesen er at frekvensene er konsistente, det vil si at de faktiske dataene ikke motsier de forventede dataene. En alternativ hypotese er at avvikene i frekvenser går utover tilfeldige svingninger, avvikene er statistisk signifikante. For å trekke en streng konklusjon, trenger vi.

  1. Et oppsummerende mål på avviket mellom observert og forventet frekvens.
  2. Fordelingen av dette målet hvis hypotesen om at det ikke er forskjeller er sann.

La oss starte med avstanden mellom frekvensene. Hvis du bare tar forskjellen O - E, da vil et slikt mål avhenge av omfanget av dataene (frekvensene). For eksempel, 20 - 5 = 15 og 1020 - 1005 = 15. I begge tilfeller er forskjellen 15. Men i det første tilfellet er de forventede frekvensene 3 ganger mindre enn de observerte, og i det andre tilfellet - bare 1,5 %. Vi trenger et relativt mål som ikke er avhengig av skala.

La oss ta hensyn til følgende fakta. Generelt kan antallet kategorier som frekvenser måles i være mye større, så sannsynligheten for at en enkelt observasjon faller inn i en eller annen kategori er ganske liten. I så fall vil fordelingen av en slik tilfeldig variabel følge loven om sjeldne hendelser, kjent som Poissons lov. I Poissons lov er som kjent verdien av den matematiske forventningen og variansen sammenfallende (parameter λ ). Dette betyr at den forventede frekvensen for en kategori av den nominelle variabelen E i vil være samtidig og dens spredning. Videre har Poissons lov en tendens til å være normal med et stort antall observasjoner. Ved å kombinere disse to fakta, får vi at hvis hypotesen om samsvaret mellom de observerte og forventede frekvensene er riktig, så med et stort antall observasjoner, uttrykk

Det er viktig å huske at normalitet kun vil vises ved tilstrekkelig høye frekvenser. I statistikk er det generelt akseptert at det totale antallet observasjoner (summen av frekvenser) må være minst 50 og forventet frekvens i hver gradering må være minst 5. Bare i dette tilfellet har verdien vist ovenfor en standard normalfordeling . La oss anta at denne betingelsen er oppfylt.

Standard normalfordeling har nesten alle verdier innenfor ±3 (tre-sigma-regelen). Dermed oppnådde vi den relative forskjellen i frekvenser for en gradering. Vi trenger et generaliserbart tiltak. Du kan ikke bare legge sammen alle avvikene - vi får 0 (gjett hvorfor). Pearson foreslo å legge sammen kvadratene til disse avvikene.

Dette er tegnet Chi-kvadrat test Pearson. Hvis frekvensene virkelig tilsvarer de forventede, vil verdien av kriteriet være relativt liten (siden de fleste avvikene er rundt null). Men hvis kriteriet viser seg å være stort, indikerer dette betydelige forskjeller mellom frekvenser.

Pearson-kriteriet blir "stort" når forekomsten av en slik eller en enda større verdi blir usannsynlig. Og for å beregne en slik sannsynlighet, er det nødvendig å vite fordelingen av kriteriet når eksperimentet gjentas mange ganger, når hypotesen om frekvensavtale er riktig.

Som det er lett å se, avhenger kjikvadratverdien også av antall ledd. Jo flere det er, jo større verdi bør kriteriet ha, fordi hvert ledd vil bidra til totalen. Derfor for hver mengde uavhengig vilkår, vil det være egen distribusjon. Det viser seg at χ 2 er en hel familie av distribusjoner.

Og her kommer vi til et delikat øyeblikk. Hva er et tall uavhengig vilkår? Det virker som ethvert begrep (dvs. avvik) er uavhengig. Det mente også K. Pearson, men han viste seg å ta feil. Faktisk vil antallet uavhengige ledd være én mindre enn antallet graderinger av den nominelle variabelen n. Hvorfor? For hvis vi har et utvalg som summen av frekvenser allerede er beregnet for, så kan en av frekvensene alltid bestemmes som differansen mellom det totale antallet og summen av alle de andre. Derfor vil variasjonen bli noe mindre. Ronald Fisher la merke til dette faktum 20 år etter at Pearson utviklet sitt kriterium. Selv bordene måtte gjøres om.

Ved denne anledningen introduserte Fisher et nytt konsept i statistikk - grad av frihet(frihetsgrader), som representerer antall uavhengige ledd i summen. Begrepet frihetsgrader har en matematisk forklaring og vises kun i fordelinger knyttet til det normale (Student's, Fisher-Snedecor og chi-square selv).

For bedre å forstå betydningen av grader av frihet, la oss vende oss til en fysisk analog. La oss forestille oss et punkt som beveger seg fritt i rommet. Den har 3 frihetsgrader, fordi kan bevege seg i alle retninger i tredimensjonalt rom. Hvis et punkt beveger seg langs en overflate, har det allerede to frihetsgrader (frem og tilbake, venstre og høyre), selv om det fortsetter å være i tredimensjonalt rom. Et punkt som beveger seg langs en fjær er igjen i tredimensjonalt rom, men har bare én frihetsgrad, fordi kan bevege seg enten fremover eller bakover. Som du kan se, samsvarer ikke plassen der objektet befinner seg alltid med reell bevegelsesfrihet.

På omtrent samme måte kan fordelingen av et statistisk kriterium avhenge av et mindre antall elementer enn vilkårene som trengs for å beregne det. Generelt er antallet frihetsgrader mindre enn antall observasjoner med antall eksisterende avhengigheter.

Dermed chi-kvadratfordelingen ( χ 2) er en familie av distribusjoner, som hver avhenger av frihetsgradsparameteren. Og den formelle definisjonen av kjikvadrattesten er som følger. Fordeling χ 2(chi-kvadrat) s k frihetsgrader er fordelingen av summen av kvadrater k uavhengige standard normale tilfeldige variabler.

Deretter kan vi gå videre til selve formelen som kjikvadratfordelingsfunksjonen beregnes med, men heldigvis har alt lenge blitt beregnet for oss. For å få sannsynligheten for interesse kan du bruke enten den aktuelle statistiske tabellen eller en ferdig funksjon i Excel.

Det er interessant å se hvordan formen på kjikvadratfordelingen endres avhengig av antall frihetsgrader.

Med økende frihetsgrader har kjikvadratfordelingen en tendens til å være normal. Dette forklares av handlingen til den sentrale grensesetningen, ifølge hvilken summen av et stort antall uavhengige tilfeldige variabler har en normalfordeling. Det står ikke noe om ruter)).

Testing av hypotesen ved hjelp av Pearson kjikvadrattest

Nå kommer vi til å teste hypoteser ved hjelp av kjikvadratmetoden. Generelt forblir teknologien. Nullhypotesen er at de observerte frekvensene tilsvarer de forventede (dvs. det er ingen forskjell mellom dem fordi de er hentet fra samme populasjon). Hvis dette er tilfelle, vil spredningen være relativt liten, innenfor grensene for tilfeldige svingninger. Spredningsmålet bestemmes ved bruk av kjikvadrattesten. Deretter sammenlignes enten selve kriteriet med den kritiske verdien (for tilsvarende betydningsnivå og frihetsgrader), eller, hva som er riktigere, beregnes den observerte p-verdien, dvs. sannsynligheten for å oppnå samme eller enda større kriterieverdi hvis nullhypotesen er sann.

Fordi vi er interessert i samsvar mellom frekvenser, da vil hypotesen bli forkastet når kriteriet er større enn det kritiske nivået. De. kriteriet er ensidig. Noen ganger (noen ganger) er det imidlertid nødvendig å teste hypotesen til venstre. For eksempel når empiriske data ligner veldig på teoretiske data. Da kan kriteriet falle inn i en usannsynlig region, men til venstre. Faktum er at det under naturlige forhold er usannsynlig å oppnå frekvenser som praktisk talt sammenfaller med de teoretiske. Det er alltid en eller annen tilfeldighet som gir feil. Men hvis det ikke er en slik feil, er kanskje dataene forfalsket. Men likevel blir den høyresidige hypotesen vanligvis testet.

La oss gå tilbake til terningproblemet. La oss beregne verdien av kjikvadrattesten ved å bruke tilgjengelige data.

La oss nå finne den kritiske verdien ved 5 frihetsgrader ( k) og signifikansnivå 0,05 ( α ) i henhold til tabellen over kritiske verdier for chi-kvadratfordelingen.

Det vil si 0,05 kvantil chi-kvadratfordeling (høyre hale) med 5 frihetsgrader x 2 0,05; 5 = 11,1.

La oss sammenligne de faktiske og tabulerte verdiene. 3,4 ( χ 2) < 11,1 (x 2 0,05; 5). Det beregnede kriteriet viste seg å være mindre, noe som betyr at hypotesen om likhet (avtale) av frekvenser ikke forkastes. På figuren ser situasjonen slik ut.

Hvis den beregnede verdien falt innenfor det kritiske området, ville nullhypotesen bli forkastet.

Det vil være mer riktig å også beregne p-verdien. For å gjøre dette må du finne den nærmeste verdien i tabellen for et gitt antall frihetsgrader og se på det tilsvarende signifikansnivået. Men dette er forrige århundre. Vi vil bruke en datamaskin, spesielt MS Excel. Excel har flere funksjoner knyttet til kjikvadrat.

Nedenfor er en kort beskrivelse av dem.

CH2.OBR– kritisk verdi av kriteriet ved en gitt sannsynlighet til venstre (som i statistiske tabeller)

CH2.OBR.PH– kritisk verdi av kriteriet for en gitt sannsynlighet til høyre. Funksjonen dupliserer i hovedsak den forrige. Men her kan du umiddelbart angi nivået α , i stedet for å trekke den fra 1. Dette er mer praktisk, fordi i de fleste tilfeller er det høyre hale av fordelingen som trengs.

CH2.DIST– p-verdi til venstre (tetthet kan beregnes).

CH2.DIST.PH– p-verdi til høyre.

CHI2.TEST– utfører umiddelbart en kjikvadrattest for to frekvensområder. Antall frihetsgrader antas å være én mindre enn antall frekvenser i kolonnen (som det burde være), og returnerer en p-verdi.

La oss beregne den kritiske (tabellformede) verdien for 5 frihetsgrader og alfa 0,05 for eksperimentet vårt. Excel-formelen vil se slik ut:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Resultatet blir det samme - 11.0705. Dette er verdien vi ser i tabellen (avrundet til 1 desimal).

La oss til slutt beregne p-verdien for kriteriet for 5 frihetsgrader χ 2= 3,4. Vi trenger sannsynligheten til høyre, så vi tar funksjonen med tillegg av HH (høyre hale)

CH2.DIST.PH(3,4;5) = 0,63857

Dette betyr at med 5 frihetsgrader er sannsynligheten for å oppnå kriterieverdien χ 2= 3,4 og mer tilsvarer nesten 64 %. Naturligvis forkastes ikke hypotesen (p-verdi er større enn 5%), frekvensene stemmer meget godt overens.

La oss nå sjekke hypotesen om samsvar mellom frekvenser ved å bruke kjikvadrattesten og Excel-funksjonen CHI2.TEST.

Ingen tabeller, ingen tungvinte beregninger. Ved å spesifisere kolonner med observerte og forventede frekvenser som funksjonsargumenter får vi umiddelbart p-verdien. Skjønnhet.

Tenk deg nå at du spiller terninger med en mistenkelig fyr. Fordelingen av poeng fra 1 til 5 forblir den samme, men han kaster 26 seksere (totalt antall kast blir 78).

P-verdien i dette tilfellet viser seg å være 0,003, som er mye mindre enn 0,05. Det er gode grunner til å tvile på terningens gyldighet. Slik ser denne sannsynligheten ut på et kjikvadratfordelingsdiagram.

Selve kjikvadratkriteriet viser seg her å være 17,8, som naturligvis er større enn tabell en (11,1).

Jeg håper jeg klarte å forklare hva kriteriet for avtale er χ 2(Pearson chi-square) og hvordan det kan brukes til å teste statistiske hypoteser.

Endelig, nok en gang om en viktig tilstand! Kjikvadrattesten fungerer bare riktig når antallet av alle frekvenser overstiger 50, og minimum forventet verdi for hver gradering ikke er mindre enn 5. Hvis i en kategori er forventet frekvens mindre enn 5, men summen av alle frekvenser overskrider 50, så kombineres en slik kategori med den nærmeste slik at deres totale frekvens overstiger 5. Hvis dette ikke er mulig, eller summen av frekvensene er mindre enn 50, bør mer nøyaktige metoder for å teste hypoteser brukes. Vi snakker om dem en annen gang.

Nedenfor er en video om hvordan du tester en hypotese i Excel ved hjelp av kjikvadrattesten.

Chi-kvadrat Pearson er den enkleste testen for å teste betydningen av et forhold mellom to kategoriserte variabler. Pearson-kriteriet er basert på det faktum at i en tabell med to innganger forventet frekvenser under hypotesen "det er ingen avhengighet mellom variablene" kan beregnes direkte. Tenk deg at 20 menn og 20 kvinner blir spurt om valg av sprudlevann (merke EN eller merke B). Hvis det ikke er noen sammenheng mellom preferanse og kjønn, så naturligvis forvente likt valg av merke EN og merker B for hvert kjønn.

Betydningen av statistikk chi-kvadrat og betydningsnivået avhenger av det totale antallet observasjoner og antall celler i tabellen. I henhold til prinsippene omtalt i pkt , vil relativt små avvik av observerte frekvenser fra forventede vise seg å være signifikante dersom antallet observasjoner er stort.

Det er bare én vesentlig begrensning ved bruk av kriteriet chi-kvadrat(bortsett fra den åpenbare antagelsen om tilfeldig utvalg av observasjoner), som er at de forventede frekvensene ikke bør være veldig små. Dette skyldes at kriteriet chi-kvadrat ved natursjekker sannsynligheter i hver celle; og hvis de forventede frekvensene i cellene blir små, for eksempel mindre enn 5, så kan disse sannsynlighetene ikke estimeres med tilstrekkelig nøyaktighet ved å bruke de tilgjengelige frekvensene. For ytterligere diskusjon, se Everitt (1977), Hays (1988) eller Kendall og Stuart (1979).

Kikvadrattest (maximum likelihood-metoden).Maksimal sannsynlighet chi-kvadrat er ment å teste den samme hypotesen angående sammenhenger i beredskapstabeller som kriteriet chi-kvadrat Pearson. Imidlertid er beregningen basert på maksimal sannsynlighetsmetoden. I praksis MP-statistikk chi-kvadrat svært nær den vanlige Pearson-statistikken i størrelsesorden chi-kvadrat. Mer informasjon om denne statistikken finnes i Bishop, Fienberg og Holland (1975) eller Fienberg (1977). I kapittel Loglineær analyse denne statistikken diskuteres mer detaljert.

Yates' endring. Tilnærming av statistikk chi-kvadrat for 2x2 tabeller med et lite antall observasjoner i celler kan forbedres ved å redusere den absolutte verdien av forskjellene mellom de forventede og observerte frekvensene med 0,5 før kvadrering (den s.k. Yates endring). Yates-korreksjonen, som gjør estimatet mer moderat, brukes vanligvis i tilfeller der tabellene bare inneholder små frekvenser, for eksempel når noen forventede frekvenser blir mindre enn 10 (for ytterligere diskusjon, se Conover, 1974; Everitt, 1977; Hays , 1988; Kendall og Stuart, 1979 og Mantel, 1974).

Fishers eksakte test. Dette kriteriet gjelder kun for 2x2 bord. Kriteriet er basert på følgende resonnement. Gitt de marginale frekvensene i tabellen, anta at begge variablene i tabellen er uavhengige. La oss stille oss selv spørsmålet: hva er sannsynligheten for å oppnå frekvensene observert i tabellen, basert på de gitte marginale? Det viser seg at denne sannsynligheten er beregnet nøyaktig teller alle tabellene som kan bygges basert på de marginale. Dermed beregner Fishers kriterium korrekt sannsynligheten for forekomst av observerte frekvenser under nullhypotesen (ingen sammenheng mellom variabler i tabellen). Resultattabellen viser både ensidige og tosidige nivåer.

McNemar chi-square. Dette kriteriet gjelder når frekvensene i 2x2-tabellen representerer avhengig prøver. For eksempel observasjoner av de samme individene før og etter et eksperiment. Spesielt kan du telle antall elever som har minimale prestasjoner i matematikk ved begynnelsen og slutten av semesteret eller preferansen til de samme respondentene før og etter annonsen. To verdier beregnes chi-kvadrat: A/D Og B/C. A/D chi-kvadrat tester hypotesen om at frekvenser i celler EN Og D(øverst til venstre, nederst til høyre) er de samme. B/C chi-kvadrat tester hypotesen om likheten av frekvenser i celler B Og C(øverst til høyre, nederst til venstre).

Phi koeffisient.Phi-plassen representerer et mål på forholdet mellom to variabler i en 2x2-tabell. Dens verdier varierer fra 0 (ingen avhengighet mellom variabler; chi-kvadrat = 0.0 ) før 1 (absolutt forhold mellom to faktorer i tabellen). For detaljer, se Castellan og Siegel (1988, s. 232).

Tetrakorisk korrelasjon. Denne statistikken beregnes (og brukes) kun på 2x2 krysstabeller. Hvis en 2x2-tabell kan sees som et resultat av en (kunstig) partisjon av verdiene til to kontinuerlige variabler i to klasser, lar den tetrakoriske korrelasjonskoeffisienten oss estimere forholdet mellom disse to variablene.

Konjugasjonskoeffisient. Beredskapskoeffisienten er en statistisk basert chi-kvadrat et mål på forholdet mellom funksjoner i beredskapstabellen (foreslått av Pearson). Fordelen med denne koeffisienten fremfor konvensjonell statistikk chi-kvadrat er at det er lettere å tolke, fordi området for endringen er i området fra 0 før 1 (Hvor 0 tilsvarer tilfellet med uavhengighet av egenskapene i tabellen, og en økning i koeffisienten viser en økning i graden av forbindelse). Ulempen med beredskapskoeffisienten er at dens maksimale verdi "avhenger" av størrelsen på bordet. Denne koeffisienten kan nå en verdi på 1 bare hvis antall klasser ikke er begrenset (se Siegel, 1956, s. 201).

Tolking av kommunikasjonstiltak. En betydelig ulempe med mål for assosiasjon (diskutert ovenfor) er vanskeligheten med å tolke dem i konvensjonelle termer av sannsynlighet eller "proportion of varians forklart", som i tilfellet med korrelasjonskoeffisienten r Pearson (se Korrelasjoner). Derfor er det ingen generelt akseptert mål eller assosiasjonskoeffisient.

Statistikk basert på rangeringer. Ved mange problemer som oppstår i praksis har vi målinger kun i ordinær skala (se Grunnleggende begreper om statistikk). Dette gjelder spesielt målinger innen psykologi, sosiologi og andre disipliner knyttet til studiet av mennesket. Anta at du intervjuet en rekke respondenter for å finne ut deres holdning til visse idretter. Du representerer målingene på en skala med følgende posisjoner: (1) Alltid, (2) som oftest, (3) Noen ganger og (4) aldri. Klart svaret noen ganger lurer jeg viser mindre interesse hos respondenten enn svaret Jeg er vanligvis interessert etc. Dermed er det mulig å sortere (rangere) graden av interesse hos respondentene. Dette er et typisk eksempel på en ordensskala. Variabler målt på en ordinalskala har sine egne typer korrelasjoner som gjør at man kan evaluere avhengigheter.

R Spearman. Statistikk R Spearman kan tolkes på samme måte som Pearson-korrelasjon ( r Pearson) når det gjelder den forklarte variansandelen (husk imidlertid at Spearman-statistikken beregnes etter rangeringer). Det antas at variablene er målt minst i ordinær skala. En omfattende diskusjon av Spearmans rangkorrelasjon, dens kraft og effektivitet finnes for eksempel i Gibbons (1985), Hays (1981), McNemar (1969), Siegel (1956), Siegel og Castellan (1988), Kendall (1948). ), Olds (1949) og Hotelling og Pabst (1936).

Tau Kendall. Statistikk tau Kendalls tilsvarende R Spearman under noen grunnleggende forutsetninger. Deres krefter er også likeverdige. Men vanligvis verdiene R Spearman og tau Kendalls er forskjellige fordi de er forskjellige både i deres interne logikk og i måten de beregnes på. I Siegel og Castellan (1988) uttrykte forfatterne forholdet mellom disse to statistikkene som følger:

1 < = 3 * Тау Кендалла - 2 * R Спирмена < = 1

Enda viktigere, Kendalls statistikk tau og Spearman R har forskjellige tolkninger: mens statistikk R Spearman kan sees på som en direkte analog av statistikk r Pearson, beregnet etter rangeringer, Kendall-statistikk tau heller basert på sannsynligheter. Mer presist tester den at det er en forskjell mellom sannsynligheten for at de observerte dataene er i samme rekkefølge for to størrelser og sannsynligheten for at de er i en annen rekkefølge. Kendall (1948, 1975), Everitt (1977) og Siegel og Castellan (1988) diskuterer i detalj tau Kendall. Vanligvis beregnes to statistikker tau Kendall: tau b Og tau c. Disse målene er bare forskjellige i måten de håndterer matchende rangeringer på. I de fleste tilfeller er deres betydninger ganske like. Hvis det oppstår forskjeller, ser det ut til at den sikreste måten er å vurdere den minste av de to verdiene.

Sommers d-koeffisient: d(X|Y), d(Y|X). Statistikk d Sommers mål er et ikke-symmetrisk mål på forholdet mellom to variabler. Denne statistikken er nær tau b(se Siegel og Castellan, 1988, s. 303-310).

Gammastatistikk. Hvis det er mange samsvarende verdier i dataene, statistikk gammaå foretrekke R Spearman eller tau Kendall. Når det gjelder grunnleggende forutsetninger, statistikk gamma tilsvarende statistikk R Spearman eller Kendalls tau. Dens tolkning og beregninger ligner mer på Kendalls Tau-statistikk enn Spearmans R-statistikk. For å si det kort, gamma representerer også sannsynlighet; mer presist, forskjellen mellom sannsynligheten for at rangordenen til to variabler samsvarer, minus sannsynligheten for at den ikke stemmer, delt på én minus sannsynligheten for samsvar. Altså statistikken gamma i utgangspunktet tilsvarende tau Kendall, bortsett fra at kamper eksplisitt tas med i normaliseringen. Detaljert diskusjon av statistikk gamma kan finnes i Goodman og Kruskal (1954, 1959, 1963, 1972), Siegel (1956) og Siegel og Castellan (1988).

Usikkerhetskoeffisienter. Disse koeffisientene måler informasjonskommunikasjon mellom faktorer (rader og kolonner i tabellen). Konsept informasjonsavhengighet har sitt utspring i den informasjonsteoretiske tilnærmingen til analyse av frekvenstabeller, kan man konsultere relevante manualer for å avklare denne problemstillingen (se Kullback, 1959; Ku og Kullback, 1968; Ku, Varner og Kullback, 1971; se også Bishop, Fienberg og Holland, 1975, s. 344-348). Statistikk S(Y,X) er symmetrisk og måler mengden informasjon i en variabel Y i forhold til variabelen X eller i en variabel X i forhold til variabelen Y. Statistikk S(X|Y) Og S(Y|X) uttrykke retningsavhengighet.

Flerdimensjonale responser og dikotomier. Variabler som multivariat respons og multivariate dikotomier oppstår i situasjoner der forskeren ikke bare er interessert i de «enkle» frekvensene til hendelser, men også i noen (ofte ustrukturerte) kvalitative egenskaper ved disse hendelsene. Naturen til flerdimensjonale variabler (faktorer) forstås best gjennom eksempler.

  • · Flerdimensjonale responser
  • · Flerdimensjonale dikotomier
  • · Krysstabulering av multivariate responser og dikotomier
  • Parvis krysstabulering av variabler med multivariate responser
  • · Siste kommentar

Flerdimensjonale svar. Tenk deg at du i prosessen med en stor markedsundersøkelse ba kundene om å nevne de 3 beste brusene fra deres synspunkt. Et typisk spørsmål kan se slik ut.

Pearson-kriterium for å teste hypotesen om formen til fordelingsloven til en tilfeldig variabel. Teste hypoteser om normale, eksponentielle og ensartede fordelinger ved å bruke Pearson-kriteriet. Kolmogorov-kriterium. En omtrentlig metode for å kontrollere normaliteten til en fordeling, assosiert med estimater av koeffisientene for skjevhet og kurtose.

I forrige forelesning ble det vurdert hypoteser der befolkningens fordelingslov ble antatt kjent. Nå skal vi begynne å teste hypoteser om den antatte loven om ukjent fordeling, det vil si at vi skal teste nullhypotesen om at populasjonen er fordelt etter en eller annen kjent lov. Vanligvis kalles statistiske tester for å teste slike hypoteser goodness-of-fit-tester.

Fordelen med Pearson-kriteriet er dets universalitet: det kan brukes til å teste hypoteser om ulike distribusjonslover.

1. Teste hypotesen om normalfordeling.

La en tilstrekkelig stor prøve fås P med et stort antall forskjellige betydningsalternativer. For å lette behandlingen deler vi intervallet fra den minste til den største verdien av opsjonen i s like deler og vi vil anta at verdiene varierer

maur som faller inn i hvert intervall er omtrent lik tallet som definerer midten av intervallet. Ved å telle antall alternativer som faller inn i hvert intervall, vil vi lage et såkalt gruppert utvalg:

alternativer X 1 X 2 x s

frekvenser P 1 P 2 n s ,

Hvor x i- verdier av midten av intervallene, og n i- antall alternativer inkludert i Jeg-intervall (empiriske frekvenser).

Fra de innhentede dataene kan du beregne prøvegjennomsnittet og prøvestandardavviket σ B. La oss sjekke antakelsen om at populasjonen er fordelt etter en normallov med parametere M(X) = , D(X) = . Deretter kan du finne antall tall fra prøvestørrelsen P, som bør være i hvert intervall under denne forutsetningen (det vil si teoretiske frekvenser). For å gjøre dette, ved å bruke verditabellen til Laplace-funksjonen, finner vi sannsynligheten for å komme inn Jeg intervall:

Hvor og jeg Og b i- grenser Jeg-th intervall. Ved å multiplisere de oppnådde sannsynlighetene med prøvestørrelsen n, finner vi de teoretiske frekvensene: p i =n?p i. Vårt mål er å sammenligne de empiriske og teoretiske frekvensene, som selvfølgelig er forskjellige fra hverandre, og å finne ut om disse forskjellene er ubetydelige, ikke avkrefter hypotesen om en normalfordeling av den tilfeldige variabelen som studeres, eller er de så store at de motsier denne hypotesen. Til dette formål brukes et kriterium i form av en tilfeldig variabel

Dens betydning er åpenbar: delene som kvadratene til avvikene til empiriske frekvenser fra teoretiske utgjør fra de tilsvarende teoretiske frekvensene, summeres opp. Det kan bevises at, uavhengig av den reelle fordelingsloven for den generelle befolkningen, tenderer fordelingsloven til den tilfeldige variabelen (20.1) til fordelingsloven (se forelesning 12) med antall frihetsgrader k = s - 1 - r, Hvor r- antall parametere for den forventede fordelingen estimert fra prøvedataene. Normalfordelingen er derfor preget av to parametere k = s - 3. For det valgte kriteriet konstrueres et høyresidig kritisk område, bestemt av tilstanden


Hvor α - Signifikansnivå. Følgelig er det kritiske området gitt av ulikheten og området for aksept av hypotesen er .

Så for å teste nullhypotesen N 0: populasjonen er normalfordelt - du må beregne den observerte verdien av kriteriet fra utvalget:

og bruk tabellen over kritiske punkter i fordelingen χ 2, finn det kritiske punktet ved å bruke kjente verdier av α og k = s - 3. Hvis - nullhypotesen aksepteres, hvis den forkastes.

2. Teste hypotesen om jevn fordeling.

Når du bruker Pearson-kriteriet for å teste hypotesen om den ensartede fordelingen av befolkningen med estimert sannsynlighetstetthet

Det er nødvendig, etter å ha beregnet verdien fra den tilgjengelige prøven, å estimere parametrene EN Og b i henhold til formlene:

Hvor EN* Og b*- vurderinger EN Og b. Faktisk for jevn fordeling M(X) = , , hvorfra man kan få et system for å bestemme EN* Og b*: , hvis løsning er uttrykk (20.3).

Så, forutsatt at , kan vi finne de teoretiske frekvensene ved å bruke formlene

Her s- antall intervaller prøven er delt inn i.

Den observerte verdien av Pearson-kriteriet beregnes ved hjelp av formelen (20.1`), og den kritiske verdien beregnes ved hjelp av tabellen, tatt i betraktning det faktum at antall frihetsgrader k = s - 3. Etter dette bestemmes grensene for det kritiske området på samme måte som for å teste hypotesen om normalfordeling.

3. Teste hypotesen om eksponentialfordelingen.

I dette tilfellet, etter å ha delt den eksisterende prøven i intervaller med lik lengde, vurderer vi sekvensen av alternativer, likt fordelt fra hverandre (vi antar at alle alternativer som faller inn i Jeg intervall, ta en verdi som faller sammen med midten), og deres tilsvarende frekvenser n i(antall eksempelalternativer inkludert i Jeg-te intervall). La oss beregne ut fra disse dataene og ta som et estimat av parameteren λ størrelse. Deretter beregnes de teoretiske frekvensene ved hjelp av formelen

Deretter sammenlignes den observerte og kritiske verdien av Pearson-kriteriet, tar hensyn til det faktum at antall frihetsgrader k = s - 2.

Bruken av dette kriteriet er basert på bruken av et slikt mål (statistikk) for avviket mellom det teoretiske F(x) og empirisk distribusjon F* P (x) , som tilnærmet følger fordelingsloven χ 2 . Hypotese N 0 Konsistensen av fordelingene kontrolleres ved å analysere fordelingen av denne statistikken. Anvendelse av kriteriet krever konstruksjon av en statistisk serie.

Så la prøven presenteres statistisk ved siden av antall sifre M. Observert trefffrekvens Jeg- rang n Jeg. I henhold til den teoretiske distribusjonsloven er forventet trefffrekvens inn Jeg-kategorien er F Jeg. Forskjellen mellom observert og forventet frekvens vil være ( n JegF Jeg). For å finne den generelle graden av avvik mellom F(x) Og F* P (x) det er nødvendig å beregne den vektede summen av kvadrerte forskjeller over alle sifrene i den statistiske serien

Verdi χ 2 med ubegrenset forstørrelse n har en χ 2-fordeling (asymptotisk fordelt som χ 2). Denne fordelingen avhenger av antall frihetsgrader k, dvs. antall uavhengige verdier av begrepene i uttrykket (3.7). Antall frihetsgrader er lik antallet y minus antall lineære relasjoner som er pålagt prøven. En sammenheng eksisterer på grunn av det faktum at enhver frekvens kan beregnes fra totalen av frekvenser i de resterende M–1 siffer. I tillegg, hvis distribusjonsparametrene ikke er kjent på forhånd, er det en annen begrensning på grunn av tilpasning av distribusjonen til prøven. Hvis prøven bestemmer S distribusjonsparametere, så blir antallet frihetsgrader k= MS–1.

Hypotese Aksept Area N 0 bestemmes av betingelsen χ 2 < χ 2 (k; en) , hvor χ 2 (k; en) – kritisk punkt for χ2-fordelingen med signifikansnivå en. Sannsynligheten for en type I feil er en, sannsynligheten for en type II feil kan ikke defineres klart, fordi det er et uendelig stort antall forskjellige måter som distribusjoner kanskje ikke samsvarer med. Kraften til testen avhenger av antall sifre og prøvestørrelse. Kriteriet anbefales brukt når n>200, bruk er tillatt når n>40, er det under slike forhold at kriteriet er gyldig (som regel forkaster det den uriktige nullhypotesen).

Algoritme for kontroll etter kriterium

1. Konstruer et histogram ved å bruke en lik sannsynlighetsmetode.

2. Sett frem en hypotese basert på utseendet til histogrammet

H 0: f(x) = f 0 (x),

H 1: f(x) ¹ f 0 (x),

Hvor f 0 (x) - sannsynlighetstetthet for en hypotetisk distribusjonslov (for eksempel uniform, eksponentiell, normal).

Kommentar. Hypotesen om eksponentialfordelingsloven kan settes frem dersom alle tallene i utvalget er positive.

3. Beregn verdien av kriteriet ved hjelp av formelen

,

Hvor
treffsrate Jeg-th intervall;

s Jeg- teoretisk sannsynlighet for at en tilfeldig variabel faller inn i Jeg- th intervall forutsatt at hypotesen H 0 er riktig.

Formler for beregning s Jeg når det gjelder eksponentielle, ensartede og normale lover, er de henholdsvis like.

eksponentiell lov

. (3.8)

Hvori EN 1 = 0, B m = +¥.

Ensartet lov

Normal lov

. (3.10)

Hvori EN 1 = -¥, B M = +¥.

Notater. Etter å ha beregnet alle sannsynlighetene s Jeg sjekk om referanserelasjonen er oppfylt

Funksjon Ф( X) - merkelig. Ф(+¥) = 1.

4. Velg verdien fra Chi-square-tabellen i vedlegget
, hvor a er det angitte signifikansnivået (a = 0,05 eller a = 0,01), og k- antall frihetsgrader, bestemt av formelen

k = M - 1 - S.

Her S- antall parametere som den valgte hypotesen avhenger av H 0 fordelingslov. Verdier S for den ensartede loven er det 2, for den eksponentielle loven er det 1, for normalloven er det 2.

5. Hvis
, deretter hypotesen H 0 er avvist. Ellers er det ingen grunn til å avvise det: med sannsynlighet 1 - b er det sant, og med sannsynlighet - b er det feil, men verdien av b er ukjent.

Eksempel 3 . 1. Bruk kriterium c 2, fremsett og test en hypotese om fordelingsloven til en stokastisk variabel X, hvis variasjonsserier, intervalltabeller og distribusjonshistogrammer er gitt i eksempel 1.2. Signifikansnivået a er 0,05.

Løsning . Basert på utseendet til histogrammer legger vi frem hypotesen om at den tilfeldige variabelen X fordelt etter normalloven:

H 0: f(x) = N(m, s);

H 1: f(x) ¹ N(m, s).

Verdien av kriteriet beregnes ved hjelp av formelen:

(3.11)

Som nevnt ovenfor, når du tester en hypotese, er det å foretrekke å bruke et like sannsynlighetshistogram. I dette tilfellet

Teoretiske sannsynligheter s Jeg Vi regner med formel (3.10). Samtidig tror vi det

s 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

0,5(-0,845+1) = 0,078.

s 2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

s 3 = 0,094; s 4 = 0,135; s 5 = 0,118; s 6 = 0,097; s 7 = 0,073; s 8 = 0,059; s 9 = 0,174;

s 10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

Etter dette kontrollerer vi oppfyllelsen av kontrollforholdet

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Etter dette velger du den kritiske verdien fra "Chi-square"-tabellen

.

Fordi
deretter hypotesen H 0 er akseptert (det er ingen grunn til å avvise den).

Pearsons χ 2-test er en ikke-parametrisk metode som lar oss vurdere betydningen av forskjeller mellom det faktiske (avslørte) antallet utfall eller kvalitative karakteristika for utvalget som faller inn i hver kategori, og det teoretiske antallet som kan forventes i det studerte. grupper hvis nullhypotesen er sann. For å si det enkelt lar metoden deg evaluere den statistiske signifikansen av forskjeller mellom to eller flere relative indikatorer (frekvenser, proporsjoner).

1. Historie om utviklingen av χ 2-kriteriet

Chi-kvadrat-testen for å analysere beredskapstabeller ble utviklet og foreslått i 1900 av en engelsk matematiker, statistiker, biolog og filosof, grunnleggeren av matematisk statistikk og en av grunnleggerne av biometri. Karl Pearson(1857-1936).

2. Hvorfor brukes Pearsons χ 2-test?

Kjikvadrattesten kan brukes i analysen beredskapstabeller som inneholder informasjon om hyppigheten av utfall avhengig av tilstedeværelsen av en risikofaktor. For eksempel, firefelts beredskapstabell følgende:

Det er et resultat (1) Ingen utfall (0) Total
Det er en risikofaktor (1) EN B A+B
Ingen risikofaktor (0) C D C+D
Total A+C B+D A+B+C+D

Hvordan fylle ut en slik beredskapstabell? La oss se på et lite eksempel.

Det gjennomføres en studie om effekten av røyking på risikoen for å utvikle arteriell hypertensjon. For dette formålet ble to grupper av forsøkspersoner valgt - den første inkluderte 70 personer som røyker minst 1 pakke sigaretter daglig, den andre inkluderte 80 ikke-røykere på samme alder. I den første gruppen hadde 40 personer høyt blodtrykk. I den andre ble arteriell hypertensjon observert hos 32 personer. Normalt blodtrykk i gruppen røykere var følgelig hos 30 personer (70 - 40 = 30) og i gruppen ikke-røykere - hos 48 (80 - 32 = 48).

Vi fyller ut beredskapstabellen med fire felter med de første dataene:

I den resulterende beredskapstabellen tilsvarer hver linje en bestemt gruppe fag. Kolonner viser antall personer med arteriell hypertensjon eller normalt blodtrykk.

Oppgaven som stilles til forskeren er: er det statistisk signifikante forskjeller mellom hyppigheten av personer med blodtrykk blant røykere og ikke-røykere? Dette spørsmålet kan besvares ved å beregne Pearsons kjikvadrattest og sammenligne den resulterende verdien med den kritiske.

3. Betingelser og begrensninger for bruk av Pearson kjikvadrattest

  1. Sammenlignbare indikatorer skal måles i nominell skala(for eksempel er pasientens kjønn mann eller kvinne) eller i ordinær(for eksempel graden av arteriell hypertensjon, tar verdier fra 0 til 3).
  2. Denne metoden lar deg analysere ikke bare firefeltstabeller, når både faktoren og utfallet er binære variabler, det vil si at de bare har to mulige verdier (for eksempel mannlig eller kvinnelig kjønn, tilstedeværelse eller fravær av en viss sykdom i anamnesen...). Pearson kjikvadrat-testen kan også brukes i tilfelle av å analysere flerfeltstabeller, når en faktor og (eller) utfall tar tre eller flere verdier.
  3. Gruppene som sammenlignes må være uavhengige, det vil si at kjikvadrattesten ikke skal brukes når man sammenligner før-etter-observasjoner. McNemar test(når man sammenligner to relaterte populasjoner) eller beregnet Cochrans Q-test(ved sammenligning av tre eller flere grupper).
  4. Ved analyse av firefeltstabeller forventede verdier i hver celle må det være minst 10. Hvis det forventede fenomenet i minst én celle har en verdi fra 5 til 9, må kjikvadrattesten beregnes med Yates' endring. Hvis det forventede fenomenet i minst én celle er mindre enn 5, bør analysen bruke Fishers eksakte test.
  5. Ved analyse av flerfeltstabeller bør det forventede antallet observasjoner ikke være mindre enn 5 i mer enn 20 % av cellene.

4. Hvordan beregne Pearson kjikvadrattest?

For å beregne kjikvadrattesten må du:

Denne algoritmen kan brukes for både firefelts- og flerfeltstabeller.

5. Hvordan tolke verdien av Pearson kjikvadrattest?

Hvis den oppnådde verdien av χ 2-kriteriet er større enn den kritiske verdien, konkluderer vi med at det er en statistisk sammenheng mellom den studerte risikofaktoren og utfallet på passende signifikansnivå.

6. Eksempel på beregning av Pearson kjikvadrattest

La oss bestemme den statistiske signifikansen av påvirkningen av røykefaktoren på forekomsten av arteriell hypertensjon ved å bruke tabellen diskutert ovenfor:

  1. Vi beregner de forventede verdiene for hver celle:
  2. Finn verdien av Pearson kjikvadrattest:

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Antall frihetsgrader f = (2-1)*(2-1) = 1. Ved hjelp av tabellen finner vi den kritiske verdien til Pearson kjikvadrattest, som på signifikansnivået p=0,05 og tallet av frihetsgrader 1 er 3,841.
  4. Vi sammenligner den oppnådde verdien av kjikvadrattesten med den kritiske: 4,396 > 3,841, derfor er avhengigheten av forekomsten av arteriell hypertensjon på tilstedeværelsen av røyking statistisk signifikant. Signifikansnivået til dette forholdet tilsvarer s<0.05.