Eksempel på Fechner-korrelasjonskoeffisient. Korrelasjons- og regresjonsanalyse. Kendalls rangkorrelasjonskoeffisient

Når det er en korrelasjon, sammen med faktoren som studeres eller flere faktorer i tilfelle multippel korrelasjon, påvirkes det resulterende tegnet av andre faktorer som ikke tas i betraktning eller som ikke kan tas nøyaktig i betraktning. I dette tilfellet kan deres handling være rettet både mot å øke den effektive egenskapen og mot å redusere den. Så, studiet av en forbindelse skjer under forhold der denne forbindelsen i større eller mindre grad er skjult av den motstridende handlingen av andre årsaker. Derfor er en av oppgavene med korrelasjonsanalyse å bestemme nærheten til forbindelsen mellom egenskaper, for å bestemme styrken til påvirkningen av den studerte faktoren (faktorene) på den resulterende karakteristikken.

Nærheten til forbindelsen i korrelasjonsanalyse er karakterisert ved å bruke en spesiell relativ indikator, som kalles korrelasjonskoeffisient.

Med en lineær paravhengighet bestemmes tettheten til forbindelsen ved å bruke den lineære korrelasjonskoeffisienten

Korrelasjonskoeffisienten varierer fra 0 Til±1. c Hvis korrelasjonskoeffisienten er null, er det ingen sammenheng, og hvis den er en, så er sammenhengen funksjonell. Tegnet på korrelasjonskoeffisienten indikerer retningen til forbindelsen ("+" - rett"-" - omvendt). Jo nærmere korrelasjonskoeffisienten er én, jo nærmere forholdet mellom egenskapene.

Kvadraten til korrelasjonskoeffisienten kalles bestemmelseskoeffisienten (r2). Den viser hvilken andel av den totale variasjonen av den resulterende karakteristikken som bestemmes av faktoren som studeres. Hvis bestemmelseskoeffisienten uttrykkes i prosent, bør den leses som følger: variasjonen (svingningene) av den avhengige variabelen med så mange prosenter skyldes variasjonen av faktoren.

Mellom den lineære korrelasjonskoeffisienten (r) og den fulle regresjonskoeffisienten(b) forbindelse:

Derfor, å kjenne korrelasjonskoeffisienten (r) og verdiene av standardavvik for X OgV du kan bestemme regresjonskoeffisienten (b) og omvendt, ved å kjenne regresjonskoeffisienten (b) og de tilsvarende standardavvikene kan du beregne korrelasjonskoeffisienten (r).

Med en paret lineær avhengighet har korrelasjonskoeffisienten og den komplette regresjonskoeffisienten samme fortegn (pluss, minus).

Den lineære korrelasjonskoeffisienten er ment å vurdere graden av nærhet av sammenhengen med en lineær sammenheng. For tilfeller av ikke-lineære forhold mellom egenskaper, brukes en annen formel for korrelasjonskoeffisienten, som følger av regelen for å legge til varianser:

Fra den ovennevnte likheten er det klart at jo større innflytelsen en faktor har på den effektive egenskapen, desto mer nærmer dens variansverdi ("m.gr) verdien av den totale spredningen av den effektive egenskapen.

Følgelig, jo mer "m.gr og mindre ae.gr jo nærmere sammenhengen mellom egenskapene og omvendt. Følgelig brukes forholdet mellom intergruppe (faktorielle) og totale varianser for å vurdere styrken til forholdet mellom egenskaper. Korrelasjonskoeffisientformelen er:

Tatt i betraktning at shosg2ya = o-a-oglya!>, kan formelen for korrelasjonskoeffisienten representeres som

Begge korrelasjonskoeffisientformlene brukes til å beregne styrken til forbindelsen for enhver form for forbindelse.

Fra regelen for å legge til varians er det klart at verdien av korrelasjonskoeffisienten varierer fra 0 til 1. Tegnet til korrelasjonskoeffisienten er ikke utledet fra formelen. Hvis forholdet mellom to egenskaper studeres (parvis enkel korrelasjon), så bestemmes retningen av forholdet (tegnet før r) umiddelbart etter tegnet før regresjonskoeffisienten til den lineære ligningen.

Med en paret krumlinjet avhengighet bestemmes nærheten til forbindelsen med en lineær avhengighet ved å bruke en spesiell indikator som ligner på korrelasjonskoeffisienten r diskutert ovenfor.

Denne indikatoren (for å understreke dens tilhørighet til et krumlinjet forhold) er betegnet med symbolet u og kalt korrelasjonsindeksen:

Den numeriske verdien av korrelasjonsindeksen er lik korrelasjonskoeffisienten: if ig= 1 - tilkoblingen er funksjonell hvis ig= 0 - ingen forbindelse; Jo nærmere u er enhet, jo tettere er forbindelsen mellom egenskapene.

Hvis regresjonskoeffisientene til kommunikasjonsligningen er kjent, kan korrelasjonsindeksen bestemmes ved hjelp av en annen, enklere formel. Dermed, med en parabolsk avhengighet, kan korrelasjonsindeksformelen representeres som

Styrken på forbindelsen i multippelkorrelasjon bestemmes ved hjelp av mu(ee) og koeffisient for multippel bestemmelse (її2). Innholdsmessig ligner de på koeffisientene for korrelasjon og bestemmelse i parvis kommunikasjon. deres beregninger er basert på en sammenligning av intergruppe (faktorielle) og totale varianser:

Denne formelen kan brukes for å bestemme tettheten til forbindelsen for enhver form for forbindelse.

RF-verdi varierer fra 0 til 1 og anses som positiv, siden med flere avhengigheter kan forholdet til den resulterende karakteristikken med noen faktorer være positivt, og med andre - negativt.

For tilfellet med avhengighet av den resulterende karakteristikken av to faktorer, har formelen for multiple korrelasjonskoeffisienten formen

hvor Gi er sammenkoblede lineære korrelasjonskoeffisienter.

Den gitte formelen brukes til å bestemme tettheten til forbindelsen for et lineært forhold.

For å bestemme nærheten til forbindelsen mellom den effektive karakteristikken og hver faktor, når påvirkningen fra andre faktorer er ekskludert, bestemmes partielle korrelasjonskoeffisienter, som karakteriserer faktorens "rene" påvirkning på den effektive karakteristikken. For å beregne dem brukes sammenkoblede korrelasjonskoeffisienter.

Hvis den resulterende karakteristikken avhenger av to faktorer (x1 og x2), kan tre partielle korrelasjonskoeffisienter beregnes:

1) mellom V og x1 unntatt påvirkning av x2:

Korrelasjonskoeffisienter for parede og multiple forbindelser, samt korrelasjonsindeksen, er relative verdier, så de kan brukes til å sammenligne styrken til forbindelser for flere fenomener som blir analysert.

Det bør tas i betraktning at indikatorene for nærhet til forbindelsen avhenger av omfanget av variasjon av egenskapene som studeres. Jo større variasjonen av variablene er, desto høyere er verdien av indikatorene for nærhet til forbindelsen.

La oss bestemme nærheten til forbindelsen mellom de studerte egenskapene for vårt eksempel. Siden det er en lineær sammenheng mellom produktiviteten til kyrne og fôringsnivået, vil vi bestemme nærheten til forholdet ved å bruke den lineære korrelasjonskoeffisienten

Korrelasjonskoeffisienten viser at det er en nær (sterk) sammenheng mellom produktiviteten til kyrne og fôringsnivået.

Bestemmelseskoeffisienten r2 = 0,93442 = 0,8731 viser at 87,31 % av den totale variasjonen i kuproduktivitet skyldes forskjeller i fôringsnivået, og de resterende 12,69 % (100 - 87,31) skyldes andre faktorer som ikke ligger i dette. saken ble tatt i betraktning.

Korrelasjonskoeffisienten kan finnes ved å bruke andre formler.

Og noen rangeringskoeffisienter

I tillegg til de som er omtalt i underkapittel. 10,2 koeffisient av kor-

Relasjon, bestemmelseskoeffisient, korrelasjon

Iført, er det andre koeffisienter for evaluering

Graden av nærhet til korrelasjonen mellom de studerte

Fenomener, og formelen for å finne dem er nok

Enkel. La oss se på noen av disse koeffisientene.

Fechner-tegnkorrelasjonskoeffisient

Denne koeffisienten er den enkleste indikatoren

Graden av nærhet til forbindelse, ble det foreslått av en tysk vitenskapsmann

G. Fechner. Denne indikatoren er basert på en vurdering av graden

Konsistens av retninger for individuelle avvik

Verdiene til faktoren og resulterende egenskaper fra de tilsvarende

Relevante gjennomsnittsverdier. For å bestemme det, beregn

Gjennomsnittsverdiene for den resulterende () og faktorielle () vises.

tegn, og finn deretter tegn på avvik fra gjennomsnittet for

Alle verdier for de resulterende og faktoregenskapene. Hvis

verdien som sammenlignes er større enn gjennomsnittet, deretter plasseres et "+"-tegn,

og hvis mindre - "-"-tegnet. Matching av karakterer for individ

serieverdier x og y betyr konsekvent variasjon, og deres

Inkonsekvens er et brudd på konsistens.

Fechner-koeffisienten er funnet ved å bruke følgende formel:

, (10.40)

Hvor MED- antall treff på individuelle avvikstegn

Nye verdier fra gjennomsnittsverdien;

N er antall avvik i tegn på avvik hos individ

Nye verdier fra gjennomsnittsverdien.

Merk at -1 ≤ Kf≤ 1. Når Kf= ±1 vi har en fullstendig direkte

gjensidig eller omvendt konsistens. På Kf= 0 - forbindelse mellom

Det er ingen rader med observasjoner.

Ved å bruke de første dataene i eksempel 10.1, beregner vi koeffisienten

Ent Fechner. De nødvendige dataene for å bestemme plasseringen er

tim i tabellen. 10.4.

Fra bordet 10.4 finner vi det MED= 6; N= 0, derfor i henhold til form-

le (10.40) får vi: , dvs. en fullstendig direkte avhengighet

mellom våpentyverier ( X) og væpnede kriminelle

yami ( y). Mottatt verdi Kf bekrefter konklusjonen

Etter å ha beregnet korrelasjonskoeffisienten er det klart at

Det er en ganske tett rett linje mellom radene x og y

Lineær avhengighet.

Tabell 10.4

Tyveri

våpen, x

Bevæpnet

forbrytelser, y

Tegn på avvik fra gjennomsnittet

773 4481 − −

1130 9549 − −

1138 8873 − −

1336 12160 + +

1352 18059 + +

1396 19154 + +

Spearmans rangkorrelasjonskoeffisient

Denne koeffisienten refererer til rangering, dvs. korrelasjon

Det er ikke verdiene til faktoren og de resulterende verdiene selv som bestemmes;

Tegn og deres rangeringer (antall på plassene deres i hver rad

Verdier i stigende eller synkende rekkefølge). Kor-

Spearmans rangforhold er basert på å vurdere forskjellen

Rangering av faktor og resulterende egenskaper verdier. Til

for å finne det, brukes følgende formel:

, (10.41)

Hvor er kvadratet av rangeringsforskjellen.

La oss beregne Spearman-koeffisienten basert på dataene

Eksempel 10.1. Siden verdien av faktor anerkjennelse

ka X vi ordnet dem først i stigende rekkefølge, deretter raden X løp-

ingen grunn til å fete. Vi rangerer (fra minste til største) serien y.

Alle nødvendige data for beregningen er plassert i tabellen. 10.5.

Tabell 10.5

Rangerer Rgx rad X Rangerer Rgy rad y|di| = |RgxiRgyi|

Nå, ved å bruke formel (10.41), får vi

Legg merke til at -1 ≤ ρ c≤ 1, dvs. den resulterende verdien viser

Det er sant at mellom våpentyveri og væpnet kriminalitet

Generell forståelse av korrelasjons-regresjonsanalyse

Formene og typene av sammenhenger som eksisterer mellom fenomener er svært forskjellige i deres klassifisering. er bare de som er kvantitative i naturen og studeres ved hjelp av kvantitative metoder. La oss vurdere metoden for korrelasjonsregresjonsanalyse, som er grunnleggende i studiet av sammenhengene mellom fenomener.

Denne metoden inneholder dens to bestanddeler— korrelasjonsanalyse og regresjonsanalyse. Korrelasjonsanalyse er en kvantitativ metode for å bestemme styrken og retningen til forholdet mellom utvalgsvariabler. Regresjonsanalyse er en kvantitativ metode for å bestemme typen matematisk funksjon i årsak-virkningsforholdet mellom variabler.

For å vurdere styrken til en sammenheng i korrelasjonsteorien brukes den engelske statistikeren Chaddock-skalaen: svak - fra 0,1 til 0,3; moderat - fra 0,3 til 0,5; merkbar - fra 0,5 til 0,7; høy - fra 0,7 til 0,9; veldig høy (sterk) - fra 0,9 til 1,0. Den brukes videre i eksempler om emnet.

Lineær korrelasjon

Denne korrelasjonen karakteriserer en lineær sammenheng i variasjonene av variabler. Det kan være paret (to korrelerte variabler) eller multiple (mer enn to variabler), direkte eller invers - positiv eller negativ, når variablene varierer i samme eller forskjellige retninger.

Hvis variablene er kvantitative og ekvivalente i deres uavhengige observasjoner med deres totale antall, så er de viktigste empiriske målene for nærhet av deres lineære forhold koeffisienten for direkte korrelasjon av tegn til den østerrikske psykologen G.T. Fechner (1801-1887) og koeffisienter for paret, ren (privat) og multippel (kumulativ) korrelasjon til den engelske statistikeren-biometrikeren K. Pearson (1857-1936).

Fechner tegnpar korrelasjonskoeffisient bestemmer konsistensen av retninger i individuelle avvik av variabler fra deres gjennomsnitt og . Det er lik forholdet mellom forskjellen mellom summene av samsvarende () og mismatchende () tegnpar i avvik og til summen av disse summene:

Omfanget Kf varierer fra -1 til +1. Summeringen i (1) er gjort over observasjoner som for enkelhets skyld ikke er oppført i summene. Hvis noen avvik eller , er det ikke inkludert i beregningen. Hvis begge avvikene er null på en gang: , anses et slikt tilfelle å ha samme fortegn og inngår i . I tabell 12.1. viser utarbeidelse av data for beregning (1).

Tabell 12.1 Data for beregning av Fechner-koeffisienten.

Antall ansatte, tusen mennesker

Handelsomsetning, c.u.

Avvik fra gjennomsnittet

Sammenligning av skilt og

tilfeldighet
(Fra til)

mismatch (N k)

Ved (1) har vi Kf = (3 - 2)/(3 + 2) = 0,20. Relasjonsretningen i variasjonene!!Gjennomsnittlig antall ansatte|antall ansatte]] og er positiv (rett frem): fortegnene i avvikene og og i flertallet (i 3 tilfeller av 5) sammenfaller med hverandre. Nærheten til forholdet mellom variabler på Chaddock-skalaen er svak.

Pearsons par, rene (partielle) og multiple (totale) lineære korrelasjonskoeffisienter, i motsetning til Fechner-koeffisienten, tar ikke bare hensyn til tegnene, men også størrelsen på avvikene til variablene. Det brukes ulike metoder for å beregne dem. Således, i henhold til den direkte tellemetoden for ugrupperte data, har Pearson-parets korrelasjonskoeffisient formen:

Denne koeffisienten varierer også fra -1 til +1. Hvis det er flere variabler, beregnes Pearsons multiple (kumulative) lineære korrelasjonskoeffisient. For tre variabler x, y, z det ser ut som

Denne koeffisienten varierer fra 0 til 1. Hvis vi eliminerer (helt utelukker eller fikser på et konstant nivå) påvirkningen på og , vil deres "generelle" forhold bli til en "ren" og danne en ren (delvis) Pearson lineær korrelasjon koeffisient:

Denne koeffisienten varierer fra -1 til +1. Kvadratene til korrelasjonskoeffisientene (2)-(4) kalles bestemmelseskoeffisienter (indekser) - henholdsvis par, rent (spesielt), multiple (totalt):

Hver av bestemmelseskoeffisientene varierer fra 0 til 1 og evaluerer graden av variasjonssikkerhet i det lineære forholdet til variabler, og viser andelen variasjon i en variabel (y) på grunn av variasjonen til de andre (andre) - x og y . Det multivariate tilfellet med mer enn tre variabler er ikke vurdert her.

I følge utviklingen til den engelske statistikeren R.E. Fisher (1890-1962), den statistiske signifikansen av parede og rene (partielle) Pearson-korrelasjonskoeffisienter sjekkes hvis fordelingen deres er normal, basert på fordelingen til den engelske statistikeren V.S. Gosset (pseudonym "Student"; 1876-1937) med et gitt nivå av sannsynlighetsbetydning og tilgjengelig frihetsgrad, hvor er antall sammenhenger (faktorvariabler). For en paret koeffisient har vi dens rotmiddel-kvadratfeil og den faktiske verdien av studentens t-test:

For en ren korrelasjonskoeffisient, når du beregner den, i stedet for (n-2), er det nødvendig å ta , fordi i dette tilfellet er det m=2 (to faktorvariabler x og z). For et stort antall n>100, i stedet for (n-2) eller (n-3) i (6), kan du ta n, og neglisjerer nøyaktigheten av beregningen.

Hvis t r > t tabell, da er parkorrelasjonskoeffisienten - total eller ren - statistisk signifikant, og når t r ≤ t tab.- ubetydelig.

Betydningen av den multiple korrelasjonskoeffisienten R kontrolleres av F— Fisher-kriterium ved å beregne dens faktiske verdi

F R > F-kategorien. koeffisienten R anses som signifikant med et gitt signifikansnivå a og tilgjengelige frihetsgrader og , og ved F r ≤ F-tabell- ubetydelig.

I store populasjoner n > 100 brukes normalfordelingsloven (tabellert Laplace-Sheppard-funksjon) direkte for å vurdere betydningen av alle Pearson-koeffisienter i stedet for t- og F-testene.

Til slutt, hvis Pearson-koeffisientene ikke overholder normalloven, brukes Z som et kriterium for deres betydning - Fishers test, som ikke vurderes her.

Eksempel på betinget regnestykke(2) - (7) er gitt i tabellen. 12.2, der de første dataene i tabell 12.1 er tatt med tillegg av en tredje variabel z - størrelsen på det totale arealet til butikken (100 kvm).

Tabell 12.2.Forberede data for beregning av Pearson-korrelasjonskoeffisienter

Indikatorer

I følge (2) - (5) er Pearsons lineære korrelasjonskoeffisienter lik:

Forholdet mellom variabler x Og y er positiv, men ikke nær, tilsvarer en størrelse basert på deres sammenkoblede korrelasjonskoeffisient og en størrelse basert på den rene korrelasjonskoeffisienten, og ble vurdert på Chaddock-skalaen, henholdsvis som "merkbar" og "svak".

Bestemmelseskoeffisienter d xy = 0,354 Og dxy. z = 0,0037 indikerer at variasjonen (omsetning) skyldes lineær variasjon x(antall ansatte) av 35,4% i deres generelle innbyrdes forhold og i ren innbyrdes sammenheng - bare på 0,37% . Denne situasjonen skyldes den betydelige innvirkningen på x Og y tredje variabel z— totalt areal okkupert av butikker. Nærheten til forholdet til dem er hhv. r xz = 0,677 og r yz = 0,844.

Den multiple (kumulative) korrelasjonskoeffisienten av tre variabler viser at nærhet til det lineære forholdet x Og z c y beløper seg til R = 0,844, vurdert på Chaddock-skalaen som "høy", og muer verdien D=0,713, som indikerer det 71,3 % hele variasjonen (handelsomsetning) bestemmes av den kumulative innvirkningen av variabler på den x Og z. Hvile 28,7% på grunn av påvirkning på y andre faktorer eller et krumlinjet forhold mellom variabler y, x, z.

For å vurdere betydningen av korrelasjonskoeffisienter tar vi signifikansnivået. I følge de første dataene har vi frihetsgrader for og for . I følge den teoretiske tabellen finner vi henholdsvis t tabell 1. = 3,182 og t tabell 2. = 4,303. For F-testen har vi og og fra tabellen finner vi F-tabell. = 19,0. De faktiske verdiene for hvert kriterium i henhold til (6) og (7) er lik:

Alle beregnede kriterier er mindre enn tabellverdiene deres: alle Pearson-korrelasjonskoeffisienter er statistisk insignifikante.

Korrelasjonskoeffisienten, foreslått i andre halvdel av 1800-tallet av G. T. Fechner, er det enkleste målet på forholdet mellom to variabler. Den er basert på en sammenligning av to psykologiske egenskaper x Jeg Og y Jeg, målt på samme prøve, ved å sammenligne tegn på avvik av individuelle verdier fra gjennomsnittet: og
. Konklusjonen om korrelasjonen mellom to variabler er laget basert på å telle antall treff og mismatcher av disse tegnene.

Eksempel

La x Jeg Og y Jeg– to egenskaper målt på samme utvalg av forsøkspersoner. For å beregne Fechner-koeffisienten, er det nødvendig å beregne gjennomsnittsverdiene for hver karakteristikk, så vel som for hver verdi av variabelen - tegnet på avviket fra gjennomsnittet (tabell 8.1):

Tabell 8.1

x Jeg

y Jeg

Betegnelse

I bordet: EN- tilfeldighet av tegn, b- uoverensstemmelse mellom tegn; n et – antall kamper, n b – antall uoverensstemmelser (i dette tilfellet n a = 4, n b = 6).

Fechner-korrelasjonskoeffisienten beregnes ved å bruke formelen:

(8.1)

I dette tilfellet:

Konklusjon

Det er en svak negativ sammenheng mellom de studerte variablene.

Det skal bemerkes at Fechner-korrelasjonskoeffisienten ikke er et tilstrekkelig strengt kriterium, så den kan bare brukes i det innledende stadiet av databehandling og for å formulere foreløpige konklusjoner.

8. 4. Pearson korrelasjonskoeffisient

Det opprinnelige prinsippet for Pearson-korrelasjonskoeffisienten er bruken av produktet av momenter (avvik av verdien av en variabel fra gjennomsnittsverdien):

Hvis summen av produktene av øyeblikk er stor og positiv, da X Og er direkte relatert; hvis summen er stor og negativ, da X Og sterkt omvendt relatert; til slutt, hvis det ikke er noen sammenheng mellom x Og summen av produktene av momentene er nær null.

For å sikre at statistikken ikke er avhengig av prøvestørrelsen, tas gjennomsnittsverdien i stedet for summen av produktene av øyeblikkene. Inndelingen gjøres imidlertid ikke etter utvalgsstørrelsen, men etter antall frihetsgrader n - 1.

Omfanget
er et mål på sammenhengen mellom X Og og kalles kovarians X Og .

I mange problemstillinger innen natur- og teknisk vitenskap er kovarians et helt tilfredsstillende mål på sammenheng. Ulempen er at området til verdiene ikke er fast, det vil si at det kan variere innenfor ubestemte grenser.

For å standardisere et mål på assosiasjon er det nødvendig å frigjøre kovariansen fra påvirkning av standardavvik. For å gjøre dette må du dele S xys x og s y:

(8.3)

Hvor r xy- korrelasjonskoeffisient, eller produkt av Pearson-momenter.

Den generelle formelen for beregning av korrelasjonskoeffisienten er som følger:

(noen konverteringer)

(8.4)

Påvirkning av datakonvertering på r xy:

1. Lineære transformasjoner x Og y type bx + en Og dy + c vil ikke endre størrelsen på korrelasjonen mellom x Og y.

2. Lineære transformasjoner x Og yb < 0, d> 0, og også når b> 0 og d < 0 изменяют знак коэффициента корреляции, не меняя его величины.

Reliabiliteten (eller på annen måte statistisk signifikans) til Pearson-korrelasjonskoeffisienten kan bestemmes på forskjellige måter:

I henhold til tabellene over kritiske verdier for Pearson- og Spearman-korrelasjonskoeffisientene (se vedlegg, tabell XIII). Hvis verdien oppnådd i beregningene r xy overskrider den kritiske (tabell)verdien for en gitt prøve, anses Pearson-koeffisienten som statistisk signifikant. Antall frihetsgrader i dette tilfellet tilsvarer n– 2, hvor n– antall par sammenlignede verdier (prøvestørrelse).

I følge tabell XV i vedlegget, som har tittelen "Antall verdipar som kreves for den statistiske signifikansen til korrelasjonskoeffisienten." I dette tilfellet er det nødvendig å fokusere på korrelasjonskoeffisienten oppnådd i beregningene. Det anses som statistisk signifikant hvis prøvestørrelsen er lik eller større enn det tabellerte antallet verdipar for en gitt koeffisient.

I henhold til Student-koeffisienten, som beregnes som forholdet mellom korrelasjonskoeffisienten og feilen:

(8.5)

Korrelasjonskoeffisientfeil beregnet ved hjelp av følgende formel:

Hvor m r - korrelasjonskoeffisientfeil, r- korrelasjonskoeffisient; n- antall par som sammenlignes.

La oss vurdere prosedyren for beregninger og bestemmelse av den statistiske signifikansen til Pearson-korrelasjonskoeffisienten ved å bruke eksemplet for å løse følgende problem.

Oppgaven

22 videregående elever ble testet på to tester: USK (nivå av subjektiv kontroll) og MkU (motivasjon for suksess). Følgende resultater ble oppnådd (tabell 8.2):

Tabell 8.2

USK ( x Jeg)

MkU ( y Jeg)

USK ( x Jeg)

MkU ( y Jeg)

Trening

For å teste hypotesen om at personer med et høyt nivå av internalitet (USC-score) er preget av høy motivasjon for å lykkes.

Løsning

1. Vi bruker Pearson-korrelasjonskoeffisienten i følgende modifikasjon (se formel 8.4):

For enkelhets skyld med databehandling på en mikrokalkulator (i mangel av nødvendig dataprogram), anbefales det å lage en mellomliggende arbeidstabell i følgende form (tabell 8.3):

Tabell 8.3

x Jeg y Jeg

x 1 y 1

x 2 y 2

x 3 y 3

x n y n

Σ x Jeg y Jeg

2. Vi utfører beregninger og erstatter verdiene i formelen:

3. Vi bestemmer den statistiske signifikansen til Pearson-korrelasjonskoeffisienten på tre måter:

1. metode:

I tabellen XIII Vedlegg finner vi de kritiske verdiene til koeffisienten for 1. og 2. signifikansnivå: r cr.= 0,42; 0,54 (ν = n – 2 = 20).

Det konkluderer vi med r xy > r cr . , dvs. korrelasjonen er statistisk signifikant for begge nivåene.

2. metode:

La oss bruke tabellen. XV, der vi bestemmer antall verdipar (antall fag) som er tilstrekkelig for den statistiske signifikansen til Pearson-korrelasjonskoeffisienten lik 0,58: for 1., 2. og 3. signifikansnivå er den henholdsvis 12, 18 og 28.

Herfra konkluderer vi med at korrelasjonskoeffisienten er signifikant for 1. og 2. nivå, men "når ikke" 3. signifikansnivå.

3. metode:

Vi beregner feilen til korrelasjonskoeffisienten og Student-koeffisienten som forholdet mellom Pearson-koeffisienten og feilen:

I tabellen X finner vi standardverdiene til Studentkoeffisienten for 1., 2. og 3. signifikansnivå med antall frihetsgrader ν = n – 2 = 20: t cr. = 2,09; 2,85; 3,85.

Generell konklusjon

Korrelasjonen mellom indikatorene for USC- og MkU-testene er statistisk signifikant for 1. og 2. signifikansnivå.

Merk:

Når du tolker Pearson-korrelasjonskoeffisienten, må følgende punkter vurderes:

    Pearson-koeffisienten kan brukes for forskjellige skalaer (forhold, intervall eller ordinal) med unntak av den dikotome skalaen.

    En korrelasjon betyr ikke alltid en årsak-virkning-sammenheng. Med andre ord, hvis vi for eksempel fant en positiv korrelasjon mellom høyde og vekt i en gruppe forsøkspersoner, betyr ikke dette at høyden avhenger av vekt eller omvendt (begge disse egenskapene avhenger av en tredje (ekstern) variabel, som i dette tilfellet er assosiert med genetiske konstitusjonelle egenskaper til en person).

    r xu » 0 kan observeres ikke bare i fravær av forbindelse mellom x Og y, men også ved en sterk ikke-lineær forbindelse (fig. 8.2 a). I dette tilfellet er de negative og positive korrelasjonene balansert, noe som resulterer i en illusjon om ingen sammenheng.

    r xy kan være ganske liten hvis det er en sterk sammenheng mellom X Og observert i et smalere verdiområde enn det som ble studert (fig. 8.2 b).

    Kombinasjon av prøver med ulike midler kan skape en illusjon av en ganske høy korrelasjon (fig. 8.2 c).

y Jeg y Jeg y Jeg

+ + . .

x Jeg x Jeg x Jeg

Ris. 8.2. Mulige feilkilder ved tolkning av verdien av korrelasjonskoeffisienten (forklaringer i teksten (punkt 3 – 5 merknader))

De enkleste indikatorene på nærhet til en forbindelse inkluderer tegnkorrelasjonskoeffisienten - Fechner-koeffisienten. Denne indikatoren er basert på å vurdere graden av konsistens av retningene for avvik av individuelle verdier av faktor og resulterende egenskaper fra de tilsvarende gjennomsnittene. For å beregne det, beregnes gjennomsnittsverdiene for resultat- og faktorkarakteristikkene, og deretter tildeles avvikstegnene for alle verdier av forholdet mellom karakteristikker.

Hvor Kf er Fechner-koeffisienten; na er antall par der tegnene på avvik av verdier fra deres gjennomsnitt sammenfaller; nв er antallet par hvis tegn på avvik av verdier fra deres gjennomsnitt ikke sammenfaller.

Fechner-koeffisienten kan ta på seg forskjellige verdier fra -1 til +1. Hvis koeffisienten er nær +1, kan vi anta tilstedeværelsen av en direkte forbindelse, hvis -1, så tilstedeværelsen av tilbakemelding.

Resultatene av beregning av Fechner-koeffisienten for verksteder er presentert i tabell. 6.

Tabell 6

Verkstednummer

Fechner-forhold

Andre materialer

Analyse av virksomhetens produksjon og økonomiske aktiviteter
Innføringspraksis er en obligatorisk del av utdanningsløpet for opplæring av spesialister i økonomi. Praksisen ble utført ved Ural Steel OJSC-bedriften, i finansplanleggingsavdelingen. Leder av...

Statistisk studie av sosioøkonomiske fenomener
Begrepet "statistikk" har for tiden flere betydninger: ¨ statistikk refererer til den planlagte og systematiske registreringen av sosiale massefenomener, som utføres av statistiske organer; ¨ statistikk er...