Kolmogorov-Smirnov test: hva det er og hvordan det brukes i statistikk

I statistikk er parametriske og ikke-parametriske tester godt kjent og brukt. En mye brukt ikke-parametrisk test er Kolmogorov-Smirnov-testen., som lar oss bekrefte om prøveskårene følger en normalfordeling eller ikke.

Den tilhører gruppen av såkalte godhetstester. I denne artikkelen vil vi kjenne dens egenskaper, hva den er for og hvordan den brukes.

Relatert artikkel: "Chi-square (χ²) test: hva det er og hvordan det brukes i statistikk"

ikke-parametriske tester

Kolmogorov-Smirnov-testen er en type ikke-parametrisk test. Ikke-parametriske tester (også kalt gratis distribusjon) brukes i inferensiell statistikk, og har følgende egenskaper:

De foreslår hypoteser om god passform, uavhengighet ...
Målenivået for variablene er lavt (ordinalt).
De har ikke overdrevne restriksjoner.
De gjelder for små prøver.
De er robuste.

Kolmogorov-Smirnov test: egenskaper

Kolmogórov-Smirnov-testen er en av sine egne tilhørighet til statistikk, spesielt til inferensiell statistikk. Inferensiell statistikk har som mål å trekke ut informasjon om populasjoner.

instagram story viewer

Det er en godhetstest, det vil si at den brukes til å verifisere om skårene vi har fått fra utvalget følger en normalfordeling eller ikke. Det vil si at det tillater å måle graden av samsvar mellom fordelingen av et datasett og en spesifikk teoretisk distribusjon. Målet er å indikere om dataene kommer fra en populasjon som har den spesifiserte teoretiske fordelingen, det vil si Det den gjør er med andre ord å teste om observasjonene med rimelighet kan komme fra fordelingen spesifisert.

Kolmogorov-Smirnov-testen tar opp følgende spørsmål: Kommer prøveobservasjonene fra en hypotesefordeling?

Nullhypotese og alternativ hypotese

Som en godhetstest svarer den på spørsmålet: «passer den (empiriske) prøvetakingsfordelingen til den (teoretiske) populasjonsfordelingen?». I dette tilfellet, nullhypotesen (H0) vil fastslå at den empiriske fordelingen er lik den teoretiske (Nullhypotesen er den som ikke er forsøkt avvist.) Med andre ord vil nullhypotesen fastslå at den observerte frekvensfordelingen stemmer overens med den teoretiske fordelingen (og derfor passer godt).

Derimot vil den alternative hypotesen (H1) si at den observerte frekvensfordelingen ikke stemmer overens med den teoretiske fordelingen (dårlig tilpasning). Som i andre hypotesekontrasttester vil symbolet α (alfa) indikere testens signifikansnivå.

Du kan være interessert i: "Pearsons korrelasjonskoeffisient: hva det er og hvordan du bruker det"

Hvordan beregnes det?

Resultatet av Kolmogorov-Smirnov-testen er representert med bokstaven Z. Z-en beregnes fra den største forskjellen (i absolutt verdi) mellom de teoretiske og observerte (empiriske) kumulative fordelingsfunksjonene.

Antagelser

For å bruke Kolmogorov-Smirnov-testen riktig, må det gjøres en rekke forutsetninger. For det første testen forutsetter at parametrene for testfordelingen er spesifisert tidligere. Denne prosedyren estimerer parametrene fra prøven.

På den andre siden, prøvegjennomsnittet og standardavviket er parametrene for en normalfordeling, minimums- og maksimumsverdiene til prøven definerer området for den ensartede fordelingen, prøvegjennomsnittet er parameteren for Poisson-fordelingen og prøvegjennomsnittet er parameteren til fordelingen eksponentiell.

Evnen til Kolmogorov-Smirnov-testen til å oppdage avvik fra den antatte fordelingen kan være sterkt redusert. For å kontrastere det med en normalfordeling med estimerte parametere, muligheten for å bruke K-S Lillliefors-testen bør vurderes.

applikasjon

Kolmogorov-Smirnov-testen kan brukes på et utvalg for å sjekke om en variabel (for eksempel akademiske karakterer eller €-inntekt) er normalfordelt. Dette er noen ganger nødvendig å vite, siden mange parametriske tester krever at variablene de bruker følger en normalfordeling.

Fordeler

Noe av fordelene med Kolmogorov-Smirnov-testen er:

Den er kraftigere enn Chi-square (χ²)-testen (også en godhet-of-fit-test).
Det er enkelt å beregne og bruke, og krever ikke gruppering av dataene.
Statistikken er uavhengig av forventet frekvensfordeling, den avhenger kun av utvalgsstørrelsen.

Forskjeller med parametriske tester

Parametriske tester, i motsetning til ikke-parametriske tester som Kolmogorov-Smirnov-testen, har følgende egenskaper:

De lager hypoteser om parametere.
Målenivået for variablene er i det minste kvantitativt.
Det er en rekke forutsetninger som må oppfylles.
De mister ikke informasjon.
De har høy statistisk kraft.

Noen eksempler på parametriske tester ville være: t-testen for forskjell i gjennomsnitt eller ANOVA.