Kolmogorov-Smirnov test: co to je a jak se používá ve statistice
Ve statistice jsou dobře známé a používané parametrické a neparametrické testy. Hojně používaným neparametrickým testem je Kolmogorov-Smirnov test., což nám umožňuje ověřit, zda skóre vzorku odpovídá normální distribuci.
Patří do skupiny tzv. testů dobré shody. V tomto článku se dozvíme jeho vlastnosti, k čemu slouží a jak se používá.
- Související článek: "Chí-kvadrát (χ²) test: co to je a jak se používá ve statistice"
neparametrické testy
Kolmogorov-Smirnovův test je druh neparametrického testu. Neparametrické testy (také nazývané volná distribuce) se používají v inferenční statistice a mají následující charakteristiky:
- Navrhují hypotézy o dobré kondici, nezávislosti...
- Úroveň měření proměnných je nízká (ordinální).
- Nemají přehnaná omezení.
- Jsou použitelné pro malé vzorky.
- Jsou robustní.
Kolmogorov-Smirnov test: charakteristiky
Kolmogórov-Smirnovův test je jednou ze svých vlastních statistik, konkrétně do inferenční statistiky. Inferenční statistika má za cíl extrahovat informace o populacích.
Je to a
test dobré shody, to znamená, že se používá k ověření, zda skóre, která jsme získali ze vzorku, dodržují normální rozdělení. To znamená, že umožňuje měřit míru shody mezi distribucí souboru dat a konkrétním teoretickým rozložením. Jeho cílem je ukázat, zda data pocházejí z populace, která má specifikované teoretické rozdělení, tzn Jinými slovy, testuje, zda by pozorování mohla přiměřeně pocházet z distribuce specifikováno.Kolmogorov-Smirnov test řeší následující otázku: Pocházejí pozorování vzorku z nějakého předpokládaného rozdělení?
Nulová hypotéza a alternativní hypotéza
Jako test dobré shody odpovídá na otázku: „odpovídá (empirické) rozdělení výběrů (teoretickému) rozdělení populace? V tomto případě, nulová hypotéza (H0) určí, že empirické rozdělení je podobné teoretickému (Nulová hypotéza je ta, která se nepokusí zamítnout.) Jinými slovy, nulová hypotéza prokáže, že pozorované rozdělení frekvencí je konzistentní s teoretickým rozdělením (a tedy dobře sedí).
Naproti tomu alternativní hypotéza (H1) bude uvádět, že pozorované rozdělení četností není konzistentní s teoretickým rozdělením (špatné přizpůsobení). Stejně jako v jiných kontrastních testech hypotéz bude symbol α (alfa) označovat hladinu významnosti testu.
- Mohlo by vás zajímat: "Pearsonův korelační koeficient: co to je a jak jej používat"
Jak se to počítá?
Výsledek Kolmogorov-Smirnovova testu je reprezentován písmenem Z. Z se vypočítá z největšího rozdílu (v absolutní hodnotě) mezi teoretickou a pozorovanou (empirickou) kumulativní distribuční funkcí.
Předpoklady
Aby bylo možné správně aplikovat Kolmogorov-Smirnovův test, je třeba provést řadu předpokladů. Za prvé, test předpokládá, že parametry testovací distribuce byly předem specifikovány. Tento postup odhaduje parametry ze vzorku.
Na druhou stranu, výběrový průměr a směrodatná odchylka jsou parametry normálního rozdělení, minimální a maximální hodnoty vzorku definují rozsah rovnoměrného rozdělení, průměr vzorku je parametr Poissonova rozdělení a výběrový průměr je parametr rozdělení exponenciální.
Schopnost Kolmogorov-Smirnovova testu detekovat odchylky od předpokládaného rozdělení může být výrazně snížena. Chcete-li to porovnat s normálním rozdělením s odhadovanými parametry, je třeba zvážit možnost použití K-S Lilllieforsova testu.
aplikace
Kolmogorov-Smirnovův test lze použít na vzorek, aby se ověřilo, zda je proměnná (například akademické známky nebo příjem v eurech) normálně rozdělena. To je někdy nutné vědět, protože mnoho parametrických testů vyžaduje, aby proměnné, které používají, sledovaly normální rozdělení.
Výhody
Některý z výhody Kolmogorova-Smirnovova testu jsou:
- Je výkonnější než test chí-kvadrát (χ²) (také test dobré shody).
- Snadno se počítá a používá a nevyžaduje seskupování dat.
- Statistika je nezávislá na očekávaném rozdělení četností, závisí pouze na velikosti vzorku.
Rozdíly s parametrickými testy
Parametrické testy, na rozdíl od neparametrických testů, jako je Kolmogorov-Smirnov test, mají následující charakteristiky:
- Vytvářejí hypotézy o parametrech.
- Úroveň měření proměnných je přinejmenším kvantitativní.
- Existuje řada předpokladů, které musí být splněny.
- Neztrácejí informace.
- Mají vysokou statistickou sílu.
Některé příklady parametrických testů by byl: t-test pro rozdíl v průměrech nebo ANOVA.