Standaarddeviatie: wat is het en waar dient deze maat voor?
De term standaarddeviatie of standaarddeviatie verwijst naar een maatstaf die wordt gebruikt om de variatie of spreiding van numerieke gegevens te kwantificeren. in een willekeurige variabele, statistische populatie, dataset of kansverdeling.
De wereld van onderzoek en statistiek lijkt misschien complex en vreemd voor de algemene bevolking, zoals het lijkt dat wiskundige berekeningen onder onze ogen gebeuren zonder dat we de onderliggende mechanismen ervan kunnen begrijpen zich. Niets is verder van de werkelijkheid.
Bij deze gelegenheid gaan we op een eenvoudige maar uitputtende manier de context, de basis en toepassing van een term die zo essentieel is als de standaarddeviatie op het gebied van statistieken.
- Gerelateerd artikel: "Psychologie en statistiek: het belang van kansen in de wetenschap van gedrag"
Wat is de standaarddeviatie?
Statistiek is een tak van de wiskunde die verantwoordelijk is voor het vastleggen van variabiliteit, evenals het willekeurige proces dat deze genereert. volgens de wetten van de waarschijnlijkheid
. Dat wordt snel gezegd, maar binnen de statistische processen liggen de antwoorden op alles wat we tegenwoordig als "dogma's" beschouwen in de wereld van de natuur en de natuurkunde.Laten we bijvoorbeeld zeggen dat bij het drie keer opgooien van een munt, twee van hen kop en munt zijn. Simpel toeval toch? Aan de andere kant, als we dezelfde munt 700 keer opgooien en 660 daarvan op kop belanden, is het misschien mogelijk dat er een factor is die dit fenomeen verder bevordert dan willekeur (laten we ons bijvoorbeeld voorstellen dat het maar tijd heeft om een beperkt aantal bochten in de lucht te maken, wat betekent dat het bijna altijd in dezelfde modus). Het observeren van patronen die verder gaan dan louter toeval, zet ons dus aan om na te denken over de onderliggende redenen voor de trend.
Wat we willen aantonen met dit bizarre voorbeeld is dat Statistieken zijn een essentieel hulpmiddel voor elk wetenschappelijk proces., omdat we op basis daarvan realiteiten die het resultaat zijn van toeval kunnen onderscheiden van gebeurtenissen die worden beheerst door natuurwetten.
We kunnen dus een overhaaste definitie van de standaarddeviatie geven en zeggen dat het een statistische maat is die het product is van de vierkantswortel van de variantie. Dit is alsof je het huis vanaf het dak begint, want voor iemand die niet helemaal toegewijd is aan de wereld van getallen, zijn deze definitie en niets weten over de term weinig anders. Laten we dus even de tijd nemen om de wereld van statistische basispatronen te ontleden..
Maatregelen van positie en variabiliteit
Positiemetingen zijn indicatoren die worden gebruikt om aan te geven welk percentage van de gegevens binnen een frequentieverdeling deze uitdrukkingen overschrijdt, waarvan de waarde de waarde vertegenwoordigt van de gegevens die zich in het midden van de frequentieverdeling bevinden. Wanhoop niet, want we definiëren ze snel:
- Gemiddelde: het numerieke gemiddelde van de steekproef.
- Mediaan: vertegenwoordigt de waarde van de centrale positievariabele in een reeks geordende gegevens.
Op een rudimentaire manier zouden we kunnen zeggen dat positiemetingen gericht zijn op het verdelen van de dataset in gelijke procentuele delen, dat wil zeggen, "naar het midden gaan".
Aan de andere kant zijn variabiliteitsmetingen verantwoordelijk voor de mate van nabijheid of afstand van de waarden van een distributie bepalen in vergelijking met de gemiddelde locatie (dwz, versus het gemiddelde). Dit zijn de volgende:
- Bereik: meet de breedte van de gegevens, dat wil zeggen van de minimale tot de maximale waarde.
- Variantie: de verwachting (gemiddelde van de gegevensreeks) van het kwadraat van de afwijking van genoemde variabele ten opzichte van zijn gemiddelde.
- Standaarddeviatie: numerieke index van de spreiding van de dataset.
Natuurlijk bewegen we ons in relatief complexe termen voor iemand die niet volledig toegewijd is aan de wereld van de wiskunde. We willen niet ingaan op andere maten van variabiliteit, aangezien we weten dat hoe groter de numerieke producten van deze parameters zijn, hoe minder gehomogeniseerd de dataset zal zijn.
- Mogelijk bent u geïnteresseerd in: "Psychometrie: wat is het en waarvoor is het verantwoordelijk?"
“Gemiddelde van het atypische”
Zodra we de kennis van de maten van variabiliteit en hun belang in data-analyse hebben gecementeerd, is het tijd om onze aandacht opnieuw te richten op de standaarddeviatie.
Zonder in te gaan op complexe concepten (en misschien de zonde begaan om dingen te simpel te maken), kunnen we dat zeggen deze maatstaf is het product van de berekening van het gemiddelde van de "uitschieter"-waarden. Laten we een voorbeeld geven om deze definitie te verduidelijken:
We hebben een steekproef van zes drachtige teven van hetzelfde ras en dezelfde leeftijd die net gelijktijdig zijn bevallen van hun nestje pups. Drie van hen hebben elk 2 puppy's gekregen, terwijl nog eens drie het leven hebben geschonken aan 4 puppy's per teef. Natuurlijk is de gemiddelde waarde van de nakomelingen 3 jongen per vrouwtje (de som van alle jongen gedeeld door het totale aantal vrouwtjes).
Wat zou de standaarddeviatie in dit voorbeeld zijn? Allereerst zouden we het gemiddelde moeten aftrekken van de verkregen waarden en dit cijfer moeten verheffen tot het kwadraat (aangezien we geen negatieve getallen willen), bijvoorbeeld: 4-3=1 of 2-3= (-1, verheven tot het vierkant, 1) .
De variantie zou worden berekend als het gemiddelde van de afwijkingen van de gemiddelde waarde (in dit geval 3). Hier zouden we de variantie tegenkomen en daarom moeten we de vierkantswortel van deze waarde nemen om deze om te zetten in dezelfde numerieke schaal als het gemiddelde. Hierna zouden we de standaarddeviatie verkrijgen.
Dus wat zou de standaarddeviatie van ons voorbeeld zijn? Wel een pup. Geschat wordt dat het gemiddelde voor nesten drie nakomelingen is, maar het is normaal dat de moeder één pup minder of één meer per worp baart.
Misschien klinkt dit voorbeeld een beetje verwarrend wat betreft variantie en deviatie (aangezien de vierkantswortel van 1 1), maar als de variantie 4 was, zou het resultaat van de standaarddeviatie 2 zijn (denk eraan, de wortel vierkant).
Wat we met dit voorbeeld wilden aantonen, is dat variantie en standaarddeviatie zijn statistische metingen die proberen het gemiddelde van andere waarden dan het gemiddelde te verkrijgen. Onthoud: hoe groter de standaarddeviatie, hoe groter de spreiding van de bevolking.
Terugkomend op het vorige voorbeeld, als alle teven van hetzelfde ras zijn en een vergelijkbaar gewicht hebben, is het normaal dat de afwijking één pup per worp is. Maar als we bijvoorbeeld een muis en een olifant nemen, is het duidelijk dat de afwijking in termen van het aantal nakomelingen waarden zou bereiken die veel groter zijn dan één. Nogmaals, hoe minder de twee steekproefgroepen gemeen hebben, hoe groter de afwijkingen kunnen worden verwacht.
Toch is één ding duidelijk: met deze parameter berekenen we de variantie in de data van een steekproef, maar dat hoeft niet representatief te zijn voor een hele populatie. In dit voorbeeld hebben we zes teefjes gevangen, maar wat als we er zeven monitoren en de zevende heeft een nest van 9 pups?
Natuurlijk zou het patroon van afwijking veranderen. Houd daarom rekening met steekproefomvang is essentieel bij het interpreteren van een dataset. Hoe meer individuele getallen worden verzameld en hoe vaker een experiment wordt herhaald, hoe dichter we bij het postuleren van een algemene waarheid komen.
conclusies
Zoals we hebben kunnen waarnemen, is de standaarddeviatie een maat voor gegevensspreiding. Hoe groter de spreiding, hoe groter deze waarde zal zijn., omdat als we geconfronteerd zouden worden met een reeks volledig homogene resultaten (dat wil zeggen, dat ze allemaal gelijk waren aan het gemiddelde), deze parameter gelijk zou zijn aan 0.
Deze waarde is van enorm belang in de statistiek, omdat niet alles wordt gereduceerd tot het vinden van gemeenschappelijke bruggen tussen cijfers en gebeurtenissen, maar eerder het is ook essentieel om de variabiliteit tussen steekproefgroepen vast te leggen om onszelf op de lange termijn meer vragen te stellen en meer kennis op te doen. termijn.
Bibliografische referenties:
- Bereken stap voor stap de standaarddeviatie, khanacademy.org. Verzameld op 29 augustus in https://es.khanacademy.org/math/probability/data-distributions-a1/summarizing-spread-distributions/a/calculating-standard-deviation-step-by-step
- Jaime, S., & Vinicio, M. (1973). Waarschijnlijkheid en statistiek.
- Parra, J. M. (1995). Beschrijvende en verklarende statistiek I. Hersteld van: http://www. academie. edu/download/35987432/ESTADISTICA_DESCRIPTIVA_E_INFERENCIAL. pdf.
- Rendón-Macías, M. E., Villasis-Keeve, M. Á., & Miranda-Novales, M. G. (2016). Beschrijvende statistieken. Allergiemagazine Mexico, 63(4), 397-407.
- Ricardo, F. Q. (2011). Statistieken toegepast op gezondheidsonderzoek. Verkregen uit de Chi-Square-test: http://www. medgolf. kl/link. cgi/Medwave/Series/MBE04/5266.