Hoe kunnen we helpen?
Categorieën
< Alle onderwerpen
Print

Z-score

Z-Score

Inleiding: Wat is een normale verdeling?

Theoretisch gezien is een normale verdeling een verdelingsvorm; een manier om een heleboel waarden te verdelen. Dit wordt gedaan over een symmetrisch, klokvormigmodel. Dit is tevens een voorwaarde om een normale verdeling te zijn. Een normale verdeling ontstaat over het algemeen bij veel meetwaarden (bijvoorbeeld het gewicht van bananen).

 

 

 

Wat kun je aflezen in een normale verdeling?
De klokvorm van de normale verdeling geeft een hoop informatie weg. Zo geeft het midden zowel het gemiddelde, de mediaan én de modus weg. Deze vallen allemaal gelijk. De normale verdeling geeft informatie over hoeveel procent van de meetwaarden tussen bepaalde getallen ligt.

Zo ligt er 68,27% van de waarden tussen het gemiddelde min één keer de standaarddeviatie en plus één keer de standaarddeviatie. Er ligt 95,45% ligt tussen min en plus twee keer de standaarddeviatie en 99,73% ligt tussen drie keer de standaarddeviatie.

 

 

De normale verdeling in praktijk

Neem 100 bananen van de oogst. Het blijkt dat deze normaal verdeeld zijn. Het gemiddelde is 50 gram (dat is dus tevens de modus en mediaan!), het minimum is 25 gram en het maximum is 75 gram.
We nemen even aan dat de standaarddeviatie hier 7,5 gram is.

Tussen de blauw lijnen zit 68,27% van de meetwaarden = 68,27 bananen.
Wegen tussen de 50 – 1 x 7,5 gram en 50 + 1 x 7,5 gram; tussen de 42,5 en 57,5 gram.

Tussen de oranje lijnen zit 95,45% van de meetwaarden = 95,45 bananen.
Wegen tussen de 50 – 2 x 7,5 gram en 50 + 2 x 7,5 gram; tussen de 35 en 65 gram.

Tussen de groene lijnen zit 99,73% van de meetwaarden = 99,73 bananen.
Wegen tussen de 50 – 3 x 7,5 gram en 50 + 3 x 7,5 gram; tussen de 27,5 en 72,5 gram.

 

 

In afbeelding 2 zie je dus dat 68% van de mannen heeft een gewicht tussen de 69 kg en 87 kg. Je ziet ook dat 2,5% van de mannen zwaarder is dan 96 kg en dat 2,5% van de mannen lichter is dan 60 kg. Afsluitend stellen we dat 95% van de mannen een gewicht heeft tussen de 60 kg en 96 kg.

 

 

 

Formule De normale verdeling

Van de waarnemingen ligt 68% tussen μ-σ en μ+σ en 95% tussen μ-2σ en μ+2σ.

Voorbeelden De normale verdeling

Voorbeeld 1 (afb. 2)
Gegeven een groep mannen waarvan het gemiddelde gewicht μ = 78 kg. En de standaardafwijking σ = 9 kg. Bereken hoeveel procent van de mannen weegt tussen de 60 kg en 87 kg.
Uitwerking:
De linkergrens is 60 kg en de rechtergrens is 87 kg. Daar horen de percentages bij: 13,5% + 34% + 34% = 81,5%. Dit houdt dus in dat 81,5% van de mannen heeft een gewicht dat ligt tussen 60 kg en 87 kg.

Z-score en de normale verdeling

Naast dat je de normale verdeling met ‘gewone’ cijfers (de cijfers uit de steekproef) kunt invullen, kun je die ook omrekenen naar een z-score. De normale verdeling wordt dan ook wel standaard normale verdeling genoemd.

Met de z-scores kun je verschillende steekproeven met elkaar vergelijken. Bijvoorbeeld of de bananen die geoogst worden in Brazilië een andere verdeling hebben dan de bananen die geoogst worden in Spanje. Dit werkt een beetje hetzelfde als absolute getallen omzetten naar percentages: ook dan kun je cijfers met elkaar vergelijken.

De formule van de z-score is als volgt:

De formule van de z-score is als volgt:

Bij populaties: z=(x-\mu)/\sigma

Bij steekproeven: z=(x-\bar{x})/s

 

Hierbij geldt het volgende:

  • x is de gedane meting waarvan je de z-score wilt weten
  • of  is het gemiddelde (uit de populatie of steekproef)
  • of s is de standaarddeviatie (uit de populatie of steekproef)

Z-score en betrouwbaarheidsintervallen

Zoals je net zag bij de grafiek met de normale verdeling dat tussen een bepaald percentage het gemiddelde min of plus de standaarddeviatie lag. Misschien is je opgevallen dat 95,45% en 99,73% lijken op de betrouwbaarheidsintervallen die veel gebruikt worden. Bij die percentages is gekozen voor een ‘mooie’ z-score, namelijk 2 en 3.

Vaak worden in de statistiek gerekend met ‘mooie’ betrouwbaarheidsintervallen, zoals 90%, 95% en 99%. Bij elk percentage is de bijbehorende z-score:

  • Bij 90% hoort min en plus 1,64
  • Bij 95% hoort min en plus 1,96
  • Bij 99% hoort min en plus 2,58

Z-waarde wat is de definitie & betekenis

Een z-waarde of z-score (Z), is een term uit de statistiek. Het geeft voor een normale verdeling het aantal standaarddeviaties of standaardafwijkingen (Σ) aan dat een bepaalde variabele (X) verwijderd is van de verwachtingswaarde (μ).

Een z-waarde kan alleen worden bepaald wanneer de steekproef – de groep waarop het experiment wordt uitgevoerd – normaal verdeeld is. Omdat bij een normale verdeling de verwachtingswaarde gelijk is aan het gemiddelde, kan men ook het woord “gemiddelde” gebruiken in plaats van verwachtingswaarde. Een z-waarde kan zowel positief als negatief zijn. Bij een positieve z-waarde is de variabele groter dan de verwachtingswaarde en bij een negatieve z-waarde is hij kleiner. De z-waarde voor een variabele is te berekenen door deze variabele te verminderen met de verwachtingswaarde (of het gemiddelde) en vervolgens te delen door de standaarddeviatie: Z= (X-μ;)/Σ

Wanneer het aantal geboren baby’s per maand voor een bepaalde bevolkingsgroep bijvoorbeeld normaal verdeeld is met een gemiddelde van 30 baby’s per maand, dan is 30 de verwachtingswaarde van het aantal baby’s dat in een maand geboren zal worden.

Stel dat daarbij een standaardafwijking geldt van 4 baby’s per maand en er in een bepaalde maand 29 baby’s worden geboren, dan is het getal 29 de variabele (X=29) met een standaarddeviatie van 4.

De z-waarde van die variabele is dan: (29-30)/4= -0,25. Het aantal van 29 geboortes per maand (X=29) ligt dus 0,25 standaarddeviaties onder het gemiddelde. In dit geval geldt dus: Z=-0,25.

 

Waarom een betrouwbaarheidsinterval?

Een betrouwbaarheidsinterval wordt gebruikt om conclusies vanuit een steekproef te generaliseren naar de populatie. Alhoewel je geprobeerd hebt om zo’n representatieve steekproef als mogelijk te nemen, kan het natuurlijk altijd iets afwijken.

Daarom wordt er een slag om de arm gehouden: 95 betrouwbaarheidsinterval wil dan ook zeggen dat als het experiment vaak genoeg herhaalt wordt, in 95% van de gevallen de waarden ook tussen X en Y liggen. Het gemiddelde vanuit de steekproef, laten we het Y noemen, ligt tussen X en Z in.

Tevens betekent dit dat er ook een foutmarge wordt gemeld: de alfa. Bij een 95 betrouwbaarheidsinterval is dit 5% (100% – 95% = 5%). Dat betekent dus dat er 5% kans is dat het in de populatie niet tussen X en Z ligt.

Twee manieren van een betrouwbaarheidsinterval gebruiken

De betrouwbaarheidsinterval moet op twee manieren kunnen worden uitgerekend.

Ten eerste moet er een rouwbaarheidsinterval rondom het gemiddelde worden uitgerekend. Dat kan zo zijn zoals in het eerste voorbeeld werd aangegeven: “Er is 95% zekerheid dat het gemiddelde spaargeld in de Nederlandse populatie tussen de €1500 en €2500 ligt” (fictieve getallen!).

Ten tweede moet de betrouwbaarheidsinterval kunnen worden uitgerekend rondom een proportie. Een proportie, of ‘gedeelte van’, wordt uitgedrukt in een percentage. Bijvoorbeeld: “In deze steekproef meldt 45% van de werknemers zich één keer per maand ziek”. Met de 95 betrouwbaarheidsinterval zou het in de populatie als volgt kunnen zijn: “Er kan met 95% zekerheid worden gezegd dat er tussen de 40% en 50% van de werknemers zich één keer per maand ziek meldt” (fictieve getallen).

Andere betrouwbaarheidsintervallen

Naast het 95 betrouwbaarheidsinterval worden er nog meer gebruikt. Bijvoorbeeld 90% en 99%. Hierbij horen respectievelijk de foutkansen (alfa) van 10% en 1%.

Je kunt de interval van getallen kleiner maken – dus van ‘tussen de 10 en 14’ naar ‘tussen de 11 en 13’. Dit kan op de volgende manieren:

  • Een kleiner betrouwbaarheidspercentage kiezen – dus in plaats van 95% kies je nu 90%. Dit betekent tevens dat de kans dat je het fout hebt verhoogt van 5% naar 10%!
  • Een grotere steekproef trekken. Over het algemeen geldt dat een grotere steekproef representatiever is voor de populatie (mits goed getrokken natuurlijk!).
  • Bij een kleinere spreiding (standaarddeviatie). Als er minder ‘verdeeldheid’ heerst binnen de groep, is het makkelijker de conclusies te generaliseren naar de gehele populatie.

Elke variabele op intervalniveau (en hoger) wordt uitgedrukt op een specifieke schaal. Bijv. de lengte van een persoon uitgedrukt in aantal centimeters. Daarnaast zijn er variabelen die op een ‘betekenisloze’ schaal worden uitgedrukt. Dit is vaak het geval bij variabelen die opvattingen of gedragingen kwanitificeren, via een 5-puntsschaal.

Soms is het nuttig om variabelen uit te drukken op een schaal die meer betekenis heeft en die dezelfde betekenis heeft voor verschillende variabelen. Een manier om dit te doen is door de variabelen te standaardiseren, hetgeen resulteert in een gestandaardiseerde score. Een veelgebruikte methode voor het standaardiseren is door gebruik te maken van een zogenaamde z-score, ook wel sigmawaarde genoemd.

Als x een waarneming is uit een verdeling van een variabele X met een gemiddelde mu en een standaardafwijking (sigma) dan is de gestandaardiseerde score (z) voor deze waarneming: Om een z-score te berekenen trek je dus eerst de gemiddelde score af van elke waarneming en deel je dit resultaat door de standaardafwijking.

Hoe kan je de z-scores interpreteren? Deze z-scores zijn uitgedrukt op een schaal die aangeeft hoeveel standaardafwijkingen een waarneming verwijderd is van het gemiddelde. Meer concreet: een waarneming met een z-score 0 scoort gemiddeld op het waargenomen kenmerk. Een waarneming met een z-score 1 scoort 1 x de standaardafwijking hoger dan het gemiddelde. Een waarneming met een z-score -1, scoort 1 standaardafwijking lager dan gemiddeld.

Bij variabelen die (bij benadering) normaal verdeeld zijn kan je vervolgens op basis van deze z-scores ook de 68-95-99,7-regel toepassen.

  • gemiddelde score (mu) ± standaardafwijking (sigma) is 0,68269 (68%)
  • gemiddelde (mu) ± 1,96 x standaardafwijking (sigma) is 0,95450 (95%)  [1,96 wordt meestal afgrond op 2]
  • gemiddelde (mu) ± 3 x standaardafwijking (sigma) is 0,99730 (99,7%)

Het betrouwbaarheidsinterval geeft aan tussen welke waarden een onderzoeksuitkomst waarschijnlijk zal zitten. Om vanuit een resultaat uit een steekproef iets over de populatie te zeggen, hou je  een betrouwbaarheidsmarge aan. Deze wordt meestal op 95% gezet, maar je kan ook een betrouwbaarheidsinterval wensen van 99% of van 90%. Omdat je niet weet of het steekproefresultaat naar onderen of naar boven afwijkt, bereken je altijd een onderste en een bovenste waarde. Bij de 68-95-99,7-regel zag je dat bij een betrouwbaarheidsinterval van 95% een z-score 1,96 hoort. Anders gezegd: het 95% betrouwbaarheidsinterval omvat bij een normale verdeling het gebied tussen de z-score van –1,96 en +1,96. 2,5% van de observaties heeft een waarde die ligt onder 1,96 x de standaardafwijking en 2,5% ligt boven 1,96 x de standaardafwijking.

De berekening van de z-score kan zowel worden gebruikt in de Measure-fase als de Control-fase. In de Measure-fase bereken je de z-score bij wijze van nulmeting (baseline). In de Control-fase bereken je de z-score opnieuw om te bepalen of er verbetering te zien is.

Inhoudsopgave