p-waarden

De p-waarde is onmisbaar geworden in wetenschappelijk onderzoek. Trots publiceren wetenschappers hun gevonden p-waardes en daarmee het bewijs dat het resultaat van hun onderzoek klopt. Helaas overleven veel van deze onderzoeken een poging tot reproductie niet. Volgens Nassim Taleb ligt de schuld bij de p-waarde zelf. Hoe zit dat?

Twee steekproeven uit dezelfde populatie kunnen erg verschillen. De p-waarde die hoort bij elke steekproef verschilt dan mee. Hetzelfde fenomeen kan op die manier voor verschillende p-waarden zorgen. De verdeling van deze p-waarden is scheef, wat betekent dat de kans groter is dat de gemeten p-waarde onder de ware p-waarde ligt dan erboven. Een fenomeen met een ware p-waarde van 0,05 (niet significant) zal in meer dan 75% van de metingen een p-waarde onder de 0,05 (wel significant) geven. Bij het trekken van conclusies uit p-waarden moeten we dus rekening houden met een grote voorkeur voor positieve resultaten. p-waarden die maar net onder de 0,05 liggen zijn niet waardevol.

Wat is een p-waarde?

Stel je hebt een munt. Je gooit de munt twee keer op en krijgt twee keer kop. Is deze munt niet eerlijk? Misschien wel, maar die conclusie kun je met dit experiment niet trekken. De kans op twee keer kop met een eerlijke munt is best groot: 25%. De kans is dus redelijk groot dat je per toeval dit resultaat hebt gevonden.

Nu gooi je de munt acht keer op en krijgt acht keer kop. De kans hierop is maar 0,3%. Dat is erg klein, en dat maakt het aannemelijk dat deze munt niet eerlijk is.

De p-waarden bij deze experimenten zijn 0,25 (25%) en 0,006 (0,3%). De p-waarde is de kans op een resultaat dat minimaal even extreem is als het jouwe. Als die waarschijnlijkheid laag is, concluderen we dat het waarschijnlijker is dat de munt oneerlijk is.

Wanneer is die waarschijnlijkheid laag genoeg? Meestal wordt er gekozen voor een drempel van 0,05. Is je p-waarde lager dan die drempel, dan noemen we het resultaat significant.

Een iets lastiger voorbeeld

We herhalen het voorbeeld met de munt. We gooien acht keer een munt op en tellen het aantal keren kop. Het resultaat van de steekproef wordt dus een getal tussen de 0 en de 8. Stel we krijgen zes keer kop. Wat is de kans op een even extreem resultaat? Of, anders gezegd, wat is de kans op een resultaat dat minimaal evenveel afwijkt van het gemiddelde?

Om die kans te berekenen hebben we de som van de kansen op zes, zeven en acht keer kop nodig:

P(X = 6) + P(X=7) + P(X=8) = \frac{28}{256} + \frac{8}{256} + \frac{1}{256} \approx 0,14

De kans op een extremer resultaat gegeven dat de munt eerlijk is is 14%. Het is dus aannemelijk dat dit resultaat toeval is, en dat de munt geen voorkeur heeft (naar kop).

Als we zeven keer kop gooien hebben we een significant resultaat. De p-waarde is dan \frac{9}{256} \approx 0,04. Als we acht keer kop gooien vinden we een p-waarde die nog significanter is: \frac{1}{256} \approx 0,004. In beide gevallen krijgen we een vermoeden dat de munt een voorkeur heeft voor kop.

De ware p-waarde

Stel nu dat jij eerst een proef doet met een munt, en daarna doet je buurman dezelfde proef met dezelfde munt. De kans is groot dat de gemeten p-waarden sterk verschillen. Het kan zelfs zo zijn dat jij een significante p-waarde vindt en je buurman niet. Welke p-waarde is dan de ware?

We kunnen de ware p-waarde definieren als het gemiddelde van de p-waarden van oneindig veel identieke experimenten. Deze ware p-waarde is op een manier de ideale waarde die je zoekt als je een experiment uitvoert. Als de ware p-waarde significant is dan weet je dat de gemiddelde herhaling van het experiment een significant resultaat geeft. Met andere woorden, je experiment is reproduceerbaar.

Hoe vind je die ware p-waarde? Dat kan niet. Hoe groter het aantal identieke experimenten, hoe groter de kans dat je gemiddelde p-waarde dichter bij de ware komt te liggen, maar zekerheid krijg je in de praktijk niet.

De verdeling van p-waarden

De p-waarde van een experiment is zelf een kansvariabele. Zodoende heeft de p-waarde haar eigen kansverdeling. Die kansverdeling zie je in de bovenstaande grafiek. Opvallend aan deze kansverdeling is dat hij scheef is richting de nul. Dat betekent dat het gemiddelde experiment een p-waarde vindt die lager is dan de ware p-waarde.

Het gevolg hiervan is dat het waarschijnlijk is dat de meeste experimenten die een klein significant resultaat meten, zeg tussen de 0,01 en de 0,05, een niet significant fenomeen meten. De kans is dan groot dat reproductie van dit resultaat mislukt. Dit verklaart de reproductieproblemen in veel onderzoeksgebieden. Bijvoorbeeld in de psychologie, waar slechts 20-50% van alle studies reproduceerbaar is.

Hoe voorkom je dit probleem? De drempel voor significantie moet flink omlaag. De huidige standaard van 0,05 is niet voldoende en leidt tot een overvloed aan niet reproduceerbare resultaten. Om de zekerheid te krijgen die men verwacht bij een drempel van 0,05 moet een drempel gebruikt worden die lager is dan 0,01.

Got Something To Say?

Your email address will not be published. Required fields are marked *