De dictatuur
van kleine p
Dr. G. Otte
Inleiding
De moderne
medische wetenschap gaat vooruit door het maken van plausibele hypotheses, het
verzamelen van data uit degelijk “lege artis” opgezette klinische studies of experimenten
om finaal via statistische technieken
(zoals de p waarde) te proberen de hypothese te bewijzen.
E n hier
loopt de plausibiliteit van bovenstaande zin reeds hard tegen een concrete muur
aan want in tegenstelling met wat veel onderzoekers nog steeds geloven kan een
p waarde , hoe klein ook, nooit een hypothese “bewijzen”
Het duo
hypothese en p waarde is evenwel in wereld van medische research zo sterk
doordrongen dat er geen artikel meer kan gepubliceerd worden zonder een geleerd
ogende data tabellen gevuld met “kleine p. waardes naast elke parameter”. Maar
opgelet, kleine p is een venijnig peeke.
Het succes van
dit Hype duo (Hypothese-kleine p) is uiteraard wel te begrijpen want het biedt
de onderzoekers een welgekomen houvast onder vorm van duidelijke handvaten en procedures (bijna
recepten) omtrent de manier waarop men
een klinische studies best gevoerd wordt.
Maar toch is
ons p-ke niet unaniem geliefd want als het
p-ke te groot uitvalt ( >0.05) kan het
academische carrières breken of hun progressie stremmen. Want academische
carrières hangen af van publicaties en de weg
de drukker is geplaveid met veel kleine p-kes.
Mentoren
fluisteren hun post docs in het oor “hou je kleine p ke lager dan 0.05 wil je
een een toekomst inde faculteit ambieren.
Maar wat is nu
de juiste de betekenis van die p waarde? Of beter nog wat is “p “ NIET ?
Veel mensen
denken dat vinden van een kleine p ( kleiner dan 0.05) betekent dat hun
onderzoekshypothese correct bewezen correct is maar dat klopt niet. Hoe sterk
verbreid deze opvatting in onderzoek kringen ook moge zijn. Stel dat we zoals
gebruikelijk is uitgaan van het gegeven
dat de nulhypothes correct ise. De
nulhypothese is zowat het omgekeerde van onze werkhypothese. Als onze
werkhypothese er eentje is dat stelt dat deze of gene xyz behandeling effectief
werkt dan stelt de nulhypothese dat we
eigenlijk aannemen dat dit niet het
geval is. Een wat pessimistische uitgangsstelling misschien maar statistici
hebben ene vreemd gevoel voor humor. We verzamelen dan data uit experimenten en
bepalen een test statistiek vb het verschil van de gemiddelde waarde van een
relevante parameter in de behandelde groep versus die van e placebogroep. We
bepalen dan ( vb T statistiek) de kans dat onze uitkomst toch kan verklaard
worden door de nulhypothese. Hoe kleiner deze kans (kleine p) hoe minder
waarschijnlijk het wordt de nulhypothese kunnen aanvaarden. Let op: minder
waarschijnlijk wil niet zeggen onmogelijk want zelfs met een p waarde kleiner dan
0.05 bestaat er nog steeds een kans van 5% resultaten toch op louter op toeval berusten. Als
we de nulhypothese in een dergelijk geval zouden verwerpen (en onze eigen
werkhypothese aanvaarden) dan maken we een error type I m.a.w we menen een
effect te zien waar er inw werkelijkheid geen is. Error type I noem ik
gemakshalve de psychotische error. We menen iets te zien dat er in realiteit
niet is. We kunnen dat risico beperken door als streefdoel een lagere p waarde
aan te nemen of het type onderzoek door niet geaffilieerde labo’s of “peers”
(vb ecxetrne diensten of labo’s) te
laten overdoen. Maar opgelet: ook hier schuilen vaak addertjes in het gras
zoals we in volgedne artikels zullen aantonen.
Maar wat als
de p waarde hoger uitvalt bvb 0.15 ? Grote PANIE.K !!!?
De nulhypothese
kan niet verworpen worden en onze mooie h1 hypothese (de hypothese waarmee we
hoopten eindelijk genomineerd te worden voor de Nobelprijs spat als een ballonnetje
uit elkaar. Weg artikel, weg academische carrière.
Ook hier
geldt dat men beter nadenkt dan blind regeltjes te volgen en platgetrapte
dwaalwegen te volgen. In de vlaag van paniek die volgt ziet men vaak dat
onderzoekers aan p hacking doen. Ze gaan zonder veel schroom, het
onderzoeksprotocol met de plompe voeten treden, sluiten nieuwe patiënten in
(grote n is een statistische amplificator van kleine effecten), gaan nieuwe
parameters bepalen of compound parameters fabrikeren tot na veel kneden en sleutelen (data washing) het moment van
verlossing aanbreekt als hun statistische software het magische p<005 op het
scherm tovert. Een spinale zucht van diepe
opluchting wordt dan snel gevolgd door een tweede fase van ijverig brainstormen
g gevolgd door een brainstormen resulterend in al dan niet subtiele
aanpassingen in de set van vragen (de primaire
doelstellingen waarop de studie een antwoord moest proberen geven). Men zet dan
kar snel aan de andere kant van het paard en alles klopt dan weer allemaal als de
spreekwoordelijke bus: hypothese bewezen
en carrière gered. Welkom in de wereld van “p hacking”.
BESLUIT
Beide
situaties p<005 en p > 005 moeten ons vooral doen nadenken.
En wie toch
graag regels volgt denk dan aan de MAGIE
M: Magnitude
van het effect. Is het significant op klinisch vlak. Een studie op 50.000
patiënten die aantoont met p<0.001 dat het beroemde homeopathisch middel
“excrementium canis” de flatulentie index van Hanemann met 1 punt op de score
van 100 doet afnemen kan dan al statistisch zeer significant zijn, klinisch is
dat uiteraard baardige nonsens.
A: Accuraatheid
van het gemeten effect. Gedenk dat in het bepalen van een t statistiek ook de
standaarddeviatie zeer belangrijk is. Hoe kleiner de spreiding rond het gemeten
groepsgemiddelde des te groter de kans op statistische significantie. Dat is de
reden dat studies meticuleus dienen te gebeuren.
G:
generalisatie. Kan het meer algemeen nuttig zijn of is het enkel van belang
voor een beperkte groep. Een studie toont aan (met p<0.05) dat Tinctura
laudanitium C200 de loopsnelheid van
driepotige legkiekens verhoogt met 1%.
I: Interesse
is het iets klinisch belangrijk en interessant of is het een banaliteit.
C:
credibiliteit. Is het geloofwaardig. Een studie met p< 0.05 “bewijst” de
werkhypothese “jeukpoeder helpt tegen apathie”
Besluit:
laat p U niet misleiden.
Statistiek
is geen domein waarin men begrip opsteekt door regeltjes te volgen maar een intellectueel speelveld waar enkel vruchten te plukken zijn mits rationele
denken kritische domeinkennis. Een wie
allergisch is voor kleine p kan steeds
terecht bij grote B (Pastor Bayes);
In een deel
II en deel II belichten we de beide situaties aan de hand van enkele zeer concrete
voorbeelden.
Geen opmerkingen:
Een reactie posten