maandag 16 mei 2022

Kleine p

 

De dictatuur van kleine p

 

Dr. G. Otte

 

Inleiding

De moderne medische wetenschap gaat vooruit door het maken van plausibele hypotheses, het verzamelen van data uit degelijk “lege artis” opgezette klinische studies of experimenten om finaal  via statistische technieken (zoals de p waarde) te proberen de  hypothese te bewijzen.

E n hier loopt de plausibiliteit van bovenstaande zin reeds hard tegen een concrete muur aan want in tegenstelling met wat veel onderzoekers nog steeds geloven kan een p waarde , hoe klein ook, nooit een hypothese “bewijzen”

Het duo hypothese en p waarde is evenwel in  wereld van medische research zo sterk doordrongen dat er geen artikel meer kan gepubliceerd worden zonder een geleerd ogende data tabellen gevuld met “kleine p. waardes naast elke parameter”. Maar opgelet,  kleine p is een venijnig peeke.

Het succes van dit Hype duo (Hypothese-kleine p) is uiteraard wel te begrijpen want het biedt de onderzoekers een welgekomen houvast onder vorm van  duidelijke handvaten en procedures (bijna recepten) omtrent  de manier waarop men een klinische studies best gevoerd wordt.

Maar toch is ons p-ke  niet unaniem geliefd want als het p-ke te  groot uitvalt ( >0.05) kan het academische carrières breken of hun progressie stremmen. Want academische carrières hangen af van publicaties en de weg  de drukker is geplaveid met veel kleine p-kes.

Mentoren fluisteren hun post docs in het oor “hou je kleine p ke lager dan 0.05 wil je een een  toekomst inde faculteit ambieren.

Maar wat is nu de juiste de betekenis van die p waarde? Of beter nog wat is “p “ NIET ?

Veel mensen denken dat vinden van een kleine p ( kleiner dan 0.05) betekent dat hun onderzoekshypothese correct bewezen correct is maar dat klopt niet. Hoe sterk verbreid deze opvatting in onderzoek kringen ook moge zijn. Stel dat we zoals gebruikelijk is  uitgaan van het gegeven dat de nulhypothes correct ise.  De nulhypothese is zowat het omgekeerde van onze werkhypothese. Als onze werkhypothese er eentje is dat stelt dat deze of gene xyz behandeling effectief werkt dan stelt  de nulhypothese dat we eigenlijk aannemen  dat dit niet het geval is. Een wat pessimistische uitgangsstelling misschien maar statistici hebben ene vreemd gevoel voor humor. We verzamelen dan data uit experimenten en bepalen een test statistiek vb het verschil van de gemiddelde waarde van een relevante parameter in de behandelde groep versus die van e placebogroep. We bepalen dan ( vb T statistiek) de kans dat onze uitkomst toch kan verklaard worden door de nulhypothese. Hoe kleiner deze kans (kleine p) hoe minder waarschijnlijk het wordt   de nulhypothese kunnen aanvaarden. Let op: minder waarschijnlijk wil niet zeggen onmogelijk want zelfs met een p waarde kleiner dan 0.05 bestaat er nog steeds een kans van 5%   resultaten toch op louter op toeval berusten. Als we de nulhypothese in een dergelijk geval zouden verwerpen (en onze eigen werkhypothese aanvaarden) dan maken we een error type I m.a.w we menen een effect te zien waar er inw werkelijkheid geen is. Error type I noem ik gemakshalve de psychotische error. We menen iets te zien dat er in realiteit niet is. We kunnen dat risico beperken door als streefdoel een lagere p waarde aan te nemen of het type onderzoek door niet geaffilieerde labo’s of “peers” (vb ecxetrne diensten of labo’s)  te laten overdoen. Maar opgelet: ook hier schuilen vaak addertjes in het gras zoals we in volgedne artikels zullen aantonen.

 

Maar wat als de p waarde hoger uitvalt bvb 0.15 ? Grote PANIE.K !!!?

 

De nulhypothese kan niet verworpen worden en onze mooie h1 hypothese (de hypothese waarmee we hoopten eindelijk genomineerd te worden voor de Nobelprijs spat als een ballonnetje uit elkaar. Weg artikel, weg academische carrière.

Ook hier geldt dat men beter nadenkt dan blind regeltjes te volgen en platgetrapte dwaalwegen te volgen. In de vlaag van paniek die volgt ziet men vaak dat onderzoekers aan p hacking doen. Ze gaan zonder veel schroom, het onderzoeksprotocol met de plompe voeten treden, sluiten nieuwe patiënten in (grote n is een statistische amplificator van kleine effecten), gaan nieuwe parameters bepalen of compound parameters fabrikeren tot na veel kneden  en sleutelen (data washing) het moment van verlossing aanbreekt als hun statistische software het magische p<005 op het scherm tovert. Een spinale  zucht van diepe opluchting wordt dan snel gevolgd door een tweede fase van ijverig brainstormen g gevolgd door een brainstormen resulterend in al dan niet subtiele aanpassingen in de  set van vragen (de primaire doelstellingen waarop de studie een antwoord moest proberen geven). Men zet dan kar snel aan de andere kant van het paard en alles klopt dan weer allemaal als de spreekwoordelijke  bus: hypothese bewezen en carrière gered. Welkom in de wereld van “p hacking”.

 

BESLUIT

Beide situaties p<005 en p > 005 moeten ons vooral doen nadenken.

En wie toch graag regels volgt denk dan aan de MAGIE

M: Magnitude van het effect. Is het significant op klinisch vlak. Een studie op 50.000 patiënten die aantoont met p<0.001 dat het beroemde homeopathisch middel “excrementium canis” de flatulentie index van Hanemann met 1 punt op de score van 100 doet afnemen kan dan al statistisch zeer significant zijn, klinisch is dat uiteraard baardige nonsens.

A: Accuraatheid van het gemeten effect. Gedenk dat in het bepalen van een t statistiek ook de standaarddeviatie zeer belangrijk is. Hoe kleiner de spreiding rond het gemeten groepsgemiddelde des te groter de kans op statistische significantie. Dat is de reden dat studies meticuleus dienen te gebeuren.

G: generalisatie. Kan het meer algemeen nuttig zijn of is het enkel van belang voor een beperkte groep. Een studie toont aan (met p<0.05) dat Tinctura laudanitium C200  de loopsnelheid van driepotige legkiekens verhoogt met 1%.

I: Interesse is het iets klinisch belangrijk en interessant of is het een banaliteit.

C: credibiliteit. Is het geloofwaardig. Een studie met p< 0.05 “bewijst” de werkhypothese “jeukpoeder helpt tegen apathie”

Besluit: laat p U niet misleiden.

Statistiek is geen domein waarin men begrip opsteekt door regeltjes te volgen maar een  intellectueel speelveld  waar enkel vruchten te plukken zijn mits rationele denken  kritische domeinkennis. Een wie allergisch is voor kleine  p kan steeds terecht bij grote B (Pastor Bayes);

 

In een deel II en deel II belichten we de beide situaties aan de hand van enkele zeer concrete voorbeelden.

 

Geen opmerkingen:

Een reactie posten

het antwoord is "42"

  en het antwoord op de vraag is …..42 !   Dr. G. Otte   En nu de vraag: vul het ontbrekend cijfer aan: 1    2    3 …?   “42” is...