maandag 16 mei 2022

spionnen en statistiek

 

Over spionnen en statistiek

 

De nulhypothese niet kunnen verwerpen  is niet hetzelfde als ze aanvaarden

 

Dr. G. Otte

 

Inleiding

De manier waarop we wetenschappelijke evidentie opbouwen  bestaat erin dat we een actieve behandeling testen t.o.v. placebo (na randomisatie en gepaste blindering) op een voldoende aantal subjecten en dit in functie van de verwachte effect size (voorafgaande power analyse) en daarbij uitgaan van de nulhypothese H0 die stelt “onze behandeling heeft geen effect”. Aan de hand van de uitslagen in beide groepen kunnen we dan bepalen wat de kans is dat onze resultaten toch door het toeval zijn bepaald m.a.w. wat is de probabiliteit dat de nulhypothese toch waar is. Als deze kans kleiner is dan 5% ( p<0.05) dan kunnen we gerede aannemen dat het weinig waarschijnlijk is dat de nulhypothese juist is en dus dat we ze kunnen verwerpen. Er blijft dan natuurlijk toch nog 5% kans dat we mis zijn en dus een error type I maken (veel groter als onze studie niet perfect is). We kunnen dat risico verminderen door onze p limiet nog lager te stellen vb 1%. 

 

Maar wat als onze uitkomst hoger ligt dan 5% bv. 15%. In de meeste gevallen zal de onderzoeker dan zeggen dat de nulhypothese niet kan verworpen worden (juist) en zal hij die aanvaarden (fout). Dat lijkt bizar: niet kunnen aanvaarden is toch hetzelfde als verwerpen?

 

Niet helemaal juist.

Een spion in het struikgewas

 Diep verscholen in het struikgewas hield de spion de ingang van het kasteel nauwkeurig in de gaten. Het was vitaal belangrijk dat hij binnen zou geraken maar hij wist zeer goed dat als hij betrapt werd hij er wellicht het hachje zou bij inschieten. Daarom besloot hij niet impulsief te handelen en pas als hij zeker was van het juiste wachtwoord te kennen zijn kans te wagen.

 

Toen een eerste soldaat zich een tijdje geleden had aangemeld bij de poortwacht had deze geroepen “6” en de soldaat had geantwoord “3”. De helft van het getal dacht de spion maar hij wou bevestiging. Een tijdje nadien meldde zich een ander soldaat en op de roep van de poortwacht “8” had die geantwoord “4”. Nadien wasz het twaalf en het antwoord zes. Het was nu zo klaar als een klontje. De spion waagde zijn kan s en toen de poortwacht riep “10” antwoordde hij in volle vertrouwen “5” en werd prompt gearresteerd.

Want zijn hypothese: “deel het getal door twee” als verklaring van de cijferreeks  was fout. De correcte hypothese was: “uit hoeveel letters bestaat het getal dat de poortwacht U aangeeft”. Had die geroepen “elf” dan was het correcte antwoord “drie”. Het juiste antwoord was dus “vier” geweest. Sneu voor de spion en hopelijk vermakelijk voor de lezer.

 

Dit fictief verhaaltje illustreert dat er steeds meerdere hypotheses zijn die een datareeks kunnen verklaren.

 

We volgen het lot van onze ongelukkige spion tijdens  zijn proces.

Volgens zijn  advocaat was er immers totaal geen sprake van spionage. De man was gewoonweg in slaap gevallen na een avondje uit en had wakker schrikkend de poortwacht gevraagd naar het uur. Toen deze antwoordde “tien” had zijn client zeer verwonderd gekeken want het was nog volop licht en vragend gezegd “vijf” op vijf uur. De” poortwacht had dit totaal verkeerd geïnterpreteerd.

Voor de rechtbank zijn er twee hypotheses geformuleerd:  de man  is inderdaad een vuige spion die met kwade bedoelingen het kasteel probeerde binnen te geraken en dus is hij schuldig ofwel is de man gewoon een statisticus die even te diep in het glas had gekeken en dus wat verward had gereageerd t.o.v. de poortwacht die natuurlijk enkel zijn werk moest doen: arresteer eenieder die het wachtwoord verkeerd heeft m.a.w. niet schuldig (de nulhypothese). Het is aan de openbare aanklager om voldoende argumenten en bewijslast aan te dragen om met een aan zekerheid grenzende waarschijnlijkheid,  de schuld van de beklaagde te bewijzen. Lukt die daar niet in dan kan de hypothese van onschuld (de nulhypothese) niet met zekerheid verworpen worden maar daarom niet aanvaard worden. Immers ze niet kunnen verwerpen betekent dat de data  actueel onvoldoende bewijzend of overtuigend  zijn (te grote p waarde) om te schuld te bewijzen en de man als spion op te knopen  maar dat betekent niet dat men de nulhypothese ( onschuld) klakkeloos moet aanvaarden. De rechtbank blijft voorzichtig en humanitair en verkiest een vals negatief resultaat boven de veroordeling en bestraffing van een eventuele onschuldige (minimalisatie van gerechtelijke dwaling).

 

Besluit

 

Als men de nulhupothese niet kan verwerpen is het steeds goed om de data nogmaals na te zien en te onderzoeken of de H1 hypothese wel correct is en of er geen ander (beter) model of hypothese bestaat om de data te verklaren.

 

Statistiek is niet zomaar een zaak van blind regeltjes toepassen. Het is een zaak van nadelen.

 

PS het adres van deze creatieve  advocaat is helaas niet verkrijgbaar via de redactie.

---------------------------------------------------------------------------------------------------------

Geen opmerkingen:

Een reactie posten

het antwoord is "42"

  en het antwoord op de vraag is …..42 !   Dr. G. Otte   En nu de vraag: vul het ontbrekend cijfer aan: 1    2    3 …?   “42” is...