De container bias
Dr. G. Otte
Inleiding
Wat vaak
opvalt in publieke discussies over
maatschappelijk “gevoelige” thema’s is dat ze snel tot splitting, polarisatie en verhitte
debatten aanleiding geven (zoals thans in de discussie pro- of contra vaccinatie
weer eens het geval is). We stellen daarbij keer op keer vast hoe gemakkelijk schijnbaar logische conclusies
uit cijfermateriaal (de beruchte statistieken) mensen op een totaal verkeerd
spoor kunnen zetten. Bepaalde psychologische factoren zoals de strijd voor het
grote gelijk en de daar psychologisch sterk bij aansluitende “confirmation bias”
(het verschijnsel waarbij men vooral in
het debat de argumenten laat doorwegen die de eigen visie ondersteunen en de
andere scotomiseert of minimaliseert) zorgen ervoor dat het verkeerde spoor
lang en soms vastberaden (eerder vaak verbeten) aangehouden kan worden.
Disclaimer:
Het is expliciet
niet de bedoeling van dit artikel om mensen te beschuldigen of te kleineren en
met alle zonden van Israël te beladen maar gewoon om een illustratie te brengen
van een vorm van bias die, als men er
niet op getraind is, niet altijd gemakkelijk te herkennen valt. Men spreekt van
de container of categorische bias of met een geleerd woord de class imbalance bias” en zoals men zal zien is
het effect vaak zeer subtiel. Men loopt er als het ware in met de ogen wijd
open.
Ik
illustreerde dit in mijn boekje (psychiatrie met kleine p) in een hoofdstuk dat ik hierbij de lezer ter
illustratie gratis aanbiedt.
Wat is die
CIB (Class Imbalance Bias) ?
Het is een
sublieme manier van de statistische doodzonde: een sample gebruiken dat niet
representatief is voor de populatie maar dan wel zo sluw verpakt dat men het
niet altijd snel door heeft. Voel U niet depressief als het U zou overkomen: niemand
is er immuun voor
Men kan dat allemaal
zeer theoretisch gaan uitleggen maar een verhaal is vaak duidelijker dan een
ellenlange complexe uitleg.
Welkom in
Eagle Rock
We spreken
over een (denkbeeldig) stadje genaamd Eagle
Rock, gelegen ten zuidwesten van Boston
met een bevolking van 1800 zielen meestal afgestudeerden van MIT die werken in
cybersecurity voor de Amerikaanse
regering. Een snood land ten noorden van zuid Korea geleid door een dictatoriale
panda ( ook totaal denkbeeldig nvdr) heeft in een ondergronds labo ten
zuidwesten van Junghen een virus van het
corona type ontwikkeld de zogenaamde
Ill3- variant dat mensen een jarenlang persisterend postviraal cognitief “brain
fog” syndroom bezorgt. Niet de meest geschikte hersentoestand om waakzaam en
vigilant te programmeren of te analyseren. Er is geen natuurlijke weerstand
tegen deze infectie m.a.w ieder die het virus binnenkrijgt zal dit syndroom
gaan vertonen.
Gelukkig heeft
de CIA, waakzaam als altijd, tijdig onraad geroken en is gestart met de ontwikkeling van een vaccin. Helaas
stond dit nog niet volledig op punt toen agenten van de dictator het virus al in
de waterbedeling van het stadje aanbrachten. Er zat dan ook niet veel anders meer
op dan ervanuit te gaan dat iedereen besmet was en dat men best iedereen, van kind tot volwassene het vaccin zou
toedienen. Met een ongezien efficiëntie werd dit collectief vaccinatieprogramma
uitgerold en op enkele dagen was zowaar 99.7% gevaccineerd. in totaal bleven
dus 0.3 3% dwz +/- 5 personen door allerlei omstandigheden zonder vaccinatie.
Rond het
vaccin was er nogal wat beroering gezien het gebaseerd was op een nieuwe siRNA
technologie, de bijwerkingen ervan niet bekend waren, de efficiëntie niet 100% zou
zijn en gans de ontwikkeling ervan met de
nodige haast gebeurde maar iets is altijd beter dan niets en dus was er een positieve
aanvaarding. Nood breekt wet.
Bijwerkingen
van belang traden gelukkig niet op maar de bescherming was slechts 90% (wat op
zichzelf niet eens zo slecht is).
De
situatie in Boston
In een groot
Bostons ziekenhuis zag men op de opname afdeling evenwel een toestroom van
patiënten uit Eagle Rock met een griepachtig syndroom, spierpijn en sufheid
waarvan 5 niet en zowaar 180 wel het omstreden vaccin hadden gekregen.
Stel dat men
het voorgaande verhaal niet te lezen krijgt en enkel de cijfers van de
“container” nl de kliniek uit Boston. Dan ziet men een stroom van 185 patiënten
met een 37 keer meer gevaccineerde !
Men zou voor
minder een schrik opdoen om zich te laten vaccineren nietwaar.
Een ander voorbeeld
uit het domein van ML (machine learning) is een deep learning neuraal netwerk
dat getraind werd om wolven te onderscheiden van honden. Gezien evenwel de
meeste foto’s van wolven genomen waren in de winterse toendra (sneeuw op de achtergrond) leerde het
algoritme vooral de associatie wit en wolf.
Goede data met goed gebalanceerde klas verdeling is dus wel essentieel zeker
wanneer dergelijke bias kan resulteren in onfair raciale, gender of ander
maatschappelijk debat. Verder voorbeelden daarvan in het hoofdstuk uit
psychiatrie met kleine p in bijlage.
Referenties
Hoofdstuk
13: de categorische fallacy
Geen opmerkingen:
Een reactie posten