Is psychologie een pseudowetenschap?

'Het betreft alleen een echt wetenschappelijk effect als het gereproduceerd kan worden door iedereen die het experiment op de beschreven manier nabootst.' Karl Popper, wetenschapsfilosoof.

De psychologie, vooral de sociale variant, blijft maar negatief in het nieuws komen. De grote bom ontplofte vorig jaar. Alsof de grootschalige fraude van Diederik Stapel (in 2012) niet genoeg was, werd bekend dat zo'n 60 % van honderd gepubliceerde psychologische onderzoeken uit de sociale en cognitieve psychologie niet gerepliceerd kon worden, en dus waarschijnlijk niet deugt. Dit grootschalige replica-onderzoek – bekend geworden als the Reproducibility Project– veroorzaakte een schokgolf door de psychologiewereld.

Mijn vakgebied lijkt besmet met diezelfde illusies en (zelf)misleiding als je van politici, alternatief genezers en andere pseudowetenschappers kunt verwachten. Dat is natuurlijk precies zoals het niet moet. Wetenschap zou moeten gaan om het blootleggen van de werkelijkheid, niet om het verzinnen van feiten of het bevestigen van vooroordelen. Wat ging er nou precies mis?

The Reproducibility Project
Nadat grootschalige fraude van bekende psychologen als Diederik Stapel, Marc Hauser en Dirk Smeesters werd ontdekt en nadat een reeks klassieke onderzoeken (zoals die over de beïnvloeding van het onderbewuste) en controversiële (zoals die van ‘parapsycholoog’ Derryl Bem) niet gerepliceerd konden worden, besloot psychologiehoogleraar Brian Nosek dat er iets gedaan moest worden om de puin te ruimen. Hij startte in 2012 een wereldwijd onderzoek waarbij hij in samenwerking met 270 andere psychologen en statistici honderd onderzoeken uit de sociale en cognitieve psychologie probeerde te repliceren. Het resultaat (gepubliceerd in 2015) was erger dan verwacht.

Terwijl 97% van de honderd onderzochte studies significante resultaten vermeldden, bleken dat in de replica’s slechts 36 % te zijn. De gevonden effecten waren bovendien gemiddeld half zo sterk als in de oorspronkelijke onderzoeken. Vooral de ‘sociale’ onderzoeken kwamen er bekaaid vanaf: die bleken twee keer zo weinig gereproduceerd te kunnen worden dan de ‘cognitieve’ onderzoeken. (Dat is op zich niet vreemd, want de werking van bijvoorbeeld het geheugen (typisch cognitieve psychologie) zal bij proefpersonen waarschijnlijk minder variëren dan de manier waarop die proefpersonen in een bepaalde sociale situatie reageren (sociale psychologie).

Ik moet bekennen dat ik zelf ook 'vervuilde' onderzoeken heb geciteerd om een punt te maken. Eén specifiek onderzoek dat ik graag aanhaalde is die van het potlood-effect. Dit onderzoek toonde schijnbaar dat proefpersonen zich significant blijer voelden nadat zij een potlood tussen hun tanden hadden gehouden. (De hypothese was dat het potlood de lachspieren stimuleerde, waardoor het brein automatisch de bijbehorende gelukstofjes aanmaakte.) Methodoloog Eric-Jan Wagemakers leidde dit replica-onderzoek en vond echter geen enkel effect meer. *

Hoe kun je de tegenstrijdige resultaten tussen die originele en de replica-onderzoeken verklaren?

Het komt erop neer dat de eerder gevonden effecten ofwel gebaseerd zijn op statistisch toeval ofwel op slecht uitgevoerd onderzoek en zelfs fraude. (In de onderzochte studies van het Reproducibility Project is overigens geen fraude ontdekt.)

De publicatiebias, P-hacking en de onwil replicatie-onderzoek te doen
Behalve fraude (zoals het vervalsen van data) zijn er grofweg een paar manieren waarop gevonden effecten vals kunnen zijn of overdreven worden:

1. De publicatiebias. Onderzoeken met significante (en vooral bijzondere) uitkomsten worden eerder gepubliceerd dan onderzoeken waaruit geen effect of een onduidelijk effect blijkt. Omdat die laatste onderzoeken vaak ongepubliceerd in de bergkast verdwijnen, wordt dit wetenschappelijke probleem ook wel het ladekast-effect genoemd. Dit effect verklaart bijvoorbeeld waarom antidepressiva langere tijd veiliger en efficiënter leken dan ze zijn. Veel huisartsen en psychologen schreven – zonder enige gewetenswroeging – jarenlang antidepressiva voor aan hun sombere patiënten op basis van twee gepubliceerde onderzoeken met positieve resultaten. Als zij echter op de hoogte waren geweest dat er nog negen(!) niet gepubliceerde onderzoeken waren die geen positieve effecten en wel nare bijwerkingen lieten zien, dan hadden ze vast voorzichtiger geweest.

2. P-hacking oftewel goochelen met de data. Het was voor sociale wetenschappers min of meer een geaccepteerd gebruik om net zo lang met de beschikbare data te goochelen totdat er ergens een effect of verband tevoorschijn kwam. En zoals elke statisticus weet: staar lang genoeg naar willekeurige data en je vindt vast een ogenschijnlijk interessant (maar waarschijnlijk nietszeggend) verband of patroon. ‘Dat gaat bijvoorbeeld zo: 'Jammer, onze hypothese dat mensen ongelukkiger worden van amusementsprogramma’s wordt niet gesteund, maar we zien wel dat er stemmingsverschillen zijn tussen mannen en vrouwen zijn die televisie kijken. Dan publiceren we toch daarover. Dat is ook interessant.’

Om de publicatiebias en p-hacking tegen te gaan, worden wetenschappers tegenwoordig verzocht om ruim van tevoren vast te leggen welk effect ze precies willen onderzoeken en hoe ze de relevante data willen meten en analyseren. Het achteraf zoeken naar (meestal toevallige) verbanden moet zo verleden tijd worden.

3. Omdat je puur op basis van statistiek kunt verwachten dat zelfs goed uitgevoerde onderzoeken regelmatig een vals positief of vals negatief resultaat laten zien is replica-onderzoek broodnodig. Maar replica-onderzoeken zijn voor een onderzoeker gewoon niet zo interessant om te doen. Waarom zou je een oud onderzoek nabootsen als je ook een origineel effect kunt ontdekken met een nieuw onderzoek (en daarmee je kansen op zowel publicatie als subsidie vergroot). De Nobelprijs zul je in ieder geval niet met een replica-onderzoek binnenslepen.

Wanneer eenmalig onderzoek een verassend effect laat zien dat niet in de lijn der verwachting ligt kun je er donder op zeggen dat het resultaat gewoon niet klopt. Maar ook dan kan alleen vervolgonderzoek dat duidelijk maken.

De media zal daar natuurlijk niet op wachten en die mediagenieke effecten meteen de wereld inslingeren alsof het harde feiten zijn. Ze willen hun lezers behagen. 'Ah, introverten doen vaker aan SM, interessant!'

Vanwege deze drie bezwaren sprak een voormalig onderzoeker ooit de rake woorden: 'Publicatiedrang leidt tot wetenschappelijke pornografie. Dit zet een premie op veel publiceren en niet goed onderzoek doen. Academici worden stukloonwetenschappers die geen interessante onderzoeksvragen zien maar geinige effectjes.’ De ironie wil dat die onderzoeker niemand minder was dan de meesterfraudeur himself, Diederik Stapel. Hij wist waar hij over sprak.

Hoewel wetenschappers al veel eerder bekend waren met bovengenoemde problemen is het Reproducibility Project een eerste serieuze poging van psychologen om hun argwaan omtrent psychologisch onderzoek systematisch te onderzoeken. Aan the Reproducibility Project werken nu 45 Nederlandse psychologen en psychologen mee, waaronder dus potlood-onderzoeker Wagemans. In een interview met Vrij Nederland noemde hij het Stapel-schandaal 'het beste wat de psychologie kon overkomen, want de affaire leidt tot reflectie over hoe binnen het vak data worden beheerd en geanalyseerd. Het botweg gegevens uit de duim zuigen zoals Stapel deed gaat wel heel erg ver. Maar veel psychologen zijn wel van hetzelfde hellende vlak aan het afglijden. Ze ‘martelen’ de data tot die iets ‘bekennen’.'

Is de psychologie nog wel te vertrouwen?
Het project heeft een grootschalig probleem in de sociale wetenschappen blootgelegd, maar de schade is wellicht minder groot als op het eerste gezicht lijkt. Het betekent niet dat de psychologie als geheel wetenschappelijk niets voorstelt, het betekent vooral dat je de verassende uitkomsten van eenmalige onderzoeken niet zomaar kunt vertrouwen. Vooral niet als het om spectaculaire, verrassende of exotische uitkomsten gaat. Veel inzichten uit de psychologie zijn inmiddels wel stevig door meerdere onderzoeken vastgesteld, maar de exotische 'wetenschappelijke' psychologische trivia die je vaak in de media tegenkomt, kun je maar beter met een korrel zout nemen (totdat vervolgonderzoek aantoont dat het om een solide effect gaat).

De reputatieschade van de psychologie is ergens een goede zaak, daar zijn de psychologen het wel over eens. Velen zijn er zelf trots op dat de onwetenschappelijkheid in hun eigen vakgebied zo grondig wordt aangepakt. Mede door the Reproducibility Project zijn er ook grootschalige initiatieven gestart om medische en economische onderzoeken te reproduceren. En ook daar zijn de resultaten alarmerend.

Het project laat in ieder geval goed zien hoe de wetenschap altijd werkt of hoort te werken. Slecht uitgevoerde onderzoeken of ongeldige conclusies worden vroeg of laat altijd onderuit gehaald en gecorrigeerd door beter uitgevoerd wetenschap. En dat is uiteindelijk precies wat wetenschap van pseudowetenschap onderscheidt. De psychologie heeft een lange weg te gaan, maar de grote schoonmaak is begonnen. Neem tot die tijd nooit zomaar iets aan omdat een psycholoog het zegt of omdat dat het in de krant staat.

Gerelateerde artikelen?
Het onderscheid tussen wetenschap en pseudowetenschap.
Waarom alternatieve geneeswijzen alternatief worden genoemd?
Welke deskundigen kun je wel en niet vertrouwen?
Waarom je het nut van psychotherapie met een korrel zou moet nemen

* Disclaimer: de besmette onderzoeken die ik heb geciteerd, heb ik vooral gebruikt om achterliggende psychologische principes te duiden die al wel door meerdere onderzoeken zijn vastgesteld. Het potlood-effect bijvoorbeeld, hoewel vals, past namelijk prima bij het vastgestelde principe dat het veranderen van je gedrag meer effect heeft op je stemming dan het veranderen van gedachten.

Reacties

Reactie toevoegen

Plain text

  • Geen HTML toegestaan.
  • Regels en paragrafen worden automatisch gesplitst.