Crise de réplication : pourquoi seulement 36 % des études répliquent

En 2011, un psychologue social réputé du nom de Daryl Bem a publié un article dans l’une des revues les plus prestigieuses de la discipline, affirmant avoir trouvé des preuves de précognition. Neuf expériences, huit résultats statistiquement significatifs, toutes suggérant que les êtres humains peuvent percevoir l’avenir. L’article avait passé l’examen par les pairs. Les statistiques étaient irréprochables. La méthodologie respectait chaque convention que le domaine imposait. C’était un signe avant-coureur de la crise de réplication qui allait bientôt forcer toute la discipline à reconnaître que ses méthodes pouvaient produire, valider et publier des preuves en faveur de quelque chose qui n’existe vraisemblablement pas.

Le problème n’était pas que Bem était un fraudeur. Le problème, c’est que les conventions elles-mêmes étaient défaillantes. Quand d’autres chercheurs ont tenté de reproduire ses résultats, ils n’ont rien trouvé. Et lorsqu’ils ont soumis leurs résultats nuls pour publication, la même revue qui avait publié l’étude originale les a refusés, au motif qu’elle ne publiait pas de réplications.

Cet épisode n’a pas provoqué la crise de réplication en psychologie. Il l’a révélée. Un système capable de produire, de valider et de publier des preuves de pouvoirs psychiques tout en refusant simultanément d’en publier l’infirmation souffrait d’un problème structurel bien plus profond que celui d’une seule étude.

Ce qu’a vraiment montré le projet de reproductibilité

En 2015, l’Open Science Collaboration, dirigée par le psychologue de l’université de Virginie Brian Nosek, a publié les résultats de la plus grande tentative de réplication systématique de l’histoire de la psychologie. L’équipe a sélectionné 100 études issues de trois grandes revues de psychologie, toutes publiées en 2008, et a tenté de les reproduire en suivant les méthodes et matériaux originaux, en consultant parfois les auteurs d’origine.

Les résultats étaient sans appel. Sur les 100 études originales, 97 avaient rapporté des résultats statistiquement significatifs. Seules 36 des réplications ont atteint la significativité statistique. La taille d’effet moyenne dans les réplications représentait environ la moitié de celle des études originales. Quand les équipes de réplication ont été invitées à évaluer subjectivement si le résultat original avait été reproduit, seulement 39 % ont répondu oui.

Ces chiffres méritent d’être mis en contexte. Un taux de réplication de 36 % ne signifie pas que 64 % des découvertes en psychologie sont « fausses » au sens courant du terme. Certains échecs peuvent refléter des différences de population, de contexte ou de mise en œuvre plutôt qu’une erreur dans l’étude initiale. Mais même en tenant compte de ces facteurs, l’écart entre ce que la littérature affirmait et ce qu’une réplication rigoureuse pouvait reproduire était trop important pour être écarté d’un revers de main. Quelque chose de systématique gonflait les résultats publiés.

Les mécanismes : comment les faux positifs s’accumulent

Pour comprendre pourquoi les résultats publiés sont moins fiables qu’ils n’y paraissent, il faut s’intéresser à trois pratiques qui ne constituent pas techniquement une fraude, mais qui en produisent une grande partie des effets. Les chercheurs leur ont donné des noms : le p-hacking (manipulation des valeurs p), le HARKing et le biais de publication. Elles interagissent de manière à aggraver mutuellement les problèmes.

Le p-hacking : faire parler les données dans le sens voulu

La significativité statistique en psychologie signifie traditionnellement atteindre une valeur p inférieure à 0,05, ce qui se traduit approximativement par : « Si aucun effet réel n’existait, il y aurait moins de 5 % de chances d’observer des résultats aussi extrêmes. » Le seuil est arbitraire, mais universel. Les carrières, les décisions de titularisation et les publications dans les revues dépendent tous du fait de le franchir.

Le p-hacking désigne la pratique consistant à ajuster son analyse jusqu’à franchir ce seuil. Cela peut prendre de nombreuses formes : écarter des valeurs aberrantes, ajouter ou supprimer des variables de contrôle, tester plusieurs variables dépendantes et ne rapporter que celle qui a fonctionné, collecter davantage de données jusqu’à ce que la valeur p passe sous 0,05, ou répartir les participants en sous-groupes jusqu’à ce qu’une combinaison produise un résultat significatif. Aucune de ces démarches n’implique nécessairement une malhonnêteté consciente. Un chercheur qui croit sincèrement à son hypothèse peut prendre chacune de ces décisions pour des raisons défendables, sans se rendre compte que l’effet cumulé est d’augmenter considérablement le taux de faux positifs.

Une enquête menée en 2012 auprès de plus de 2 000 psychologues a révélé que 42 % d’entre eux admettaient collecter des données supplémentaires après avoir vérifié si les résultats étaient statistiquement significatifs, et que 64 % admettaient publier sélectivement les études qui « avaient marché ». Une analyse de la Royal Society a répertorié les stratégies spécifiques et a constaté que même un p-hacking modéré pouvait faire passer le taux de faux positifs de 5 % en théorie à plus de 60 %.

Le HARKing : formuler l’hypothèse après coup

HARKing est l’acronyme de Hypothesizing After the Results are Known (formuler les hypothèses après avoir obtenu les résultats). Cette pratique consiste à mener une expérience, à observer un schéma inattendu dans les données, puis à rédiger l’article comme si ce schéma avait été prévu dès le départ. L’introduction présente une justification théorique impeccable. La section des résultats offre une confirmation satisfaisante. Le lecteur n’apprend jamais que le chercheur a testé quatre hypothèses différentes et que celle de l’article était la seule à avoir atteint la significativité.

La même enquête de 2012 a révélé que 51 % des psychologues admettaient avoir présenté un résultat inattendu comme s’il avait été prévu dès le départ. Le HARKing transforme la recherche exploratoire (précieuse, mais incertaine) en recherche confirmatoire (qui paraît bien plus convaincante). Il donne à la littérature scientifique l’apparence d’une série de prédictions réussies, là où elle n’est souvent qu’un assemblage de concordances trouvées après coup.

Le biais de publication : le problème du tiroir

En 1979, le psychologue Robert Rosenthal a décrit ce qu’il a appelé le « problème du tiroir ». Pour chaque étude trouvant un résultat statistiquement significatif et publiée, plusieurs autres ont peut-être testé la même hypothèse, n’ont rien trouvé, et n’ont jamais été soumises ou jamais acceptées. La littérature publiée surreprésente donc systématiquement les résultats positifs.

C’est le biais de survivance appliqué à la connaissance scientifique. On voit les études qui ont survécu au processus de publication. On ne voit pas celles qui ont été abandonnées, rejetées ou jamais rédigées parce que les résultats n’étaient « pas assez intéressants ». Les études survivantes créent une illusion de cohérence. Si dix laboratoires testent le même effet et que seuls les deux ayant trouvé un résultat significatif publient leurs données, la littérature affichera un taux de réplication de 100 % pour un phénomène qui a en réalité échoué 80 % du temps.

Le biais de publication n’est pas une conspiration secrète. C’est le résultat prévisible d’un système où les revues veulent des découvertes nouvelles et significatives, où les évaluateurs trouvent les résultats nuls inintéressants, et où les chercheurs ont besoin de publications pour conserver leur poste. Chaque acteur répond rationnellement aux incitations qui lui font face. Le résultat est un corpus scientifique systématiquement trompeur.

L’avertissement d’Ioannidis

Dix ans avant que le projet de reproductibilité ne confirme empiriquement le problème, l’épidémiologiste de Stanford John Ioannidis a publié dans PLoS Medicine un article dont le titre est l’un des plus provocateurs de l’histoire scientifique : « Why Most Published Research Findings Are False » (Pourquoi la plupart des résultats de recherche publiés sont faux). En s’appuyant sur un modèle mathématique intégrant les biais, la puissance statistique et le rapport entre hypothèses vraies et hypothèses fausses dans un domaine donné, Ioannidis a soutenu que la majorité des résultats publiés étaient probablement erronés.

Cet article est devenu l’un des plus cités de l’histoire de la littérature médicale. Son intuition centrale est simple, une fois qu’on la saisit : dans tout domaine où les chercheurs testent de nombreuses hypothèses, dont la plupart sont probablement fausses, même un faible taux de faux positifs produira une littérature dominée par des découvertes sans fondement. Ajoutez des études sous-dimensionnées (avec trop peu de participants pour détecter fiablement des effets réels), des méthodes d’analyse flexibles et une publication sélective, et la situation empire encore.

Tout le monde ne souscrit pas à la conclusion la plus radicale d’Ioannidis. Les biostatisticiens Jager et Leek ont calculé le taux de faux positifs dans la littérature médicale à environ 14 %, loin de la majorité évoquée par Ioannidis. Mais même les estimations les plus généreuses reconnaissent que le corpus publié contient bien plus de faux positifs que ses méthodes statistiques ne le laisseraient supposer.

La crise de réplication en pratique : ce qui s’est effondré

Les statistiques abstraites deviennent concrètes quand on examine des résultats précis qui n’ont pas résisté à la réplication.

L’épuisement de l’ego (ego depletion) a été l’un des concepts les plus influents de la psychologie sociale pendant deux décennies. L’idée : la volonté est une ressource limitée, comme un réservoir d’essence. Exercer son autocontrôle sur une tâche réduit les ressources disponibles pour la suivante. En 2010, plus de 200 études publiées étayaient ce concept. Puis, en 2016, un rapport de réplication enregistrée coordonné dans 23 laboratoires avec plus de 2 100 participants a trouvé une taille d’effet proche de zéro (d = 0,04, avec des intervalles de confiance allant du négatif au à peine positif). L’édifice de 200 études avait été construit sur des fondations qui ne pouvaient pas le soutenir.

Le cas de l’épuisement de l’ego est instructif parce qu’il ne raconte pas l’histoire d’une mauvaise science pratiquée par de mauvaises personnes. Les chercheurs d’origine étaient respectés. Les études étaient bien construites selon les normes de leur époque. Ce qui a failli, c’est le système qui les entourait : des études individuelles sous-dimensionnées, une publication sélective des résultats positifs, et un cadre théorique si intuitif qu’il décourageait le scepticisme.

Les postures de pouvoir (power posing), l’affirmation selon laquelle adopter des postures corporelles expansives pendant deux minutes provoque des changements hormonaux et augmente la propension à prendre des risques, est devenu un phénomène culturel après un TED Talk en 2012 d’Amy Cuddy visionné plus de 70 millions de fois. L’étude originale de 2010 comptait 42 participants. Les tentatives de réplication ultérieures avec des échantillons plus importants n’ont pas pu reproduire les effets hormonaux ou comportementaux. L’une des co-auteures originales, Dana Carney, a déclaré publiquement en 2016 qu’elle ne croyait pas que l’effet était réel.

Il ne s’agit pas de cas choisis à dessein pour illustrer des échecs. L’effet Dunning-Kruger, longtemps cité comme preuve que les personnes incompétentes sont particulièrement incapables de reconnaître leur incompétence, a fait l’objet de critiques statistiques sérieuses suggérant que le schéma caractéristique pourrait être en grande partie un artefact de la régression vers la moyenne, plutôt qu’un vrai biais cognitif. La menace du stéréotype, les effets d’amorçage et l’hypothèse de rétroaction faciale ont tous connu des échecs de réplication significatifs ou des tailles d’effet considérablement réduites.

Pourquoi la psychologie a été la plus touchée

La crise de réplication n’est pas propre à la psychologie. La médecine, l’économie, la biologie du cancer et les sciences politiques ont toutes connu leurs propres remises en question. Mais la psychologie en est devenue l’emblème, et il existe des raisons structurelles à cela.

Premièrement, la psychologie étudie le comportement humain, qui est sensible au contexte d’une façon que la chimie et la physique ne connaissent pas. Un effet démontré sur des étudiants américains dans une université particulière à une époque particulière peut ne pas se généraliser à d’autres populations, contextes ou périodes. Cette « sensibilité au contexte » rend la réplication intrinsèquement plus difficile, mais elle signifie aussi que le domaine avait besoin de méthodes plus rigoureuses, et non moins rigoureuses, pour distinguer les effets réels du bruit statistique.

Deuxièmement, la psychologie a historiquement fonctionné avec de petits échantillons. Une étude menée sur 40 participants divisés en deux groupes dispose d’une très faible puissance statistique pour détecter autre chose que des effets importants. Mais si on combine de petits échantillons avec des analyses flexibles et un biais de publication, on obtient une littérature pleine de résultats statistiquement significatifs qui sont en réalité du bruit.

Troisièmement, la structure d’incitation en psychologie récompense particulièrement la nouveauté. Une étude montrant qu’une intervention surprenante modifie le comportement est plus publiable, plus susceptible d’être citée, et plus à même de générer une couverture médiatique qu’une étude montrant que ce n’est pas le cas. Les mécanismes structurels à l’origine de la recherche contradictoire s’appliquent à toutes les disciplines, mais en psychologie ils interagissent avec un sujet où les découvertes surprenantes sont particulièrement attractives.

Ce qui a changé depuis 2015

La crise de réplication a donné naissance à ce que certains chercheurs appellent une « révolution de la crédibilité » : un ensemble de réformes structurelles visant à rendre le système plus résistant aux problèmes décrits ci-dessus. Les progrès sont réels, mesurables et incomplets.

Le préenregistrement oblige les chercheurs à s’engager publiquement sur leurs hypothèses, méthodes et plans d’analyse avant de collecter les données. Cela rend le p-hacking et le HARKing plus difficiles, mais pas impossibles. Le nombre d’études préenregistrées a augmenté de façon substantielle, même si une analyse de 2025 a révélé que certains chercheurs continuent à s’écarter de leurs plans enregistrés sans le divulguer.

Les rapports préenregistrés vont plus loin. Les revues évaluent et acceptent les propositions d’études avant que les données soient collectées, s’engageant à publier les résultats quels qu’ils soient. Plus de 300 revues proposent désormais ce format. Les études publiées sous forme de rapports préenregistrés affichent un taux bien plus élevé de résultats nuls par rapport aux publications traditionnelles, ce qui suggère que le système classique filtrait effectivement les résultats négatifs.

Les tailles d’échantillon ont augmenté. En psychologie sociale, la taille d’échantillon médiane est passée d’environ 80 à 100 participants au début des années 2010 à environ 250 aujourd’hui. Des échantillons plus importants offrent une meilleure puissance statistique et des estimations plus fiables.

L’ouverture des données et des matériaux permet à d’autres chercheurs de vérifier les analyses et de tenter des réplications. De nombreuses revues exigent ou encouragent désormais le partage des données, et des plateformes comme l’Open Science Framework fournissent l’infrastructure nécessaire.

Ces réformes ont eu des effets mesurables. Les grandes revues affichent désormais des critères de preuve plus stricts. Le schéma de résultats presque exclusivement positifs qui caractérisait la littérature d’avant la crise s’est atténué. Mais une revue de portée publiée en 2025 dans Royal Society Open Science a identifié une lacune importante : sur plus de 100 études examinant les interventions en faveur de la science ouverte, seules 15 ont directement mesuré si ces interventions amélioraient réellement la reproductibilité. Les réformes sont plausibles, de plus en plus adoptées, et encore seulement partiellement validées.

Ce qui n’a pas changé

La structure d’incitation de la science académique récompense toujours le volume de publications, le nombre de citations et les découvertes nouvelles, plutôt que la réplication, la rigueur et les résultats nuls. Les chercheurs qui consacrent leur temps à répliquer le travail d’autrui produisent moins d’articles « originaux », ce qui peut nuire à leur carrière. Les revues qui publient des réplications attirent moins de citations que celles qui publient des découvertes nouvelles.

Le préenregistrement peut être contourné. Les chercheurs peuvent préenregistrer des plans d’analyse vagues ou multiples, s’écarter du plan enregistré en le signalant en caractères minuscules, ou simplement ne pas préenregistrer leur travail exploratoire et le présenter comme confirmatoire. L’article de 2025 intitulé « Campbell’s Law Explains the Replication Crisis » a soutenu que les badges de préenregistrement pourraient devenir une nouvelle mesure à détourner, selon le schéma classique où toute métrique utilisée comme objectif cesse d’en être une bonne.

Le grand public, quant à lui, continue à rencontrer les résultats de la psychologie principalement à travers une couverture médiatique qui efface l’incertitude, le contexte et les tailles d’effet. Une étude qui trouve un effet modeste, peut-être fragile, devient un titre affirmant que « la science prouve » une vérité contre-intuitive sur la nature humaine. Le temps que l’échec de réplication survienne, si tant est qu’il survienne, la découverte originale est déjà ancrée dans la conscience populaire et dans les livres de développement personnel.

Ce que cela signifie pour la lecture des études

La crise de réplication ne signifie pas que la psychologie est inutile ni que tous les résultats publiés sont faux. Elle signifie que la littérature publiée est un échantillon biaisé de la recherche qui a été menée, que les études individuelles (surtout celles avec de petits échantillons, des découvertes surprenantes et aucune réplication indépendante) doivent être traitées comme des preuves préliminaires plutôt que comme des faits établis, et que les mécanismes de correction s’améliorent, mais sont loin d’être complets.

Si vous lisez une étude en psychologie, ou plus souvent un article de presse sur une telle étude, quelques questions méritent d’être posées. Quelle était la taille de l’échantillon ? A-t-on essayé de la répliquer ? Était-elle préenregistrée ? La taille d’effet suggère-t-elle quelque chose de significatif, ou le résultat est-il statistiquement significatif mais pratiquement négligeable ? La découverte est-elle rapportée avec une incertitude appropriée, ou présentée comme une vérité établie ?

La science n’est pas brisée. Mais le système qui traduit les travaux scientifiques en savoir publié a des modes de défaillance que la crise de réplication a mis au jour, et corriger ces défaillances est un chantier encore en cours. La chose la plus honnête que la psychologie ait faite au cours de la dernière décennie, c’est de l’admettre à voix haute.

La crise de réplication : pourquoi la plupart des études publiées en psychologie restent impossibles à reproduire

Ce qu’a vraiment montré le projet de reproductibilité

Les mécanismes : comment les faux positifs s’accumulent

Le p-hacking : faire parler les données dans le sens voulu

Le HARKing : formuler l’hypothèse après coup

Le biais de publication : le problème du tiroir

L’avertissement d’Ioannidis

La crise de réplication en pratique : ce qui s’est effondré

Pourquoi la psychologie a été la plus touchée

Ce qui a changé depuis 2015

Ce qui n’a pas changé

Ce que cela signifie pour la lecture des études

Sources

Ce qu’a vraiment montré le projet de reproductibilité

Les mécanismes : comment les faux positifs s’accumulent

Le p-hacking : faire parler les données dans le sens voulu

Le HARKing : formuler l’hypothèse après coup

Le biais de publication : le problème du tiroir

L’avertissement d’Ioannidis

La crise de réplication en pratique : ce qui s’est effondré

Pourquoi la psychologie a été la plus touchée

Ce qui a changé depuis 2015

Ce qui n’a pas changé

Ce que cela signifie pour la lecture des études

Sources

Articles liés

Comment fonctionne la mémoire humaine et pourquoi les témoignages oculaires sont peu fiables

La capture réglementaire : comment les industries s’emparent des agences censées les contrôler

Le fonctionnement réel du sommeil : le modèle à deux processus, la dette de sommeil, et pourquoi les week-ends ne suffisent pas

L’obsolescence programmée : comment les fabricants conçoivent des produits voués à l’échec