Replikationskrise: Warum nur 36 % der Studien repliziert werden

Im Jahr 2011 veröffentlichte der angesehene Sozialpsychologe Daryl Bem in einer der renommiertesten Fachzeitschriften der Psychologie einen Artikel, in dem er behauptete, Belege für Präkognition gefunden zu haben. Neun Experimente, acht statistisch signifikante Ergebnisse, alle mit dem Befund, dass Menschen die Zukunft wahrnehmen können. Der Artikel hatte die Peer-Review bestanden. Die Statistiken stimmten. Die Methodik folgte jeder Konvention, die das Fachgebiet verlangte. Es war ein Vorbote der Replikationskrise, die die gesamte Disziplin bald dazu zwingen sollte, sich damit auseinanderzusetzen, wie ihre Methoden Belege für etwas erzeugen, validieren und veröffentlichen konnten, das mit an Sicherheit grenzender Wahrscheinlichkeit nicht real ist.

Das Problem war nicht, dass Bem ein Betrüger war. Das Problem waren die Konventionen selbst. Als andere Forscher versuchten, seine Ergebnisse zu replizieren, fanden sie nichts. Und als sie ihre Null-Befunde zur Veröffentlichung einreichten, lehnte dieselbe Zeitschrift, die den Originalartikel veröffentlicht hatte, sie ab, mit der Begründung, sie publiziere keine Replikationen.

Diese Episode hat die Replikationskrise in der Psychologie nicht ausgelöst. Sie hat sie offenbart. Ein System, das Belege für psychische Kräfte produzieren, validieren und veröffentlichen konnte, während es gleichzeitig die Widerlegung dieser Kräfte ablehnte, litt an einem strukturellen Problem, das weit tiefer reichte als jede einzelne Studie.

Was das Reproducibility Project tatsächlich ergab

Im Jahr 2015 veröffentlichte die Open Science Collaboration unter der Leitung des Psychologen Brian Nosek von der University of Virginia die Ergebnisse des größten systematischen Replikationsversuchs in der Geschichte der Psychologie. Das Team wählte 100 Studien aus drei führenden Psychologiezeitschriften aus, allesamt im Jahr 2008 veröffentlicht, und versuchte, sie mit den ursprünglichen Methoden und Materialien sowie, wo möglich, in Absprache mit den ursprünglichen Autoren zu reproduzieren.

Die Ergebnisse waren eindeutig. Von den ursprünglichen 100 Studien hatten 97 statistisch signifikante Befunde berichtet. Nur 36 der Replikationen erreichten statistische Signifikanz. Die durchschnittliche Effektgröße in den Replikationen betrug etwa die Hälfte der ursprünglichen. Auf die Frage, ob sie das ursprüngliche Ergebnis als reproduziert betrachten würden, antworteten die Replikationsteams bei einer subjektiven Einschätzung nur zu 39 Prozent mit Ja.

Diese Zahlen brauchen Kontext. Eine Replikationsrate von 36 Prozent bedeutet nicht, dass 64 Prozent der psychologischen Befunde im alltäglichen Sinne „falsch” sind. Manche Misserfolge mögen Unterschiede in der Bevölkerung, dem Umfeld oder der Umsetzung widerspiegeln, anstatt auf einen falschen ursprünglichen Befund hinzuweisen. Aber selbst unter Berücksichtigung dieser Faktoren war die Kluft zwischen dem, was die Literatur behauptete, und dem, was eine sorgfältige Replikation reproduzieren konnte, zu groß, um sie wegzureden. Irgendetwas Systematisches blähte die publizierten Ergebnisse auf.

Die Mechanismen: Wie sich falsch-positive Befunde anhäufen

Um zu verstehen, warum publizierte Ergebnisse weniger verlässlich sind, als sie erscheinen, muss man drei Praktiken verstehen, die technisch gesehen keine Betrugshandlungen sind, aber viele der gleichen Folgen erzeugen. Forscher haben ihnen Namen gegeben: P-Hacking, HARKing und Publikationsbias. Sie interagieren auf eine Weise, die das Problem verstärkt.

P-Hacking: die Daten der Hypothese anpassen

Statistische Signifikanz bedeutet in der Psychologie traditionsgemäß, einen p-Wert unter 0,05 zu erreichen, was sich ungefähr so übersetzen lässt: „Wenn es keinen echten Effekt gäbe, würde es weniger als 5 Prozent Wahrscheinlichkeit geben, derart extreme Ergebnisse zu beobachten.” Der Schwellenwert ist willkürlich, aber universell. Karrieren, Tenure-Entscheidungen und Zeitschriftenpublikationen hängen alle davon ab, ihn zu überschreiten.

P-Hacking bezeichnet die Praxis, die eigene Analyse so lange anzupassen, bis man diesen Schwellenwert überschreitet. Das kann viele Formen annehmen: Ausreißer ausschließen, Kontrollvariablen hinzufügen oder entfernen, mehrere abhängige Variablen testen und nur diejenige berichten, die funktioniert hat, so lange mehr Daten erheben, bis der p-Wert unter 0,05 fällt, oder Teilnehmer in Untergruppen aufteilen, bis eine Kombination Signifikanz erzeugt. Keine dieser Maßnahmen muss bewusste Unehrlichkeit beinhalten. Ein Forscher, der aufrichtig an seine Hypothese glaubt, könnte jede dieser Entscheidungen aus vertretbaren Gründen treffen, ohne zu erkennen, dass der kumulative Effekt darin besteht, die Falsch-positiv-Rate erheblich zu erhöhen.

Eine Umfrage aus dem Jahr 2012 unter mehr als 2.000 Psychologen ergab, dass 42 Prozent zugaben, nach der Überprüfung der statistischen Signifikanz zusätzliche Daten erhoben zu haben, und 64 Prozent gaben zu, selektiv nur die Studien zu berichten, die „funktioniert” hatten. Eine Analyse der Royal Society katalogisierte die spezifischen Strategien und stellte fest, dass selbst moderates P-Hacking die Falsch-positiv-Rate vom nominalen Wert von 5 Prozent auf über 60 Prozent anheben kann.

HARKing: Hypothesen nachträglich formulieren

HARKing steht für Hypothesizing After the Results are Known (Hypothesen nach Bekanntwerden der Ergebnisse formulieren). Es beschreibt die Praxis, ein Experiment durchzuführen, ein unerwartetes Muster in den Daten zu entdecken und dann den Artikel so zu schreiben, als hätte man dieses Muster von Anfang an vorhergesagt. Die Einleitung präsentiert eine saubere theoretische Begründung. Der Ergebnisteil liefert eine befriedigende Bestätigung. Der Leser erfährt nie, dass der Forscher vier verschiedene Hypothesen getestet hat und die im Artikel die einzige war, die Signifikanz erreichte.

Dieselbe Umfrage aus dem Jahr 2012 ergab, dass 51 Prozent der Psychologen zugaben, einen unerwarteten Befund so dargestellt zu haben, als wäre er von Anfang an vorhergesagt worden. HARKing verwandelt explorative Forschung (die wertvoll, aber unsicher ist) in konfirmatorische Forschung (die weit überzeugender erscheint). Es lässt die wissenschaftliche Literatur wie eine Reihe erfolgreicher Vorhersagen aussehen, anstatt was sie oft tatsächlich ist: eine Sammlung von Mustern, die im Nachhinein gefunden wurden.

Publikationsbias: das Schubladenproblem

Im Jahr 1979 beschrieb der Psychologe Robert Rosenthal, was er das „Schubladenproblem” nannte. Für jede Studie, die ein statistisch signifikantes Ergebnis findet und veröffentlicht wird, mag es mehrere Studien geben, die dieselbe Hypothese getestet haben, nichts fanden und entweder nie eingereicht oder nie angenommen wurden. Die veröffentlichte Literatur überrepräsentiert deshalb systematisch positive Befunde.

Das ist der Survivorship Bias angewandt auf wissenschaftliches Wissen. Man sieht die Studien, die den Publikationsprozess überlebt haben. Man sieht nicht diejenigen, die aufgegeben, abgelehnt oder nie aufgeschrieben wurden, weil die Ergebnisse „nicht interessant genug” waren. Die überlebenden Studien erzeugen eine Illusion von Konsistenz. Wenn zehn Labore denselben Effekt testen und nur die zwei, die Signifikanz gefunden haben, ihre Ergebnisse veröffentlichen, zeigt die Literatur eine Replikationsrate von 100 Prozent für einen Befund, der tatsächlich 80 Prozent der Zeit scheiterte.

Publikationsbias ist keine geheime Verschwörung. Er ist das vorhersehbare Ergebnis eines Systems, in dem Zeitschriften neuartige, signifikante Befunde möchten, Gutachter Null-Ergebnisse uninteressant finden und Forscher Publikationen brauchen, um ihre Stellen zu behalten. Alle Beteiligten reagieren rational auf die Anreize, mit denen sie konfrontiert sind. Das Ergebnis ist ein wissenschaftliches Archiv, das systematisch irreführend ist.

Die Warnung von Ioannidis

Ein Jahrzehnt bevor das Reproducibility Project das Problem empirisch bestätigte, veröffentlichte der Stanford-Epidemiologe John Ioannidis einen Artikel in PLoS Medicine mit einem der provokantesten Titel in der Wissenschaftsgeschichte: „Why Most Published Research Findings Are False” (Warum die meisten publizierten Forschungsergebnisse falsch sind). Mithilfe eines mathematischen Modells, das Bias, statistische Power und das Verhältnis von wahren zu falschen Hypothesen in einem gegebenen Forschungsfeld einbezog, argumentierte Ioannidis, dass die Mehrheit der publizierten Befunde wahrscheinlich falsch sei.

Der Artikel ist einer der meistzitierten in der Geschichte der medizinischen Literatur. Seine zentrale Erkenntnis leuchtet ein, sobald man sie einmal begriffen hat: In jedem Forschungsfeld, in dem viele Hypothesen getestet werden, von denen die meisten wahrscheinlich falsch sind, wird selbst eine niedrige Falsch-positiv-Rate eine von Scheinbefunden dominierte Literatur erzeugen. Fügt man unterdimensionierte Studien (mit zu wenigen Teilnehmern, um echte Effekte zuverlässig zu entdecken), flexible Analysemethoden und selektive Publikation hinzu, verschlechtert sich die Rechnung weiter.

Nicht jeder stimmt Ioannidis’ dramatischster Schlussfolgerung zu. Die Biostatistiker Jager und Leek berechneten die Falsch-positiv-Rate in der medizinischen Literatur auf etwa 14 Prozent, weit von der Mehrheit entfernt, die Ioannidis suggerierte. Aber selbst die großzügigsten Schätzungen erkennen an, dass die publizierte Literatur erheblich mehr Falsch-positive enthält, als ihre statistischen Methoden erwarten lassen würden.

Die Replikationskrise in der Praxis: Was zusammenbrach

Abstrakte Statistiken werden konkret, wenn man sich spezifische Befunde anschaut, die der Replikation nicht standhielten.

Ego Depletion (Ich-Erschöpfung) war zwei Jahrzehnte lang eines der einflussreichsten Konzepte der Sozialpsychologie. Die Idee: Willenskraft ist eine begrenzte Ressource, wie ein Kraftstofftank. Wer bei einer Aufgabe Selbstkontrolle einsetzt, hat weniger davon für die nächste zur Verfügung. Bis 2010 stützten über 200 veröffentlichte Studien das Konzept. Dann fand im Jahr 2016 ein registrierter Replikationsbericht, koordiniert über 23 Labore mit über 2.100 Teilnehmern, eine Effektgröße von praktisch null (d = 0,04, mit Konfidenzintervallen von negativ bis kaum positiv). Der Turm aus 200 Studien war auf Fundamenten errichtet worden, die ihn nicht tragen konnten.

Der Fall Ego Depletion ist lehrreich, weil er keine Geschichte von schlechter Wissenschaft schlechter Menschen erzählt. Die ursprünglichen Forscher waren angesehen. Die Studien waren nach den Maßstäben ihrer Zeit gut konstruiert. Was versagte, war das System um sie herum: unterdimensionierte Einzelstudien, selektive Veröffentlichung positiver Ergebnisse und ein theoretischer Rahmen, der so intuitiv war, dass er Skepsis entmutigte.

Power Posing (Machtposen), die Behauptung, dass das Einnehmen ausgreifender Körperhaltungen für zwei Minuten hormonelle Veränderungen bewirkt und risikoreiches Verhalten steigert, wurde nach einem TED-Talk von Amy Cuddy aus dem Jahr 2012, der über 70 Millionen Mal aufgerufen wurde, zu einem kulturellen Phänomen. Die ursprüngliche Studie aus dem Jahr 2010 hatte 42 Teilnehmer. Nachfolgende Replikationsversuche mit größeren Stichproben konnten die hormonellen oder verhaltensbasierten Effekte nicht reproduzieren. Eine der ursprünglichen Mitautorinnen, Dana Carney, erklärte 2016 öffentlich, dass sie nicht glaube, dass der Effekt real sei.

Dies sind keine gezielt ausgewählten Misserfolge. Der Dunning-Kruger-Effekt, der lange als Beweis dafür angeführt wurde, dass inkompetente Menschen besonders unfähig sind, ihre eigene Inkompetenz zu erkennen, sah sich ernsthaften statistischen Einwänden ausgesetzt, die nahelegen, dass das charakteristische Muster möglicherweise weitgehend ein Artefakt der Regression zur Mitte ist und kein echtes kognitives Phänomen. Stereotype Threat (Bedrohung durch Stereotype), Priming-Effekte und die Hypothese des Gesichtsausdrucks-Feedbacks haben alle erhebliche Replikationsmisserfolge oder deutlich reduzierte Effektgrößen verzeichnet.

Warum die Psychologie am härtesten getroffen wurde

Die Replikationskrise ist nicht auf die Psychologie beschränkt. Medizin, Wirtschaftswissenschaften, Krebsbiologie und Politikwissenschaft haben alle ihre eigenen Auseinandersetzungen erlebt. Aber die Psychologie wurde zum Sinnbild der Krise, und dafür gibt es strukturelle Gründe.

Erstens untersucht die Psychologie menschliches Verhalten, das kontextsensitiv ist auf eine Weise, die Chemie und Physik nicht kennen. Ein Effekt, der an amerikanischen Studierenden an einer bestimmten Universität in einem bestimmten Jahrzehnt nachgewiesen wurde, lässt sich möglicherweise nicht auf andere Bevölkerungsgruppen, Umgebungen oder Zeiträume verallgemeinern. Diese Kontextsensitivität macht Replikation von Natur aus schwieriger, bedeutet aber auch, dass das Fachgebiet strengere Methoden benötigte, nicht weniger strenge, um echte Effekte von Rauschen zu unterscheiden.

Zweitens arbeitete die Psychologie historisch mit kleinen Stichproben. Eine Studie mit 40 Teilnehmern, die in zwei Gruppen aufgeteilt werden, verfügt über sehr geringe statistische Power, um etwas anderes als große Effekte zuverlässig zu entdecken. Kombiniert man jedoch kleine Stichproben mit flexibler Analyse und Publikationsbias, erhält man eine Literatur voller statistisch signifikanter Befunde, die in Wirklichkeit Rauschen sind.

Drittens belohnt die Anreizstruktur in der Psychologie Neuheit besonders. Eine Studie, die zeigt, dass eine überraschende Intervention das Verhalten verändert, ist leichter zu publizieren, häufiger zitierbar und wahrscheinlicher Gegenstand medialer Berichterstattung als eine Studie, die das Gegenteil zeigt. Die strukturellen Mechanismen hinter widersprüchlicher Forschung gelten fachübergreifend, aber in der Psychologie interagieren sie mit einem Forschungsgegenstand, bei dem überraschende Befunde besonders vermarktbar sind.

Was sich seit 2015 verändert hat

Die Replikationskrise löste das aus, was manche Forscher als „Glaubwürdigkeitsrevolution” bezeichnen: ein Bündel struktureller Reformen, die das System widerstandsfähiger gegen die beschriebenen Probleme machen sollen. Die Fortschritte sind real, messbar und unvollständig.

Präregistrierung verpflichtet Forscher dazu, ihre Hypothesen, Methoden und Analysepläne vor der Datenerhebung öffentlich festzulegen. Das macht P-Hacking und HARKing schwieriger, wenn auch nicht unmöglich. Die Zahl präregistrierter Studien ist erheblich gestiegen, obwohl eine Analyse aus dem Jahr 2025 feststellte, dass manche Forscher weiterhin von ihren registrierten Plänen abweichen, ohne dies offenzulegen.

Registrierte Berichte gehen noch weiter. Zeitschriften begutachten und akzeptieren Studienvorschläge, bevor die Daten erhoben werden, und verpflichten sich, die Ergebnisse unabhängig vom Ausgang zu veröffentlichen. Über 300 Zeitschriften bieten dieses Format inzwischen an. Studien, die als registrierte Berichte veröffentlicht werden, zeigen eine deutlich höhere Rate von Null-Ergebnissen im Vergleich zu traditionellen Veröffentlichungen, was nahelegt, dass die traditionelle Pipeline tatsächlich negative Ergebnisse herausfilterte.

Stichprobengrößen sind gewachsen. In der Sozialpsychologie ist die mediane Stichprobengröße von etwa 80 bis 100 Teilnehmern zu Beginn der 2010er Jahre auf heute etwa 250 gestiegen. Größere Stichproben bieten mehr statistische Power und zuverlässigere Schätzungen.

Offene Daten und offene Materialien ermöglichen es anderen Forschern, Analysen zu überprüfen und Replikationen zu versuchen. Viele Zeitschriften verlangen oder fördern inzwischen das Teilen von Daten, und Plattformen wie das Open Science Framework stellen die nötige Infrastruktur bereit.

Diese Reformen haben messbare Auswirkungen gehabt. Führende Zeitschriften legen heute strengere Evidenzmaßstäbe an. Das Muster fast ausschließlich positiver Befunde, das die Vorkrisen-Literatur prägte, hat sich abgeschwächt. Eine Scoping-Review aus dem Jahr 2025 in Royal Society Open Science identifizierte jedoch eine erhebliche Lücke: Von über 100 Studien, die Open-Science-Interventionen untersuchten, maßen nur 15 direkt, ob diese Interventionen die Reproduzierbarkeit tatsächlich verbesserten. Die Reformen sind plausibel, werden zunehmend angenommen und sind erst teilweise validiert.

Was sich nicht verändert hat

Die Anreizstruktur der akademischen Wissenschaft belohnt nach wie vor Publikationsvolumen, Zitationszahlen und neuartige Befunde gegenüber Replikation, Strenge und Null-Ergebnissen. Forscher, die ihre Zeit mit der Replikation anderer Arbeiten verbringen, produzieren weniger „originale” Veröffentlichungen, was ihrer Karriere schaden kann. Zeitschriften, die Replikationen veröffentlichen, erhalten weniger Zitationen als solche, die neuartige Befunde publizieren.

Präregistrierung lässt sich umgehen. Forscher können vage oder mehrere Analysepläne präregistrieren, vom registrierten Plan abweichen und die Abweichung im Kleingedruckten offenlegen, oder ihre explorative Arbeit schlicht nicht präregistrieren und als konfirmatorisch darstellen. Der Artikel aus dem Jahr 2025 „Campbell’s Law Explains the Replication Crisis” argumentierte, dass Präregistrierungsabzeichen zu einer weiteren messbaren Größe werden könnten, die man optimiert, gemäß dem Muster, dass jede als Ziel verwendete Kennzahl aufhört, eine gute Kennzahl zu sein.

Die breite Öffentlichkeit begegnet psychologischen Befunden derweil weiterhin hauptsächlich durch Medienberichterstattung, die Unsicherheit, Kontext und Effektgrößen entfernt. Eine Studie, die einen kleinen, möglicherweise fragilen Effekt findet, wird zu einer Schlagzeile, die behauptet, die „Wissenschaft beweise” eine kontraintuitive Wahrheit über die menschliche Natur. Wenn der Replikationsmisserfolg eintritt, falls überhaupt, ist der ursprüngliche Befund bereits im Volksverständnis und in Ratgeberbüchern verankert.

Was das für die Lektüre von Forschungsergebnissen bedeutet

Die Replikationskrise bedeutet nicht, dass die Psychologie wertlos ist oder dass alle publizierten Befunde falsch sind. Sie bedeutet, dass die veröffentlichte Literatur eine verzerrte Auswahl der durchgeführten Forschung darstellt, dass Einzelstudien (insbesondere solche mit kleinen Stichproben, überraschenden Befunden und keiner unabhängigen Replikation) als vorläufige Evidenz und nicht als gesicherte Tatsachen behandelt werden sollten, und dass die Korrekturmechanismen sich verbessern, aber noch weit von der Vollständigkeit entfernt sind.

Wenn man eine psychologische Studie liest, oder häufiger einen Zeitungsartikel darüber, lohnen sich ein paar Fragen. Wie groß war die Stichprobe? Hat sie jemand repliziert? War sie präregistriert? Deutet die Effektgröße auf etwas Bedeutsames hin, oder ist der Befund statistisch signifikant, aber praktisch unbedeutend? Wird der Befund mit angemessener Unsicherheit berichtet, oder wird er als gesicherte Wahrheit dargestellt?

Die Wissenschaft ist nicht kaputt. Aber das System, das wissenschaftliche Arbeit in publiziertes Wissen übersetzt, hat Versagensmodi, die die Replikationskrise offengelegt hat, und diese Versagensmodi zu beheben ist ein Projekt, das noch im Gange ist. Das Ehrlichste, was die Psychologie im letzten Jahrzehnt getan hat, war, das laut auszusprechen.

Die Replikationskrise: Warum die meisten publizierten Befunde der Psychologie nicht reproduzierbar sind

Was das Reproducibility Project tatsächlich ergab

Die Mechanismen: Wie sich falsch-positive Befunde anhäufen

P-Hacking: die Daten der Hypothese anpassen

HARKing: Hypothesen nachträglich formulieren

Publikationsbias: das Schubladenproblem

Die Warnung von Ioannidis

Die Replikationskrise in der Praxis: Was zusammenbrach

Warum die Psychologie am härtesten getroffen wurde

Was sich seit 2015 verändert hat

Was sich nicht verändert hat

Was das für die Lektüre von Forschungsergebnissen bedeutet

Quellen

Was das Reproducibility Project tatsächlich ergab

Die Mechanismen: Wie sich falsch-positive Befunde anhäufen

P-Hacking: die Daten der Hypothese anpassen

HARKing: Hypothesen nachträglich formulieren

Publikationsbias: das Schubladenproblem

Die Warnung von Ioannidis

Die Replikationskrise in der Praxis: Was zusammenbrach

Warum die Psychologie am härtesten getroffen wurde

Was sich seit 2015 verändert hat

Was sich nicht verändert hat

Was das für die Lektüre von Forschungsergebnissen bedeutet

Quellen

Verwandte Artikel

Wie Schlaf wirklich funktioniert: das Zwei-Prozess-Modell, Schlafschuld und warum Wochenenden nicht ausreichen

Geplante Obsoleszenz: Wie Hersteller Produkte zum Versagen bringen

Wie das menschliche Gedächtnis funktioniert und warum Zeugenaussagen unzuverlässig sind

Regulierungskaptur: Wie Industrien die Behörden übernehmen, die sie kontrollieren sollen