Stanford-Gefängnisexperiment: Der schockierende Betrug von 1971

Lesemodus

Das Stanford-Gefängnisexperiment, das jeder kennt

Das Stanford-Gefängnisexperiment ist eine der bekanntesten Studien in der Geschichte der Psychologie. Im August 1971 verwandelte Philip Zimbardo einen Kellerflur in Jordan Hall an der Stanford University in ein Scheingefängnis. Er rekrutierte 24 junge Männer über eine Zeitungsanzeige, wies sie per Zufallsverfahren als „Wärter” oder „Gefangene” ein und wartete ab, was passieren würde. Innerhalb weniger Tage wurden die Wärter sadistisch. Die Gefangenen brachen zusammen. Zimbardo beendete das Experiment nach sechs Tagen, weil die Situation außer Kontrolle geraten war.

Das ist die Version, die in so gut wie jedem einführenden Psychologiekurs weltweit gelehrt wird. Sie steht in Lehrbüchern als Beweis dafür, dass gewöhnliche Menschen grausam werden, wenn sie in Autoritätspositionen gesetzt werden. Zimbardo baute jahrzehntelang eine Karriere auf dieser Schlussfolgerung auf, trat schließlich als Sachverständiger in den Prozessen um die Folterfälle in Abu Ghraib auf und veröffentlichte 2007 Der Luzifer-Effekt, um zu erklären, „wie gute Menschen böse werden”.

Das Problem: Vieles davon war inszeniert.

Was tatsächlich in diesem Keller geschah

Die Lehrbuchversion verschweigt mehrere Tatsachen, die die Geschichte grundlegend verändern. Zimbardo beobachtete das Geschehen nicht passiv. Er fungierte gleichzeitig als leitender Forscher und als Gefängnisdirektor und steuerte aktiv das Umfeld, das er angeblich untersuchte. Sein Forschungsassistent David Jaffe wurde auf Band dabei aufgenommen, wie er die Wärter dazu anhielt, härter mit den Gefangenen umzugehen. Die Wärter wurden nicht spontan grausam; man hatte ihnen vorgegeben, was für ein Klima sie schaffen sollten.

Der berühmteste Moment des Experiments — ein Gefangener namens Douglas Korpi, der einen psychischen Zusammenbruch zu erleiden schien — war nicht echt. Korpi, der später Forensikpsychologe wurde, erklärte dem Journalisten Ben Blum Jahrzehnte danach: „Jeder Kliniker hätte gewusst, dass ich simulierte.” Er wollte das Experiment verlassen, um für seine Aufnahmeprüfungen für das Aufbaustudium zu lernen. Sein Schreien war eine Vorführung, um entlassen zu werden — kein Zeichen eines situationsbedingten psychischen Zusammenbruchs.

Der Wärter, der zum Inbegriff der Grausamkeit im Experiment wurde, Dave Eshelman, erzählte Inside Higher Ed, er sei die ganze Sache „als eine Art Improvisationsübung” angegangen und habe sich dabei bewusst an einer Figur aus dem Film Der Unbeugsame orientiert. Er spielte eine Rolle — er erlag nicht der Macht seiner Funktion.

Was die Archive enthüllten

Im Jahr 2019 veröffentlichte der französische Forscher Thibault Le Texier einen Artikel im American Psychologist, dem Flaggschiff-Journal der American Psychological Association (Amerikanische Psychologische Gesellschaft), mit dem Titel „Debunking the Stanford Prison Experiment” (Das Stanford-Gefängnisexperiment widerlegen). Le Texier hatte etwas getan, das sich in fast fünfzig Jahren niemand anderes die Mühe gemacht hatte zu tun: Er durchforstete Zimbardos eigene Archive in Stanford, hörte unveröffentlichte Aufnahmen, las interne Vermerke und befragte Teilnehmer.

Was er fand, war vernichtend. Die Wärter hatten konkrete Anweisungen erhalten, wie sie die Gefangenen behandeln sollten. Das Forschungsteam hatte aggressives Verhalten gefördert und Wärter gerügt, die zu nachsichtig waren. Ein Studentenexperiment in einem von Zimbardos Kursen drei Monate zuvor hatte als Generalprobe gedient. Die Schlussfolgerungen, die Zimbardo der Welt präsentiert hatte, waren Le Texiers Einschätzung zufolge formuliert worden, bevor die Daten überhaupt erhoben wurden.

Das Experiment war keine Studie, die überraschende Ergebnisse produzierte. Es war eher eine Demonstration, die darauf ausgelegt war, zu bestätigen, was ihr Schöpfer bereits glaubte.

Warum Lehrbücher es trotzdem weiter lehrten

Hier hört die Geschichte auf, die Geschichte einer einzelnen fehlerhaften Studie zu sein, und wird zur Geschichte des Versagens der Wissenschaft, sich selbst zu korrigieren. Eine Inhaltsanalyse von Jared Bartels aus dem Jahr 2015 untersuchte vierzehn einführende Psychologielehrbücher und stellte fest, dass nur zwei davon kritische Artikel über das Stanford-Gefängnisexperiment zitierten. Keines erwähnte die BBC Prison Study, eine 2002 von den Psychologen Alex Haslam und Steve Reicher durchgeführte Replikation, die das gegenteilige Ergebnis erbrachte: Ohne Anweisung wurden die Wärter keine Tyrannen, und die Gefangenen organisierten tatsächlich kollektiven Widerstand.

Das ist keine geringfügige Auslassung. Der gesamte Lehrgehalt des Stanford-Gefängnisexperiments besteht darin, dass Situationen den individuellen Charakter außer Kraft setzen. Die BBC-Studie zeigte, dass das nicht stimmt — zumindest nicht automatisch. Diese Studie aus Lehrbüchern wegzulassen ist so, als würde man Newtonsche Physik unterrichten, ohne zu erwähnen, dass Einstein einige Anmerkungen dazu hatte.

Das Muster ist bekannt. Die Replikationskrise in der Psychologie hat gezeigt, dass viele wegweisende Studien nicht reproduziert werden können, aber die Studien selbst bleiben in Lehrplänen verankert, weil die Aktualisierung von Lehrbüchern langsam ist, Verlage konservativ agieren und berühmte Experimente besseres Unterrichtsmaterial abgeben als die unordentliche Wirklichkeit. Das Stanford-Gefängnisexperiment überlebte aus demselben Grund, aus dem der Serotonin-Mythos überlebte: Es war eine klare, überzeugende Geschichte — und klare, überzeugende Geschichten widersetzen sich der Korrektur.

Warum das wichtig ist

Zimbardos Experiment war keine bloße akademische Übung. Er nutzte es, um ein Theoriegebäude zu errichten — den „Situationismus” — das beeinflusste, wie Gerichte, Streitkräfte und politische Entscheidungsträger über menschliche Grausamkeit denken. Als er bei den Prozessen zu Abu Ghraib aussagte, argumentierte er, die Soldaten, die irakische Gefangene folterten, seien keine schlechten Menschen gewesen, sondern gewöhnliche Individuen, korrumpiert durch ein schlechtes System. Dieses Argument stützt sich vollständig auf die Annahme, dass sein Experiment von 1971 bewiesen hatte, dass Situationen den moralischen Charakter außer Kraft setzen können.

Wenn das Experiment manipuliert wurde, ist das Fundament dieses Arguments erschüttert. Das bedeutet nicht, dass Situationen das Verhalten nie beeinflussen (das tun sie offensichtlich), aber es bedeutet, dass das bekannteste Beweisstück für extremen Situationismus überhaupt kein Beweis war. Es war die Demonstration eines Forschers, der die Antwort bereits kannte.

Die Lektion lautet nicht, dass die Psychologie grundlegend fehlerhaft ist. Sie lautet, dass berühmte Experimente dieselbe kritische Prüfung verdienen wie unbekannte, dass ein überzeugendes Narrativ kein robuster Befund ist und dass fünfzig Jahre Zitierungen etwas nicht wahr machen. Wie die UC-Davis-Psychologin Simine Vazire nach den Enthüllungen sagte: „Wir müssen aufhören, diese Arbeit zu feiern. Sie ist unwissenschaftlich. Raus damit aus den Lehrbüchern.”

Das Stanford-Gefängnisexperiment: Versuchsaufbau und offizielle Darstellung

Philip Zimbardos Stanford-Gefängnisexperiment (SPE) lief vom 14. bis zum 20. August 1971 in einem umgestalteten Kellerflur von Jordan Hall an der Stanford University. Zimbardo rekrutierte Teilnehmer über eine Kleinanzeige im Palo Alto Times und im Stanford Daily: „Männliche Studenten für psychologische Studie über das Gefängnisleben gesucht. 15 Dollar pro Tag für 1-2 Wochen.” Von rund 75 Bewerbern wurden 24 nach einer psychologischen Eignungsprüfung ausgewählt. Die Zuweisung erfolgte per Zufallsprinzip: neun Wärter, neun Gefangene, sechs Ersatzteilnehmer. Das Experiment wurde vom U.S. Office of Naval Research (Büro für Marineforschung) finanziert.

Das kanonische Narrativ, das Zimbardo jahrzehntelang präsentierte und das in Tausenden von Lehrbüchern, Kursen und TED-Vorträgen erschien, war ein schlichter Situationismus: Setze gewöhnliche Menschen in eine Gefängnisstruktur, und die Struktur selbst erzeugt Grausamkeit bei den Wärtern und Hilflosigkeit bei den Gefangenen. Zimbardo stellte sich als passiven Beobachter dar, der entsetzt war über das, was organisch aus der Situation hervorging. Er beendete die Studie nach sechs Tagen, als die Übergriffe seiner Darstellung nach zu schwerwiegend geworden waren, um ethisch vertretbar weiterzumachen.

Dieses Narrativ begann 2018 zu bröckeln und war 2019 nahezu vollständig in sich zusammengefallen.

Die Manipulationsbelege

Die Anweisung der Wärter

Le Texiers Archivforschung, veröffentlicht im American Psychologist im Jahr 2019 („Debunking the Stanford Prison Experiment“, Bd. 74, Nr. 7, S. 823-839), belegte, dass die Wärter explizite Anweisungen vom Forschungsteam erhalten hatten. Zimbardos eigene Dokumente zeigen, dass er den Wärtern Regeln und Verfahren vorgab, die darauf ausgelegt waren, Gefangene zu entmenschlichen. Le Texier stellte fest, dass „die Brutalität der Wärter geprobt worden war”, dass das Personal „das aggressive Verhalten der Wärter förderte und diejenigen rügte, die zu nachsichtig waren”, und dass das gesamte Konzept drei Monate zuvor in einem Studentenexperiment in Zimbardos Kurs vorab getestet worden war.

David Jaffe, Zimbardos studentischer Forschungsassistent (der später die Originalstudie mitverfasste), wurde auf Band dabei aufgezeichnet, wie er einen Wärter anwies, seinen Umgang mit Gefangenen zu eskalieren. Das war keine Randfigur, die improvisierte; Jaffe hatte die Einweisung der Wärter konzipiert und steuerte ihr Verhalten während des gesamten Experiments aktiv.

Korpis Zusammenbruch

Gefangener Nr. 8612, Douglas Korpi, lieferte die ikonischsten Aufnahmen des SPE: schreiend, weinend, offenbar in einer echten psychischen Krise — rund 36 Stunden nach Beginn des Experiments. Dieses Material wurde zum Kernstück von Zimbardos Narrativ, wonach die Situation die psychischen Abwehrmechanismen der Teilnehmer überwältigt hatte.

In einem Interview mit dem Journalisten Ben Blum im Jahr 2018, veröffentlicht auf Medium, erklärte Korpi unmissverständlich: „Jeder Kliniker hätte gewusst, dass ich simulierte.” Seine Motivation war banal: Er wollte das Experiment verlassen, um für seine Aufnahmeprüfungen für das Masterprogramm zu lernen. Er beschrieb seine Darbietung als „eher hysterisch als psychotisch”. Korpi promovierte später in klinischer Psychologie — was der Tatsache, dass sein studentisches Laienschauspiel fast ein halbes Jahrhundert lang für einen echten Zusammenbruch gehalten wurde, eine gewisse Ironie verleiht.

Eshelmanns Vorstellung

Wärter Dave Eshelman, der zum wiedererkennbarsten „grausamen Wärter” des Experiments wurde, erklärte Inside Higher Ed, er habe sich bewusst eine Figur nach dem sadistischen Aufseher aus dem Film Der Unbeugsame konstruiert. Er beschrieb seinen Ansatz als „eine Art Improvisationsübung” und sagte, er habe sein Verhalten absichtlich eskaliert, um auszutesten, „wie viel diese Leute einstecken, bevor sie sagen: ‘Jetzt reicht’s'”. Das war keine situationsbedingte Korrumpierung — sondern ein Student beim Laientheater.

Zimbardos Doppelrolle

Zimbardo war gleichzeitig Hauptuntersuchungsleiter und Gefängnisdirektor. In jedem anderen experimentellen Kontext wäre das sofort disqualifizierend: Der Forscher war ein aktiver Teilnehmer des Systems, das er vorgeblich objektiv untersuchte. Wärter John Mark erklärte, Zimbardo „wusste, was er wollte, und versuchte dann, das Experiment… so zu gestalten, dass es zu der Schlussfolgerung passte, zu der er bereits gelangt war”.

Das Problem mit dem Einwilligungsformular

Zimbardo behauptete, die Teilnehmer hätten informierte Einwilligungsformulare unterzeichnet, die einen expliziten Ausstiegssatz enthielten („Ich verlasse das Experiment”), mit dem sie die Studie jederzeit beenden konnten. Ben Blums Recherche fand keine Erwähnung eines solchen Satzes in den tatsächlichen Einwilligungsdokumenten vom August 1971. Das ist keine geringfügige Abweichung. Wenn Teilnehmer glaubten, nicht gehen zu können, wandelt sich die „Gefängnis”-Dynamik von einem emergenten psychologischen Phänomen zu einer schlichten Einschränkung: Menschen, die sich für gefangen halten, verhalten sich wie gefangene Menschen.

Die gescheiterte Replikation

Im Jahr 2002 führten die Psychologen Stephen Reicher und Alexander Haslam die BBC Prison Study durch, eine methodisch sorgfältigere Gefängnissimulation mit einem entscheidenden Unterschied: Die Wärter erhielten keinerlei Anweisungen, wie sie sich verhalten sollten. Die Ergebnisse waren das Gegenteil des SPE. Die Wärter bildeten keine kohärente autoritäre Gruppe. Die Gefangenen organisierten kollektiven Widerstand. Am sechsten Tag inszenierten die Gefangenen einen Ausbruch, der das Wärterregime unhaltbar machte.

Reicher und Haslam argumentierten, dass die Befunde des SPE Artefakte von Zimbardos aktiver Intervention waren und kein Beleg für eine universelle menschliche Tendenz. Ihr soziales Identitätsmodell der Tyrannei schlug vor, dass Gruppenidentifikation — nicht die situative Rollenzuweisung — darüber entscheidet, ob Menschen oppressiven Systemen gehorchen oder widerstehen. Wenn Wärtern gemeinsame Identität und Zweck fehlen (wie in der BBC-Studie), fragmentiert Autorität. Wenn Gefangene eine gemeinsame Identität entwickeln, entsteht Widerstand.

Das ist ein grundlegend anderes Modell menschlichen Verhaltens, das empirisch erheblich besser gestützt ist als Zimbardos Situationismus. Dennoch erwähnte 2015 kein einziges einführendes Psychologielehrbuch in Bartels’ Stichprobe die BBC Prison Study.

Das Lehrbuchproblem

Jared Bartels’ Inhaltsanalyse von 2015 in Psychology Learning & Teaching untersuchte vierzehn einführende Psychologielehrbücher auf ihre Berichterstattung über SPE-Kritik. Die Ergebnisse waren eindeutig: Nur zwei der vierzehn zitierten kritische Literatur. Kein einziges erwähnte die BBC-Replikation. Kein einziges thematisierte ökologische Validität. Nur ein einziges Lehrbuch erwähnte den Bias bei der Teilnehmerauswahl. Eine parallele Analyse von Griggs und Whitehead (2014) zu sozialpsychologischen Lehrbüchern ergab dasselbe Muster.

Das ist nicht bloß eine Unachtsamkeit. Lehrbücher sind das wichtigste Medium, über das Psychologiestudierende Forschung kennenlernen, und für die meisten Studierenden ist die Lehrbuchversion die einzige, die sie je zu lesen bekommen. Wenn Lehrbücher das SPE unkritisch präsentieren, versäumen sie nicht nur eine Aktualisierung — sie verbreiten aktiv ein verzerrtes Verständnis menschlichen Verhaltens an jede neue Studentengeneration.

Ein pädagogischer Beitrag von 2019 schlug vor, die SPE-Enthüllungen als Unterrichtsinstrument für kritisches Denken über Forschungsmethodik zu nutzen. Das ist ein vernünftiger Ansatz — er setzt aber voraus, dass Lehrende die Kritiken kennen. Der Kanal, über den die meisten Lehrenden das SPE selbst kennenlernten (ihre eigenen Lehrbücher, Jahre zuvor), enthielt diese Kritiken jedoch nicht. Das zeigt ein klassisches Beispiel für Survivorship Bias: Nur die Belege, die die gewünschte Schlussfolgerung stützen, werden weitergetragen.

Die Verlängerung: Abu Ghraib

Die praktischen Folgen der fehlerhaften SPE-Schlussfolgerungen beschränkten sich nicht auf Hörsäle. Zimbardo nutzte das Experiment, um eine umfassendere Theorie des Bösen zu entwickeln, und veröffentlichte 2007 Der Luzifer-Effekt: Wie normale Menschen zu Mördern, Folterknechten und Tätern werden. Er trat als Sachverständiger für die Verteidigung von Oberfeldwebel Ivan „Chip” Frederick auf, dem ranghöchsten Soldaten, der wegen der Misshandlungen von Gefangenen in Abu Ghraib vor ein Kriegsgericht gestellt wurde. Zimbardos Argument lautete, Frederick sei kein „fauler Apfel” gewesen, sondern das Produkt eines „kaputten Fasses”: Die systemischen Bedingungen in Abu Ghraib hätten aus einem gewöhnlichen Soldaten einen Folterer gemacht — genauso wie sein Experiment von 1971 angeblich gewöhnliche Studenten in Sadisten verwandelt hatte.

Wenn das grundlegende Experiment manipuliert wurde, stützte sich dieses Sachverständigengutachten auf kompromittierte Belege. Das situationistische Rahmenwerk mag partielle Wahrheiten enthalten (systemische Drücke beeinflussen das Verhalten tatsächlich), aber das Ausmaß dieses Einflusses wurde von einer Studie dramatisch übertrieben, in der der Forscher das Ergebnis, das er dann unpersönlichen Kräften zuschrieb, aktiv herbeiführte.

Der Mechanismus: Wie schlechte Wissenschaft fortbesteht

Die Langlebigkeit des SPE veranschaulicht mehrere sich gegenseitig verstärkende Mechanismen, die fehlerhafte Forschung am Leben erhalten:

Die Überlegenheit des Narrativs über die Daten. „Gute Menschen werden in schlechten Situationen böse” ist eine bessere Geschichte als „ein Forscher instruierte Teilnehmer, und einer davon täuschte einen Zusammenbruch vor”. Erzählungen, die klare moralische Lektionen bieten, widersetzen sich der Korrektur, weil die Korrektur weniger befriedigend ist als das Original.
Zitationskaskaden. Sobald eine Studie in genügend Lehrbüchern und Sekundärquellen zitiert wird, zitieren nachfolgende Autoren die Sekundärquellen, anstatt das Original zu prüfen. Die Studie wird zu einem eigenen Zitiernetzwerk — selbsterhaltend und selbstreferenziell.
Institutionelles Prestige. Der Name Stanford verleiht dem Experiment automatische Glaubwürdigkeit. Zimbardos Prominenz innerhalb der APA (er war 2002 Präsident) machte es beruflich heikel, ihn herauszufordern.
Träge Lehrbuchzyklen. Akademische Verlage aktualisieren Lehrbücher in mehrjährigen Zyklen, und ein berühmtes Experiment zu entfernen erfordert, es durch etwas ebenso Lehrreiches zu ersetzen. Trägheit begünstigt den Status quo.
Die Replikationslücke. Bis zur BBC-Studie im Jahr 2002 hatte niemand eine systematische Replikation versucht. Einunddreißig Jahre ohne Überprüfung sind eine lange Zeit. Wie wir in unserer Analyse der Replikationskrise dargelegt haben, ist diese Art von Lücke in der Psychologie nicht ungewöhnlich.

Dieses Muster — ein fehlerhafter Befund wird zur Gewissheit, weil er eine gute Geschichte erzählt und niemand die Originaldaten prüft — ist nicht auf das SPE beschränkt. Es ist derselbe Mechanismus, der die Theorie des chemischen Ungleichgewichts bei Depressionen am Leben hielt und den Anti-motivated Reasoning (motiviertes Nicht-Wahrhaben — die Neigung, unbequeme Belege zurückzuweisen) vor kritischer Prüfung schützt. Der Unterschied: Das SPE hatte einen besonders begabten Promotor.

Was das SPE tatsächlich belegt

Entmythologisiert ist das Stanford-Gefängnisexperiment kein Beleg für den Situationismus. Es ist ein Beleg für etwas, das man dafür umso wichtiger halten kann: wie ein charismatischer Forscher mit institutioneller Rückendeckung ein Narrativ konstruieren, es aggressiv bewerben und so tief in die Bildungsinfrastruktur einschreiben kann, dass es fast fünfzig Jahre und einen französischen Wissenschaftler braucht, der die Archive durchforstet, um es herauszulösen.

Das Experiment beweist nicht, dass Situationen Menschen böse machen. Es beweist, dass Wissenschaft ohne adversariale Prüfung, ohne Replikation und ohne Archivtransparenz keine Wissenschaft ist. Es ist Geschichtenerzählung im Laborkittel.