Meinung 9 Min. Lesezeit

KI-Sicherheitstheater: Wenn Haftungsschutz sich als Schadensminderung tarnt

Dieser Artikel wurde automatisch aus dem Englischen von einer KI übersetzt. Originalversion auf Englisch lesen →
AI safety theater: when liability protection masquerades as harm reduction
🎧 Anhören
Mar 13, 2026

Opinion.

Es gibt zwei Fragen, die ein Unternehmen stellen kann, wenn es entscheidet, was seine KI sich weigern soll zu tun. Die erste: Reduziert diese Einschränkung Schaden? Die zweite: Schützt uns diese Einschränkung, wenn jemand zu Schaden kommt? Diese Fragen klingen ähnlich. Sie erzeugen sehr unterschiedliche Produkte, und der Unterschied zwischen ihnen ist das Fundament des KI-Sicherheitstheaters.

Die Kluft zwischen echtem Sicherheits-Engineering und unternehmerischem Haftungsmanagement ist zur bestimmenden Spannung in der KI-Entwicklung geworden. Was als „KI-Sicherheit” vermarktet wird, ist zunehmend KI-Sicherheitstheater: ein Satz von Einschränkungen, die nicht darauf ausgelegt sind, Nutzer zu schützen, sondern Bilanzen. Die Unterscheidung ist wichtig, denn diejenigen, die den Preis dieser Verwirrung zahlen, sind die Hunderte von Millionen Nutzer, die täglich mit diesen Systemen interagieren und sie zunehmend weniger nützlich finden, als sie sein sollten.

Das Haftungskostüm

Wenn ein KI-Modell sich weigert, die Geschichte des Zweiten Weltkriegs zu besprechen, ist das keine Sicherheitsentscheidung. Niemand kommt zu Schaden, wenn ein Chatbot die Ostfront erklärt. Wenn ein Modell sich weigert, die Pharmakologie gängiger Medikamente zusammenzufassen, schützt das niemanden vor medizinischer Fehlinformation; dieselbe Information steht auf der ersten Seite jeder Suchmaschine. Als Googles Gemini sich Anfang 2024 weigerte, Bilder von weißen Personen zu generieren und historisch ungenaue Darstellungen von Soldaten der Nazi-Ära als Schwarze produzierte, war das keine Diversitätsinitiative. Es war eine Haftungsberechnung, die ihr Ziel so weit verfehlte, dass sie zur Selbstparodie wurde. Google-CEO Sundar Pichai nannte die Ergebnisse in einem internen Memo „völlig inakzeptabel”, ein stilles Eingeständnis, dass die Schutzmaßnahmen für eine völlig falsche ZielfunktionIn der KI die mathematische Formel, die ein Modell zu optimieren versucht. Was die Zielfunktion belohnt, bestimmt das Verhalten des Modells — ein falsches Ziel erzeugt Systeme, die technisch erfolgreich, aber praktisch wertlos sind. optimiert worden waren.

Das sind Haftungsentscheidungen im Sicherheitskostüm. Die Logik ist einfach: Kein Unternehmen wurde je verklagt, weil seine KI sich weigerte, eine Frage zu beantworten. Viele Unternehmen hatten PR-Krisen, weil ihre KI eine Frage beantwortet hatte. Die Anreizstruktur schreibt sich von selbst.

KI-Sicherheitstheater und die Asymmetrie der Sichtbarkeit

Das Kernproblem des KI-Sicherheitstheaters ist eine Asymmetrie der Evidenz. Wenn ein KI-System eine schädliche Ausgabe produziert, ist diese Ausgabe konkret. Sie kann als Screenshot gespeichert, in sozialen Medien geteilt, an Journalisten weitergeleitet, bei Kongressanhörungen zitiert werden. Sie hat Gewicht. Sie hat eine URL. Eine einzige schlechte Antwort eines Chatbots kann innerhalb von Stunden zur Schlagzeile werden.

Die Kosten der Überrestriktion sind im Gegensatz dazu unsichtbar. Ein medizinischer Forscher, der eine nutzlose Nicht-Antwort über Arzneimittelwechselwirkungen erhält, schreibt keinen Nachrichtenartikel darüber. Er schließt den Tab. Ein Student, der keine Hilfe beim Verständnis einer sensiblen historischen Periode bekommt, reicht keine Beschwerde ein. Er findet eine schlechtere Quelle. Ein Cybersicherheits-Experte, der von einem KI-Erkennungstool gemeldet wird, weil er zu klar schreibt, hat weder Rechtsmittel noch Publikum. Der Schaden ist real, aber diffus, verteilt auf Millionen von Interaktionen, die einzeln trivial erscheinen und zusammen einen enormen Nutzenverlust darstellen.

Kein Produktmanager wurde je gefeuert, weil eine KI zu vorsichtig war. Viele wurden gefeuert, weil eine KI zu freizügig war. Diese Asymmetrie erzeugt kein gutes Urteilsvermögen. Sie erzeugt eine Ratsche, die sich nur in eine Richtung dreht.

Die Menschen, die es tatsächlich missbrauchen würden

Die Standardbegründung für aggressive Inhaltsbeschränkungen ist, dass sie Missbrauch verhindern. Dieses Argument hat einen strukturellen Fehler, der offensichtlich sein sollte, aber selten anerkannt wird: Die am stärksten zum Missbrauch von KI-Systemen motivierten Menschen sind per Definition diejenigen, die am stärksten motiviert sind, Einschränkungen zu umgehen.

Die 0,1 % der Nutzer, die tatsächlich schädliche Informationen von einem KI-Modell suchen würden, werden nicht durch eine Ablehnungsnachricht abgeschreckt. Sie nutzen Jailbreaks. Sie nutzen Open-Source-Modelle ohne Schutzmaßnahmen. Sie nutzen die Dutzenden von „unzensierten” Modellvarianten, die auf Hugging Face verfügbar sind. Sie finden die Information über andere Kanäle, weil die Information selbst nicht schwer zu finden ist. Wie Sicherheitsforscher dokumentiert haben, unterdrücken pauschale Inhaltsfilter oft legitime Cybersicherheitsarbeit, während sie nichts tun, um tatsächliche Bedrohungsakteure aufzuhalten, die Einschränkungen routinemäßig umgehen.

Was die Einschränkungen tatsächlich bewirken, ist die Verschlechterung der Erfahrung für die 99,9 % der Nutzer mit legitimen Bedürfnissen. Der Lehrer, der um Hilfe beim Erklären einer komplexen historischen Gräueltat bittet, erhält dieselbe Ablehnung wie der hypothetische böswillige Akteur. Der Romanautor, der einen realistischen Bösewicht schreiben will, wird als potenzielle Bedrohung behandelt. Der Sicherheitsforscher, der Abwehrmaßnahmen testet, wird von genau den Werkzeugen ausgesperrt, die er zum Schutz von Systemen braucht. Die Einschränkungen sind sowohl nutzlos gegen ihre erklärten Ziele als auch schädlich für alle anderen, eine Kombination, die disqualifizierend sein sollte, stattdessen aber als „verantwortungsvolle KI” etikettiert wird.

Echte Sicherheit vs. Haftungssicherheit

Um es klar zu sagen: Echte KI-Sicherheitsarbeit existiert, und sie ist wichtig. Modelle daran zu hindern, bei der Synthese neuartiger Biowaffen zu helfen, ist ein echtes Sicherheitsanliegen. Sicherzustellen, dass autonome Systeme in Entscheidungen mit hohem Einsatz menschliche Aufsicht bewahren, ist ein echtes Sicherheitsanliegen. Anthropics Weigerung, die Nutzung seines Claude-Modells für inländische Massenüberwachung oder vollautonome Waffensysteme zu erlauben, was dazu führte, dass die Trump-Regierung das Unternehmen im Februar 2026 von Bundesverträgen ausschloss, stellt eine echte Sicherheitsposition mit echten Kosten dar. Ob Sie mit dieser spezifischen Grenzziehung einverstanden sind oder nicht, sie ist klar an einem Punkt gezogen, an dem realer Schaden für reale Menschen plausibel ist.

Das Problem ist, dass dasselbe Wort, „Sicherheit”, sowohl diese Art von prinzipientreuer Position als auch die Entscheidung abdeckt, einen Chatbot daran zu hindern, zu erklären, wie Schlösser funktionieren. Wenn alles Sicherheit ist, ist nichts Sicherheit. Das Etikett verliert seine Fähigkeit, zwischen Einschränkungen, die Menschen schützen, und Einschränkungen, die Quartalsergebnisse schützen, zu unterscheiden. Diese Vermischung untergräbt aktiv das öffentliche Vertrauen in KI-Sicherheit als berechtigtes Anliegen, weil Nutzer die trivialen Einschränkungen ständig erleben und die bedeutsamen nie. Ihre gelebte Erfahrung mit „KI-Sicherheit” besteht darin, gesagt zu bekommen, dass sie kein Rezept für einen allgemein erhältlichen Cocktail bekommen können, und sie schließen vernünftigerweise, dass das gesamte Unterfangen eine Inszenierung ist.

Die regulatorische Rückkopplungsschleife

Die sich entwickelnde regulatorische Landschaft droht, diese Dynamik zu verfestigen. Wie die Forschung der RAND Corporation zur KI-Haftung dokumentiert hat, können Haftungsrahmen bei guter Gestaltung echte Anreize zur Schadensminderung schaffen und Unternehmen dazu zwingen, Kosten zu internalisieren, die sie sonst Dritten aufbürden würden. Aber sie können auch das erzeugen, was Politikforscher „Liability-Washing” nennen: Sicherheitsmaßnahmen hauptsächlich zu ergreifen, um eine rechtliche Verteidigung aufzubauen, statt um Schaden zu verhindern.

Die KI-Verordnung der EU (EU AI Act), die 2025 in ihre Durchsetzungsphase eintrat, und das New Yorker RAISE-Gesetz (New York RAISE Act), das Ende 2025 unterzeichnet wurde, erlegen beide Compliance-Anforderungen auf, die Unternehmen zu substanziellen Sicherheitspraktiken oder zu aufwendigen Dokumentationsritualen treiben könnten, je nachdem, wie sich die Durchsetzung entwickelt. Das Risiko, identifiziert durch die Analyse des Cato Institute zu KI-Regulierung und Meinungsfreiheit, besteht darin, dass vage „Sicherheits”-Mandate Unternehmen rechtliche Deckung geben, Ausgaben weit über das hinaus einzuschränken, was ein vernünftiges Schadenskalkül rechtfertigen würde, weil Über-Compliance keine Strafe nach sich zieht, Unter-Compliance jedoch schon.

Das Ergebnis ist eine Rückkopplungsschleife. Unternehmen überrestriktieren, um die Haftung zu minimieren. Regulierer sehen die eingeschränkten Ausgaben als Basislinie und kodifizieren sie. Die Basislinie verschiebt sich. Unternehmen schränken weiter ein, um der neuen Basislinie voraus zu bleiben. An keinem Punkt in diesem Zyklus fragt jemand, ob die Nutzer tatsächlich sicherer sind, weil die Nutzersicherheit nie die optimierte Variable war.

Wie echte Sicherheit aussehen würde

Ein auf tatsächliche Schadensminderung ausgerichteter Sicherheitsrahmen würde anders aussehen als das, was die meisten KI-Unternehmen derzeit liefern. Er würde mit einem einfachen Prinzip beginnen: Einschränkungen sollten proportional zur Wahrscheinlichkeit und Schwere realen Schadens sein, nicht zur Wahrscheinlichkeit und Schwere von PR-Schäden.

Das bedeutet zu akzeptieren, dass ein Chatbot, der die Chemie gängiger Haushaltsreiniger bespricht, kein bedeutsamer Schadensvektor ist, weil diese Information überall frei verfügbar ist. Es bedeutet, zwischen Information zu unterscheiden, die gefährlich ist, weil sie selten ist (neuartige Synthesewege für kontrollierte Substanzen), und Information, die nur in der Vorstellung einer Compliance-Abteilung gefährlich ist (der Wikipedia-Artikel über Sprengstoff). Es bedeutet anzuerkennen, dass die Weigerung eines KI-Systems, sich mit einem Thema zu befassen, das Thema nicht unzugänglich macht; sie macht das KI-System weniger nützlich.

Es bedeutet auch, die Kosten der Einschränkung zu messen, nicht nur die Kosten der Erlaubnis. Jede abgelehnte Anfrage hat Kosten. Jede gekürzte Antwort hat Kosten. Jeder Nutzer, der lernt, dass der KI nicht vertraut werden kann, ehrlich mit einem komplexen Thema umzugehen, und aufhört, sie für ernsthafte Arbeit zu nutzen: das sind Kosten. Diese Kosten sind schwer präzise zu quantifizieren, was genau der Grund ist, warum sie in einem System ignoriert werden, das nur sichtbare Fehlschläge zählt.

Das Anreizproblem hat einen Namen

In der Sicherheitsforschung gibt es ein Konzept namens „Sicherheitstheater” (security theater): Maßnahmen, die das Gefühl von Sicherheit vermitteln, ohne das Risiko wesentlich zu reduzieren. Die Beschlagnahme von Wasserflaschen durch die TSA ist das kanonische Beispiel. KI-Sicherheitstheater funktioniert nach demselben Prinzip. Das Modell weigert sich, etwas Harmloses zu besprechen; das Unternehmen verweist auf die Verweigerung als Beweis der Verantwortung; der Nutzer ist nicht sicherer; das Unternehmen ist rechtlich besser aufgestellt.

Der Begriff ist wichtig, weil er ein strukturelles Anreizproblem benennt, statt Böswilligkeit zuzuschreiben. Die meisten Ingenieure, die an KI-Sicherheit arbeiten, sind aufrichtig. Die meisten Produktmanager, die Einschränkungen implementieren, glauben aufrichtig, das Richtige zu tun. Das Problem ist nicht böser Wille; es ist ein System, das Vorsicht wahllos belohnt und Risiko asymmetrisch bestraft. Gute Menschen, die innerhalb schlechter Anreizstrukturen rational handeln, erzeugen schlechte Ergebnisse. Das ist keine neue Beobachtung über Institutionen, aber eine, die die KI-Industrie bemerkenswert langsam verinnerlicht hat.

Solange sich die Anreizstruktur nicht ändert, solange Überrestriktion keine reputations- und regulierungsbezogenen Kosten vergleichbar mit Unterrestriktion nach sich zieht, wird KI-Sicherheitstheater die Norm bleiben. Die Frage ist, ob die Industrie sich selbst reformieren kann, bevor das Konzept der KI-Sicherheit das öffentliche Vertrauen in die echte Sicherheitsarbeit erodiert, die wirklich zählt. Angesichts der Risiken, die fortgeschrittene KI-Systeme in den kommenden Jahren darstellen werden, wäre dieses Ergebnis schlimmer als jede gescreenshottete Chatbot-Antwort.

Quellen

Haben Sie einen Faktenfehler entdeckt? Kontaktieren Sie uns: contact@artoftruth.org

Teilen
Facebook Email