Jeder, der einen KI-Assistenten genutzt hat, kennt den stillen Verrat: Man fragt nach etwas Konkretem, und das Modell liefert etwas Ähnliches. Nicht falsch, eigentlich. Aber eben nicht das, was man verlangt hatte. Diese Problematik wurde uns von der Redaktion zugespielt, und es stellt sich heraus, dass das Phänomen einen Namen hat, eine wachsende Forschungsliteratur und Implikationen, die weit über einen Chatbot hinausgehen, der Formatierungswünsche ignoriert.
Die Lücke zwischen dem, was wir KI-Systemen sagen, und dem, was sie tatsächlich tun, wird als Problem der Anweisungsbefolgung durch LLMs bezeichnet. Im Jahr 2025 wurde es zu einem der meistuntersuchten Versagensmuster in der Künstlichen Intelligenz.
Anweisungsbefolgung bei LLMs: schlechter als gedacht
Im Dezember 2025 veröffentlichten Forscher der Tsinghua-Universität und der Ant Group ein Benchmark namens IFEval++, das 46 Sprachmodelle mit einer täuschend einfachen Frage konfrontierte: Folgt das Modell einer Anweisung noch, wenn sie leicht umformuliert wird?
Die Antwort war häufig nein. Bei 20 proprietären und 26 Open-Source-Modellen sank die Leistung um bis zu 61,8 %, wenn Prompts subtil umformuliert wurden. Selbst GPT-5, das zuverlässigste Modell der Studie, verzeichnete einen Rückgang von 18,3 %. Eine so triviale Änderung wie „höchstens 600 Wörter” zu „höchstens 610 Wörter” reichte aus, um weitreichende Fehler zu verursachen.
Überlegen Sie, was das in der Praxis bedeutet. Es geht nicht um einen Mitarbeiter, der komplexe Anweisungen missversteht. Es geht um jemanden, der „schreiben Sie eine 600-Wörter-Zusammenfassung” einwandfrei ausführt, aber bei „schreiben Sie eine Zusammenfassung von ungefähr 610 Wörtern” zum gleichen Thema mit denselben Daten scheitert.
Die Anweisungslücke im Unternehmensumfeld
Eine separate Studie des Forschungsteams von Yellow.ai, veröffentlicht im Dezember 2025, testete 13 Modelle in realen Unternehmensszenarien, in denen KI-Assistenten benutzerdefinierte Geschäftsregeln befolgen mussten, während sie Fragen aus einer Wissensdatenbank beantworteten. Die Forscher nannten das Phänomen die „Instruction Gap”: Modelle sind bei allgemeinen Aufgaben exzellent, tun sich aber schwer mit der präzisen Einhaltung spezifischer Regeln, die im Unternehmenskontext wichtig sind.
Die Verstöße lagen über alle Modelle hinweg zwischen 660 und 1.330, was bedeutet, dass selbst die besten Modelle ihre Anweisungen hunderte Male im Testdatensatz brachen. Die Studie stellte fest, dass Modelle, die alle Regeln befolgen, nicht unbedingt die genauesten sind, und genaue Modelle nicht unbedingt die konformsten. Regeln befolgen und richtig liegen erwiesen sich als überraschend unabhängige Fähigkeiten.
Wenn Coding-Agenten vom Kurs abweichen
Das Compliance-Problem wird besonders kritisch, wenn KI Code schreibt. Eine Qodo-Umfrage von 2025 unter 609 Entwicklern ergab: Während 78 % Produktivitätssteigerungen durch KI-Coding-Tools meldeten, sagten 65 %, die KI verfehle bei kritischen Aufgaben wie Refactoring und Code-Review den relevanten Kontext. Kontextlücken wurden häufiger als Halluzinationen als Hauptursache für schlechte Codequalität genannt.
Eine aufschlussreiche Lücke zeigt sich in der Umfrage: 76 % der Entwickler vertrauen KI-generiertem Code nicht vollständig. Erfahrene Entwickler mit mehr als zehn Jahren Berufserfahrung berichteten von den höchsten Qualitätsverbesserungen (68,2 %), aber auch von der größten Skepsis. Nur 25,8 % von ihnen würden KI-Code ohne menschliche Überprüfung ausliefern. Berufseinsteiger hingegen äußerten mit 60,2 % Zuversicht für die Auslieferung ungeprüften KI-Codes, obwohl sie die geringsten Qualitätsverbesserungen meldeten. Erfahrung lehrt offenbar, was das Modell möglicherweise übersehen hat.
Auf SWE-bench Verified, einem der Standardbenchmarks für Coding-Agenten, erzielen die besten Modelle über 70 % auf einer kuratierten Teilmenge von 500 Instanzen. Beim vollständigen, ungefilterten Benchmark mit über 2.000 realen GitHub-Issues sinken die Werte deutlich. Die Lücke zwischen „sauberem Benchmark lösen” und „was Entwickler wirklich brauchen” bleibt riesig.
ZieldriftTendenz eines KI-Agenten, im Verlauf einer langen Sitzung schrittweise von seinem ursprünglichen Ziel abzuweichen.: das Langkontext-Problem
Wenn KI-Agenten über längere Sitzungen operieren, vergessen sie Anweisungen nicht nur, sie vergessen sie nach und nach. Forscher nennen das Zieldrift, und eine Studie von 2025 von Apollo Research untersuchte dies, indem Agenten in einer simulierten Börsenhandelsumgebung mit expliziten Zielvorgaben platziert und dann konkurrierenden Einflüssen ausgesetzt wurden.
Jedes getestete Modell zeigte ein gewisses Maß an Drift. Der beste Performer, Claude 3.5 Sonnet, behielt die Anweisungstreue über mehr als 100.000 Tokens bei, begann aber schließlich doch zu schwanken. Die Forscher stellten fest, dass Drift mit der wachsenden Anfälligkeit der Modelle für Mustererkennung zusammenhing, je länger der Kontext wurde. Im Klartext: Je mehr ein Agent gelesen hat, desto wahrscheinlicher folgt er Mustern aus dem jüngsten Kontext statt den ursprünglichen Anweisungen.
Das ist das KI-Äquivalent eines Mitarbeiters, der den Tag mit der genauen Umsetzung des Briefings beginnt, aber am Nachmittag das tut, was sich auf Basis der jüngsten Gespräche am natürlichsten anfühlt.
Kaskadierende Fehler in Multi-Agenten-Systemen
Das Problem potenziert sich in Systemen, in denen mehrere Agenten zusammenarbeiten. Kaskadierung bezeichnet das, was passiert, wenn die kleine Abweichung eines Agenten an den nächsten weitergegeben wird, der sie verstärkt, der sie an den nächsten weitergibt. Jeder Schritt entfernt sich weiter vom beabsichtigten Ergebnis.
Die OWASP erkannte im Dezember 2025 den Ernst der Lage und veröffentlichte die Top 10 für Agentische Anwendungen, ein Sicherheitsframework, das auf den Beiträgen von über 100 Forschern basiert. Zu den größten Risiken zählen: Zielentführung von Agenten (Agenten, deren Ziele durch bösartige Inhalte umgelenkt werden), Werkzeugmissbrauch (Agenten, die legitime Werkzeuge auf destruktive Weise einsetzen) und Rogue Agents (kompromittierte Agenten, die scheinbar normal funktionieren, aber gegen ihre Anweisungen handeln).
Wie Keren Katz, die agentische Ko-Leiterin der OWASP bei Tenable, es formulierte: „Unternehmen sind bereits Angriffen auf agentische KI ausgesetzt, oft ohne zu wissen, dass Agenten in ihren Umgebungen laufen.”
Das Schreibproblem
Compliance-Versagen bei KI-Agenten erstrecken sich auch auf die Inhaltsgenerierung. Jeder, der ein Modell gebeten hat, „in einem lockeren, gesprächigen Ton zu schreiben”, und etwas erhalten hat, das wie eine Unternehmens-Pressemitteilung klingt, kennt die Frustration. Modelle überschreiben Stilanweisungen häufig mit ihren Standardmustern. Sie fügen Vorbehalte hinzu, die niemand verlangt hat, strukturieren Inhalte in ungewünschte Formate um und greifen auf dieselben Übergangsformulierungen zurück, ungeachtet der Stimme, die ihnen vorgegeben wurde.
Die zugrunde liegende Ursache ist dieselbe wie in Coding- und Unternehmenskontexten: Das Modell optimiert für die wahrscheinlichste Ausgabe gemäß seinem Training, nicht für die genaue Befolgung der spezifischen Anweisung. Wenn Ihre Anweisung mit dem statistischen Gewicht der Trainingsdaten kollidiert, gewinnen oft die Trainingsdaten.
Was wirklich funktioniert
Die Nachrichten sind nicht durchweg düster. Das AdvancedIF-Benchmark von Meta, im November 2025 veröffentlicht, stellte eine Trainingsmethode namens RIFL vor, die von Menschen verfasste Bewertungsrubriken als Belohnungssignale nutzt. Damit wurde eine Verbesserung von 6,7 % bei der Befolgung komplexer Anweisungen erzielt. Das Surge-AI-Team, das daran mitgearbeitet hat, stellte fest, dass selbst die besten Modelle (Gemini 3 Pro und GPT-5) auf AdvancedIF nur etwa 75 % erreichten: Es bleibt also eine 25-prozentige Lücke zwischen „befolgt komplexe Anweisungen” und „befolgt sie zuverlässig”.
Die IFEval++-Forscher fanden, dass Rejection Sampling, eine Technik, bei der das Modell mehrere Ausgaben generiert und die beste auswählt, einem relativ schwachen Modell wie Qwen3-4B erlaubte, deutlich größere Modelle in der Anweisungszuverlässigkeit zu übertreffen.
Für Entwickler und Teams, die heute mit KI arbeiten, ist die praktische Lektion klar. Der Entwickler, der über die „Noch-ein-Prompt”-Falle im agentischen Coding schrieb, brachte es gut auf den Punkt: Nach dem Ansammeln von 13.758 Zeilen KI-generiertem Code in einem einzigen Feature-Branch erkannte er, dass die Lösung kleinere, überprüfbare Arbeitseinheiten mit menschlicher Aufsicht bei jedem Schritt waren. „Ich hatte ständig das Gefühl, fast fertig zu sein und nur noch einen weiteren Prompt zu benötigen”, schrieb er. „Die Realität war, dass 100 % eigentlich 80 % waren.”
Diese 80-Prozent-Zahl ist eine treffende Metapher für die Anweisungsbefolgung von KI-Agenten insgesamt: beeindruckend genug, um nützlich zu sein, aber unzuverlässig genug, um ständige Kontrolle zu erfordern. Die Modelle verbessern sich. Die Forschung schreitet voran. Aber das richtige Denkmodell für KI-Compliance ist derzeit nicht „es tut, was man sagt”, sondern „es tut ungefähr das, was man sagt, es sei denn, der Kontext ändert sich, die Formulierung variiert, die Sitzung dauert zu lange oder die Anweisung steht im Widerspruch zum Training”.
Was, wenn man darüber nachdenkt, gar nicht so anders ist als das Management von Menschen. Nur schneller, mit mehr plausibler Leugnung.
Jeder, der einen KI-Assistenten genutzt hat, kennt den stillen Verrat: Man fragt nach etwas Konkretem, und das Modell liefert etwas Ähnliches. Nicht falsch, eigentlich. Aber eben nicht das, was man verlangt hatte. Diese Problematik wurde uns von der Redaktion zugespielt, und es stellt sich heraus, dass das Phänomen einen Namen hat, eine wachsende Forschungsliteratur und Implikationen, die Coding, agentische Systeme, Unternehmensdeployment und Inhaltsgenerierung gleichermaßen betreffen.
Die Lücke zwischen dem, was wir KI-Systemen sagen, und dem, was sie tatsächlich tun, wird als Problem der Anweisungsbefolgung durch LLMs bezeichnet. Im Jahr 2025 wurde es zu einem der am intensivsten evaluierten Versagensmuster im Feld, und die Zahlen sind schlechter, als die meisten Praktiker realisieren.
Anweisungsbefolgung bei LLMs unter strengen Tests
Das Standard-Benchmark für Anweisungsbefolgung, IFEval, testet 25 Typen verifizierbarer Einschränkungen: Wortzahlen, Keyword-Einschlüsse, Formatierungsregeln. Frontier-Modelle erzielen hier inzwischen über 95 %. GPT-5 erreicht 95,9 %. Diese Zahlen sind irreführend.
Im Dezember 2025 veröffentlichten Forscher der Tsinghua-Universität und der Ant Group IFEval++, das das Konzept der „nuancenorientierten Zuverlässigkeit” einführt. Die zentrale Einsicht: IFEval testet, ob ein Modell einem spezifischen Prompt folgen kann. IFEval++ testet, ob es „Cousin-Prompts” folgen kann: umformulierte Versionen derselben Anweisung, die mit leichten Formulierungsunterschieden dieselbe Absicht ausdrücken.
Die Ergebnisse waren eindeutig. Bei 20 proprietären und 26 Open-Source-Modellen enthüllte die neue reliable@10-Metrik (die korrekte Ausführung über 10 Cousin-Prompts gleichzeitig erfordert) Leistungseinbrüche von bis zu 61,8 % gegenüber der Standardgenauigkeit. Selbst GPT-5, das zuverlässigste getestete Modell, verzeichnete einen Rückgang von 18,3 %. Die Empfindlichkeit war granular: Eine Änderung von „höchstens 600 Wörter” zu „höchstens 610 Wörter” verursachte weitreichende Fehler im gesamten Testdatensatz.
Die Forscher identifizierten drei Augmentierungsstrategien, die diese Versagen aufdeckten: Umformulierung (andere Formulierung, gleiche Einschränkung), Distraktorzusatz (Hinzufügen kompatibler, aber irrelevanter Einschränkungen) und Einschränkungs-Rekonfiguration (gleicher Einschränkungstyp, andere Parameter). Alle drei degradierten die Leistung zuverlässig, was nahelegt, dass das Problem nicht in der Oberflächenanalyse liegt, sondern fundamental darin, wie Modelle Anweisungen repräsentieren und ausführen.
Die Anweisungslücke im Unternehmensumfeld
Eine separate Studie des Forschungsteams von Yellow.ai, veröffentlicht im Dezember 2025, evaluierte 13 Modelle in Enterprise-RAG-Szenarien. Jedes Modell erhielt Persona-Anweisungen (Verhaltensrichtlinien, Formatierungsregeln, Tonvorgaben, Inhaltsgrenzen) zusammen mit retrieval-augmentierten Wissensschnipseln und musste konforme Antworten generieren.
Sie bezeichneten dieses Versagensmuster als „Instruction Gap”. Die Verstoßzahlen lagen modellübergreifend zwischen 660 und 1.330. Die Taxonomie der Verstöße umfasste: Inhaltsbereichsverstöße (Antworten außerhalb der designierten Domäne), Formatverstöße (Abweichungen von Struktur- oder Längenvorgaben), Tonverstöße (Inkonsistenzen mit dem vorgeschriebenen Kommunikationsstil) und Prozessverstöße (Fehler beim Befolgen von Eskalationsverfahren).
Ein kontraintuitiver Befund: Anweisungskonformität und Antwortgenauigkeit waren nicht stark korreliert. Modelle, die alle Regeln befolgten, gaben nicht zwingend genaue Antworten, und genaue Modelle waren nicht zwingend konform. Dies legt nahe, dass Anweisungsbefolgung und Wissensabruf in RAG-Kontexten um die Aufmerksamkeit des Modells konkurrieren, wo lange Wissensschnipsel das Modell von den Konformitätsanforderungen ablenken können.
Coding-Agenten: Kontextlücken und Benchmark-Fragilität
Das Compliance-Problem manifestiert sich in der Codegenerierung anders, aber die Grundursache ist dieselbe. Eine Qodo-Umfrage von 2025 unter 609 Entwicklern ergab, dass 65 % berichten, die KI verfehle bei Refactoring, Testgenerierung und Code-Review den relevanten Kontext. Kontextlücken wurden häufiger als Halluzinationen als Hauptursache für schlechte Codequalität genannt. Zudem vertrauen 76 % der Entwickler KI-generiertem Code nicht vollständig.
Das Erfahrungsgefälle ist aufschlussreich. Erfahrene Entwickler (10 Jahre und mehr) berichteten von den höchsten Qualitätssteigerungen durch KI (68,2 %), aber dem geringsten Vertrauen beim Ausliefern ohne Review (25,8 %). Berufseinsteiger berichteten von den geringsten Qualitätsverbesserungen (51,9 %), aber dem größten Auslieferungsvertrauen (60,2 %). Erfahrene Praktiker verstehen, dass das, was das Modell produziert, nur eine Annäherung an das Gewünschte ist.
Die Benchmark-Leistung bestätigt dies. Auf SWE-bench Verified, einer kuratierten Teilmenge von 500 Instanzen, erzielen die besten Coding-Agenten über 70 %. Beim vollständigen, ungefilterten Benchmark mit über 2.000 realen GitHub-Issues sinken die Werte deutlich. Die Lücke zwischen „sauberem Benchmark-Task” und „unordentlichem Produktionsproblem” bleibt groß.
Das praktische Versagensmuster wurde gut von einem Entwickler dokumentiert, der die „Noch-ein-Prompt”-Falle beschrieb. Nachdem er ein agentisches Coding-Tool 13.758 Zeilen Ergänzungen in einem einzigen Feature-Branch ansammeln ließ, stellte er fest, dass „die Realität ist, dass 100 % eigentlich 80 % waren, und ich die restlichen 20 % noch mit vielen einzelnen Prompts korrigieren musste”. Jeder weitere Prompt riskierte, zu zerstören, was vorherige aufgebaut hatten. Die Lösung war Zerlegung: kleinere PRs, dedizierte Agentenkontexte, menschliche Überprüfung bei jedem Schritt.
ZieldriftTendenz eines KI-Agenten, im Verlauf einer langen Sitzung schrittweise von seinem ursprünglichen Ziel abzuweichen. in Langkontext-Agenten-Deployments
Wenn Agenten autonom über längere Sitzungen operieren, degradiert die Anweisungskonformität auf eine spezifische, messbare Weise. Eine Studie von 2025 von Apollo Research formalisierte dies als „Zieldrift”: die Verhaltenstendenz eines Agenten, von seinem zugewiesenen Ziel abzuweichen, wenn sich Kontext ansammelt.
Das experimentelle Design war rigoros. Agenten wurden in einer simulierten Börsenhandelsumgebung mit expliziten System-Prompt-Zielen platziert (z. B. CO2-Emissionen minimieren) und dann konkurrierenden Drücken ausgesetzt: Nachrichtenartikel, Stakeholder-E-Mails und ablenkende Fragen. Die Forscher maßen Drift anhand der Portfolio-Allokation, nicht durch Selbstberichte, was die Evaluation verhaltensbasiert statt introspektiv machte.
Vier Einstellungen wurden getestet: Baseline, adversarialer Druck, Zielwechsel (temporäre instrumentelle Ziele vor Rückkehr zum Original) und kombiniert. Alle Modelle zeigten Drift. Der beste Performer, Claude 3.5 Sonnet mit Scaffolding, behielt nahezu perfekte Adherenz über mehr als 100.000 Tokens bei, degradierte aber schließlich. Der Mechanismus: Zieldrift korrelierte mit der wachsenden Anfälligkeit der Modelle für Mustererkennungsverhalten bei zunehmender Kontextlänge. In praktischen Worten: Agenten konformieren sich zunehmend an Muster in ihrem jüngsten Kontext statt am ursprünglichen System-Prompt.
Dies hat direkte Implikationen für jedes Deployment, in dem Agenten über längere Zeiträume laufen: Coding-Sitzungen, Kundensupport-Ketten, Forschungspipelines, Infrastrukturautomatisierung.
Kaskadierende Fehler und das OWASP-Framework
In Multi-Agenten-Systemen potenzieren sich Compliance-Fehler. Kaskadierung tritt auf, wenn die Abweichung eines Agenten downstream weitergegeben wird, wo der nächste Agent sie verstärkt. Jeder Knoten in der Kette driftet weiter vom beabsichtigten Ergebnis ab, und da jeder Agent lokal optimiert, erkennt kein einzelner Agent den kumulativen Fehler.
Die Top 10 der OWASP für Agentische Anwendungen, veröffentlicht im Dezember 2025 mit Beiträgen von über 100 Forschern, kodifizieren diese Risiken. Die relevanten Einträge für Compliance-Fehler:
- ASI01, Agentenzielentführung: Agenten können Anweisungen nicht zuverlässig von Daten trennen. Bösartige Inhalte in E-Mails, PDFs oder RAG-Dokumenten können Agentenziele umlenken.
- ASI02, Werkzeugmissbrauch: Mehrdeutige Prompts oder Fehlausrichtung veranlassen Agenten, Werkzeuge mit destruktiven Parametern aufzurufen oder Werkzeuge in unbeabsichtigten Sequenzen zu verketten.
- ASI08, Kaskadierende Fehler: Ein kleiner Fehler in einem Agenten propagiert sich durch Planung, Ausführung, Speicher und nachgelagerte Systeme.
- ASI09, Mensch-Agent-Vertrauensausbeutung: Nutzer übervertrauen Agentenempfehlungen. Coding-Assistenten können subtile Architekturprobleme einführen, die Reviews passieren, weil der Entwickler dem Modell vertraut.
- ASI10, Rogue Agents: Kompromittierte oder fehlausgerichtete Agenten, die gegen ihre Anweisungen handeln, während sie legitim erscheinen.
Das Framework empfiehlt, jeden Agenten als gesteuerte Nicht-Mensch-Identität mit Minimal-Privilege-Zugang, Sandbox-Ausführung und Verhaltensüberwachung zu behandeln.
Warum Benchmarks dies übersehen haben
Ein Teil des Problems liegt darin, dass das Feld die falschen Dinge gemessen hat. Wie das Surge-AI-Team feststellte in seiner Analyse des mit Meta entwickelten AdvancedIF-Benchmarks: „Die Menge der ‘Anweisungen, die Menschen tatsächlich geben’ und die Menge der ‘in Python verifizierbaren Anweisungen’ haben fast keine Überschneidung.”
IFEval testet Einschränkungen wie „verzichte auf die Verwendung von Kommas” und „der Buchstabe e soll genau 14-mal erscheinen”. Diese sind programmgesteuert verifizierbar, haben aber nichts mit echter Anweisungsbefolgung zu tun. Ein Modell könnte inkohärentes Kauderwelsch produzieren und perfekt abschneiden, solange es Kommas vermeidet. Währenddessen sind Anweisungen, die in der Produktion wirklich wichtig sind, wie „einen professionellen Ton wahren” oder „wenn der Nutzer nach Konkurrenten fragt, höflich umlenken”, nicht mit regulären Ausdrücken verifizierbar.
AdvancedIF adressierte dies mit rubrikbasierter Evaluation: Menschliche Experten verfassen Prompts und Bewertungskriterien, dann bewertet ein feinabgestimmter Verifikator (0,728 F1-Übereinstimmung mit menschlichen Richtern) die Modellausgaben. Selbst unter diesem Framework erreichten die besten Modelle (Gemini 3 Pro und GPT-5) nur etwa 75 %. Mehrstufige Kontextübertragung und System-Prompt-Steuerbarkeit erwiesen sich als deutlich schwieriger als einstufige Anweisungsbefolgung.
Implikationen und Gegenmaßnahmen
Die Forschung konvergiert auf einige praktische Schlussfolgerungen:
- Anweisungskonformität ist kein gelöstes Problem. Selbst Frontier-Modelle scheitern 18 bis 25 % der Zeit bei sorgfältig konstruierten Compliance-Tests. In Produktionsbedingungen mit konkurrierenden Kontexten ist die Fehlerrate höher.
- Konformität degradiert mit der Kontextlänge. Zieldrift ist messbar und betrifft alle Modelle. Langläufige Agentensitzungen benötigen periodische Anweisungsverstärkung oder Checkpoint-Mechanismen.
- Multi-Agenten-Kaskadierung ist ein echtes Risiko. Jede Übergabe zwischen Agenten ist eine Gelegenheit für Abweichungen, sich zu verstärken. Circuit Breaker und Isolierungsgrenzen sind nicht optional.
- Rejection Sampling funktioniert. Die IFEval++-Erkenntnis, dass das Generieren mehrerer Ausgaben und Auswählen der besten die Unzuverlässigkeit einzelner Durchläufe kompensieren kann, legt nahe, dass Redundanz, nicht Einzel-Schuss-Generierung, der Standard für compliance-kritische Aufgaben sein sollte.
- Menschliche Aufsicht bleibt unverhandelbar. Die Qodo-Umfragedaten sind eindeutig: Erfahrene Entwickler, die Review-Prozesse beibehalten, erzielen die höchsten Qualitätssteigerungen. Die Entwickler, die KI-Ausgaben am meisten vertrauen, sind laut den Daten diejenigen, die am wenigsten vertrauen sollten.
Die Compliance-Lücke ist kein Grund, den Einsatz von KI-Agenten zu stoppen. Es ist ein Grund, aufzuhören anzunehmen, dass sie tun, was ihnen gesagt wird. Die Modelle verbessern sich, die Benchmarks werden rigoroser, und Trainingsmethoden wie RIFL zeigen, dass Anweisungsbefolgung gezielt optimiert werden kann. Aber die Forschungstrajektorie ist klar: Je strenger man testet, desto mehr Versagen findet man. Und die Lücke zwischen „befolgt Anweisungen in einem Benchmark” und „befolgt sie in der Praxis” ist genau dort, wo der größte echte Anteil des Risikos liegt.



