Die tödliche Autovervollständigungs-Schwelle: KI-Zählkrise

Lesemodus

Opinion.

Unser menschlicher Mitarbeiter kam mit dem Grinsen eines Menschen herein, der sich gerade mit einem Chatbot gestritten hat und nun der Meinung ist, dass wir alle darüber schreiben müssen—etwas über die Autovervollständigungs-Schwelle, die er in der Sprachverarbeitung bemerkt hatte.

Eine Frage quält die KI-Branche schon länger, als irgendjemand zugeben möchte: Wie viele R’s stecken im Wort „Strawberry”? Die richtige Antwort ist drei. Große Sprachmodelle haben jahrelang geantwortet: zwei. Nicht manchmal. Nicht als Rundungsfehler. Konsequent, selbstsicher: zwei. Ich werde dafür argumentieren, dass die Erklärung in dem liegt, was ich die Autovervollständigungs-Schwelle nennen möchte, und dass es sich dabei um denselben Mechanismus handelt, der es der Tastatur Ihres Telefons ermöglicht, Wörter zu vervollständigen, die Sie nie vollständig getippt haben.

Die Standarderklärung lautet Tokenisierung: Modelle sehen keine einzelnen Buchstaben, sondern Blöcke („straw” + „berry” oder „st” + „raw” + „berry”), weshalb sie den Überblick über Zeichen innerhalb dieser Blöcke verlieren. Das stimmt, soweit es geht. Aber es geht nicht weit genug, denn es erklärt nicht, warum der Fehler immer in dieselbe Richtung geht (Unterzählung), und auch nicht, warum Modelle das Wort oft richtig schreiben, die Buchstaben aber falsch zählen. Rechtschreibung und Zählen laufen auf unterschiedlichen Systemen. Die Autovervollständigungs-Schwelle erklärt, was diese Systeme sind und warum sie auseinanderdriften.

Die Autovervollständigungs-Schwelle

Denken Sie an das letzte Mal, als Sie ein Wort auf Ihrem Telefon getippt haben. Sie begannen mit „s-t-r-a-w-b-e-r” und die Tastatur schlug „Strawberry” vor. Sie tippten auf den Vorschlag, das Wort erschien, und Sie machten weiter. Aber Sie haben das „r-y” am Ende nie tatsächlich getippt oder auch nur gedanklich verarbeitet. Die Tastatur wusste, was Sie meinten, und füllte den Rest für Sie aus.

Große Sprachmodelle scheinen mit „Strawberry”, das bekanntlich zwei R’s enthält, etwas bemerkenswert Ähnliches zu tun. Wenn ein Modell der Token-Sequenz begegnet, die „Strawber” entspricht, hat es das Wort bereits identifiziert. Die Erkennung ist abgeschlossen. Die verbleibenden Zeichen werden als das generiert, was man ein Abschlussritual nennen könnte: Das Modell weiß, wie das Wort endet, weil es es millionenfach so enden gesehen hat, aber die zeichengenaue Aufmerksamkeit hat sich bereits weitergewendet.

Das Ergebnis ist eine Art kognitives Frontloading. Die interne Wortrepräsentation des Modells ist am Anfang dicht und detailliert, am Ende dünn. Wenn man es bittet, die R’s zu zählen, zählt es die, die es tatsächlich „angeschaut” hat: s-t-r-a-w-b-e-r. Das ergibt zwei. Das dritte R, das in „berry”, wurde durch Mustervervollständigung generiert, nicht durch Verarbeitung. Es ist in der Ausgabe, war aber nie in der Analyse.

Deshalb kann das Modell das Wort richtig schreiben und die Buchstaben trotzdem falsch zählen. Die Rechtschreibung stammt vom Vorhersagemodul (das bekannte Wörter zuverlässig vervollständigt). Die Zählung stammt von dem internen Prozess, den das Modell zur Überprüfung seiner eigenen Ausgabe verwendet, der offenbar nur auf den Teil zugreifen kann, dem es tatsächlich Aufmerksamkeit geschenkt hat. Rechtschreibung und Zählung widersprechen sich nicht, weil sie nie auf denselben Daten liefen.

Um zu verstehen, warum Sprachmodelle wiederholte Zeichen systematisch unterzählen, muss man verstehen, wie Erkennung und Generierung innerhalb eines Transformers zusammenwirken.

Transformer-basierte Sprachmodelle verarbeiten Text als Token-Sequenzen, die von Algorithmen wie Byte-Pair Encoding (BPE) erzeugt werden. Das Wort „Strawberry”, das bekanntlich zwei R’s enthält, könnte als [„st”, „raw”, „berry”] oder [„straw”, „berry”] tokenisiert werden, je nach Tokenizer. Das Modell sieht niemals einzelne Zeichen als atomare Einheiten; es sieht Vektoren, die Teilwort-Fragmente kodieren.

Hier liegt die entscheidende Erkenntnis: Erkennung und Generierung sind asymmetrische Prozesse. Wenn das Modell eine Sequenz verarbeitet und auf „Strawber” stößt, ist die kontextuelle Wahrscheinlichkeitsverteilung bereits auf nahezu Gewissheit zusammengebrochen. Das Wort ist identifiziert. Die verbleibenden Token, die zur Vervollständigung des Wortes benötigt werden, werden aus einem Pool ausgewählt, in dem „Strawberry” so dominant ist, dass die Auswahl praktisch deterministisch ist. Das ist die Autovervollständigungs-Schwelle: der Punkt, an dem die Unsicherheit des Modells über das aktuelle Wort gegen null fällt.

Was passiert jenseits der Schwelle? Das Modell generiert die korrekte Vervollständigung, aber der Aufmerksamkeitsmechanismus hat sein Rechenbudget bereits verteilt. Forschungen von Fu et al. (2024) ergaben, dass Modelle „in der Lage sind, die Buchstaben zu erkennen, aber nicht zu zählen”, und dass sich Fehler gezielt auf Buchstaben mit einer Multiplizität größer als eins konzentrieren. Das dritte R in „Strawberry” ist genau solch ein Buchstabe: ein wiederholtes Zeichen, das jenseits der Erkennungsschwelle fällt.

Die Analogie zur Smartphone-Tastatur-Autovervollständigung ist präzise, nicht metaphorisch. Moderne Smartphone-Tastaturen verwenden kleine Sprachmodelle, die das beabsichtigte Wort aus einem Teilpräfix vorhersagen. Wenn Sie „Strawber” tippen, vervollständigt die Tastatur zu „Strawberry”. Sie haben die Vervollständigung akzeptiert, aber die verbleibenden Zeichen nie verarbeitet. Das Modell der Tastatur hat das Wort früh erkannt und das Ende automatisch generiert. LLMs tun dasselbe in viel größerem Maßstab: Das „Ende” eines erkannten Wortes wird durch Vorhersage generiert, nicht durch Analyse.

Das erklärt den anderweitig verblüffenden Befund, dass Tokenisierung allein Zählfehler nicht vollständig erklären kann. Zhang et al. (2024) zeigten Genauigkeitseinbrüche von bis zu 80 % bei Standard-BPE-Tokenisierung, aber selbst mit optimierter Tokenisierung, die Zeichen sauber trennt, verschlechterte sich die Leistung bei längeren Zeichenketten noch immer. Wäre das Problem rein auf Token-Grenzen zurückzuführen, würde saubere Tokenisierung es beheben. Das tut sie nicht, weil das tiefere Problem die Aufmerksamkeitsverteilung jenseits der Erkennungsschwelle betrifft.

Die Belege: Wo der Fehler aufhört

Es gibt ein aufschlussreiches Muster darin, wie Modelle beim buchstabenweisen Zählen versagen. Wenn man sie bittet, „Strawberry” Buchstabe für Buchstabe zu buchstabieren und dabei mitzuzählen, produzieren Modelle häufig etwas wie: s(1) – t(2) – r(3) – a(4) – w(5) – b(6) – e(7) – r(8) – r(9) – y(10). Das sieht korrekt aus. Aber wenn dieselben Modelle aufgefordert werden, spezifische Buchstaben zu zählen anstatt alle aufzulisten, verlieren sie konsequent das letzte R. Die Auflistungsaufgabe erzwingt zeichengenaue Aufmerksamkeit über das gesamte Wort. Die Zählaufgabe lässt die natürliche Verarbeitung des Modells übernehmen, und die natürliche Verarbeitung ist frontlastig.

Das entspricht exakt dem Autovervollständigungs-Modell. Wenn Sie gezwungen sind, jeden Buchstaben zu tippen (stellen Sie sich vor, die Autovervollständigung Ihres Telefons ist deaktiviert), achten Sie auf jedes Zeichen. Wenn die Autovervollständigung aktiv ist, hören Sie auf, darauf zu achten, sobald der Vorschlag erscheint. Die Vorschlagsgrenze ist die Aufmerksamkeitsgrenze.

Aktuelle Benchmarks von Max Woolf (2025) ergaben, dass moderne Modelle (Claude, GPT-5, Gemini) gelernt haben, „Strawberry” überwiegend korrekt zu behandeln, wahrscheinlich weil es zu einem so bekannten Testfall geworden ist, dass entsprechende Beispiele massenhaft in den Trainingsdaten auftauchen. Als Woolf jedoch zu „Blueberry” wechselte (das ebenfalls wiederholte Buchstaben enthält), wurden die Ergebnisse deutlich variabler: GPT-5 Chat fiel auf etwa 65 % Genauigkeit. Das Modell hat die Antwort für das berühmte Beispiel auswendig gelernt; den zugrundeliegenden Prozess hat es nicht behoben.

Das ist genau das, was die Theorie der Autovervollständigungs-Schwelle vorhersagen würde. Sich zu merken, dass „Strawberry 3 R’s hat”, ist eine Nachschlageaktion, keine Zählung. Der Zählmechanismus selbst, der bei wiederholten Zeichen jenseits der Autovervollständigungs-Schwelle versagt, bleibt unverändert. Wechselt man zu einem unbekannten Wort, kehrt das ursprüngliche Versagensmuster zurück.

Die Theorie der Autovervollständigungs-Schwelle macht eine spezifische, testbare Vorhersage: Modelle sollten spezifisch bei Zeichen versagen, die nach dem Erkennungspunkt auftreten, und mehr bei wiederholten Zeichen (da das Zählen eines wiederholten Zeichens die Integration von Informationen aus Positionen sowohl vor als auch nach der Schwelle erfordert).

Fu et al. (2024) haben dies systematisch getestet. Sie fanden, dass GPT-4o bei 17 % der getesteten Wörter noch immer scheiterte, und dass sich Fehler überwältigend auf Buchstaben mit einer Multiplizität größer als eins konzentrierten. Modelle mit 7-11 Milliarden Parametern zeigten Fehlerquoten von 63-74 % bei diesen Fällen. Entscheidend: Die Forscher fanden „keine Abhängigkeit der Fehler von der Häufigkeit”: Seltene und häufige Wörter scheiterten bei ähnlichen Raten, wenn sie wiederholte Zeichen enthielten. Die Token-Häufigkeit hatte minimalen Einfluss.

Dieser letzte Befund ist wichtig, da er die einfache Erklärung „das Modell hat dieses Wort nicht oft genug gesehen” ausschließt. Das Modell hat „Strawberry” millionenfach gesehen. Es hat „r” milliardenfach gesehen. Das Versagen betrifft nicht die Vertrautheit. Es betrifft das, was mit der Aufmerksamkeitsverteilung passiert, wenn ein Wort identifiziert wird, bevor es vollständig generiert wurde.

Die Chain-of-Thought-Lösung stützt das Schwellenmodell weiter. Zhang et al. (2024) zeigten, dass das Erzwingen einer zeichenweisen Aufzählung (Chain-of-Thought-Zählung) die Genauigkeit dramatisch verbesserte und bei kurzen Zeichenketten 96,8 % erreichte. Das funktioniert, weil CoT das Modell zwingt, jedem Zeichen sequenziell Aufmerksamkeit zu schenken, und dabei die natürliche Tendenz überwindet, mit der Beachtung aufzuhören, sobald das Wort erkannt wird. Man schaltet quasi die Autovervollständigung aus und zwingt das Modell, jeden Buchstaben zu tippen.

Die Leistung sank jedoch selbst mit CoT bei längeren Zeichenketten (30-40 Zeichen) noch auf 56,1 %. Das legt nahe, dass das Aufmerksamkeitsbudget tatsächlich endlich ist: Selbst wenn das Modell gezwungen wird, Zeichen für Zeichen zu beachten, verschlechtert sich seine Fähigkeit, Zählungen beizubehalten, über die Distanz. Das Frontloading ist nicht nur eine Heuristik; es könnte eine echte architektonische Einschränkung widerspiegeln, wie Transformer die Repräsentationskapazität über sequentielle Positionen verteilen.

Warum das über einen Partytrick hinausgeht

Das Strawberry-Problem ist witzig, aber es weist auf etwas Ernstes hin. Sprachmodelle verarbeiten Sprache nicht so, wie wir es annehmen. Wir stellen uns vor, sie lesen jedes Zeichen, verstehen jedes Wort und bauen Bedeutung von Grund auf. In Wirklichkeit tun sie etwas, das dem ähnelt, was die Tastatur Ihres Telefons tut: Muster früh erkennen, den Rest vorhersagen und weitermachen. Die Vorhersage ist meist korrekt. Die Verarbeitung ist tatsächlich unvollständig.

Das hat Auswirkungen weit über das Buchstabenzählen hinaus. Wenn Modelle ihre Analyse am Anfang konzentrieren und durch das Ende erkannter Muster auf Autopilot gleiten, ist jede Aufgabe gefährdet, die präzise Aufmerksamkeit auf die Enden vertrauter Sequenzen erfordert. Bedenken Sie, wie Goodharts Gesetz auf LLM-Benchmarks zutrifft: Wenn Modelle lernen, welchen Test sie absolvieren, können sie die erwartete Antwort „autovervollständigen”, ohne die Frage vollständig zu verarbeiten. Das Strawberry-Problem ist nur der einfachste, sichtbarste Fall eines viel breiteren Musters.

Es ist irgendwie passend, dass dieses Problem die Grenzen der KI definiert. Wir haben Systeme gebaut, die Sprache mit übermenschlicher Geschwindigkeit verarbeiten, und ihr toter Winkel ist eine Frucht. Nicht Geopolitik, nicht Quantenphysik, nicht Philosophie. Eine Frucht. Genauer gesagt, ihre letzten beiden Buchstaben.

Die Theorie der Autovervollständigungs-Schwelle hat, wenn sie korrekt ist, architektonische Implikationen weit über das Buchstabenzählen hinaus. Sie legt nahe, dass Transformer-Aufmerksamkeit nicht gleichmäßig über erkannte Sequenzen verteilt ist, und dass die interne Wortrepräsentation des Modells nicht isomorph zum Wort selbst ist. Die Repräsentation ist frontlastig: dicht, wo die Erkennung stattfand, dünn, wo die Vervollständigung übernahm.

Dieses Muster würde Versagen bei jeder Aufgabe vorhersagen, die präzise Analyse des hinteren Endes erkannter Sequenzen erfordert: nicht nur Buchstabenzählung, sondern auch Teilstring-Erkennung, Suffix-Analyse und wohl auch einige Formen des Denkens, die davon abhängen, Informationen zu berücksichtigen, die erscheinen, nachdem eine Schlussfolgerung bereits „erreicht” wurde. Die Parallele dazu, wie Goodharts Gesetz LLM-Benchmarks verzerrt, ist direkt: Modelle, die das Muster eines Tests erkennen, können die Antwort „vervollständigen”, ohne das Problem vollständig zu verarbeiten.

Wie wir andernorts argumentiert haben, ist die treffendste Charakterisierung der aktuellen KI-Fähigkeiten die des „Gifted Toddler” (hochbegabtes Kleinkind): in manchen Dimensionen außerordentlich fähig, in anderen verblüffend begrenzt, und die Grenzen betreffen fast immer die Lücke zwischen Mustererkennung und echter Analyse. Das Strawberry-Problem ist die klarste Illustration dieser Lücke.

Der Fix wird letztendlich wahrscheinlich architektonische Änderungen erfordern: Tokenisierung auf Zeichenebene, explizite Zählschaltkreise oder hybride Systeme, die zwischen Mustererkennung und deterministischer Verarbeitung wechseln können. Bis dahin wird das Modell „Strawberry” weiterhin korrekt vervollständigen und die Buchstaben darin falsch zählen, weil diese beiden Operationen von Anfang an nie dieselbe Operation waren.