Wikipedia-Fehler: Warum Halluzination keine KI-Erfindung ist

Opinion.

Unser Redakteur hat uns eine Handvoll Wikipedia-Links geschickt, mit einer Notiz, die wie eine Herausforderung klang. Nachdem wir eine Stunde damit verbracht haben, die von ihm markierten Wikipedia-Fehler durchzuklicken, verstehen wir warum. Was folgt, ist ein Meinungsbeitrag, und die Meinung lautet: Das populäre Narrativ, Desinformation sei ein KI-Problem, ist selbst Desinformation.

Die Geschichte geht ungefähr so. Große Sprachmodelle halluzinieren, also ist KI gefährlich, also bleiben Menschen die zuverlässigen Erzähler der Wahrheit. Diese Rahmung ist beruhigend. Sie ist auch völliger Unsinn. Wikipedia-Fehler beweisen seit zwei Jahrzehnten leise, dass Menschen durchaus in der Lage sind, ganz allein zu halluzinieren, ohne jegliche neuronale Netze.

Das Beige-Desaster

Öffnen Sie den englischen Wikipedia-Artikel über die Farbe Beige und scrollen Sie durch die Liste der „Variationen von Beige”. Unter den Einträgen finden Sie die Farbe Khaki. Khaki ist, für jeden mit funktionierenden Augen, grün. Nicht grünliches Beige. Nicht Beige mit Ambitionen. Grün. Das Grün, aus dem Militäruniformen gemacht werden. Und trotzdem steht es dort, in einer Liste von Beigetönen, belegt mit „HTML/CSS”, was genauso wenig eine Farbautorität ist wie eine Tabellenkalkulation ein Sommelier.

Es wird besser. Die Seite listet Dutzende von Farben als Variationen von Beige auf, die nach jedem vernünftigen visuellen Maßstab kein Beige sind. Buff, Wüstensand, Rehbraun, Weizengelb, Ecru, Champagner und eine ganze Konstellation weiterer Farbtöne, die von „möglicherweise benachbart” bis „nicht mal in derselben Postleitzahl” reichen. Die Belege für viele dieser Einträge stammen aus Web-Farbstandards oder selbstreferenziellen Farblexika und schaffen so einen geschlossenen Kreislauf von Wikipedia-Fehlern, den niemand infrage gestellt hat, weil sich schlicht niemand genug für Beige interessiert, um einen Streit anzufangen.

Jemand sollte es tun. Denn die französische Version erzählt eine ganz andere Geschichte. Der französische Wikipedia-Artikel über Beige ist kürzer, fokussierter und ehrlicher. Er behandelt Beige als das, was es ist: eine spezifische, enge Farbe. Kein Khaki. Kein Wüstensand. Keine fünfzig Schattierungen von „nah genug”. Zwei Artikel über dieselbe Farbe auf derselben Plattform, und einer davon ist größtenteils falsch. Der Unterschied liegt nicht in der Sprache. Er liegt in der redaktionellen Disziplin, und die englische Version hat keine.

Wenn „Säuglingssterblichkeit” offenbar „Müttersterblichkeit” bedeutet

Wäre der Beige-Fall ein Einzelfall, wäre er lediglich amüsant. Er ist kein Einzelfall. Auf der französischen Wikipedia-Seite zur Demografie Marokkos enthält der Abschnitt mit dem Titel „Mortalité infantile” („Säuglingssterblichkeit”) folgenden Satz: „Le taux de mortalité maternelle dans le pays a chuté de 67 % entre 1990 et 2010″ („Die Müttersterblichkeitsrate im Land sank zwischen 1990 und 2010 um 67 %”).

Lesen Sie das nochmal. Die Überschrift sagt Säuglingssterblichkeit. Der Text sagt Müttersterblichkeit. Das ist nicht dasselbe. Das eine misst, wie viele Babys sterben. Das andere misst, wie viele Mütter während oder kurz nach der Geburt sterben. Sie haben unterschiedliche Ursachen, unterschiedliche Zahlen und unterschiedliche politische Implikationen. Sie in einer veröffentlichten Enzyklopädie zu verwechseln, ist kein kleines Formatierungsproblem. Es ist ein Faktenfehler, der unkorrigiert auf einer der meistbesuchten Websites der Welt überlebt hat.

Wikipedia-Fehler wie dieser bestehen fort, weil der Korrekturmechanismus der Plattform vollständig auf der Aufmerksamkeit von Freiwilligen beruht. Artikel über Promi-Klatsch werden von Tausenden überwacht. Artikel über marokkanische Demografiestatistiken werden von fast niemandem überwacht. Der Fehler sitzt dort, strahlt stille Zuversicht aus und wartet darauf, in einen Trainingsdatensatz eingespeist, in einer Studienarbeit zitiert oder von einem Politiker wiederholt zu werden, der ihn in Eile gegoogelt hat.

Verloren in der Übersetzung: Das Cochenille-Problem

Wikipedias Fehler werden durch ein umfassenderes Internetproblem verstärkt, das weit über eine einzelne Plattform hinausgeht: Übersetzung. Nehmen wir das französische Wort „cochenille”. Wenn Sie es auf WordReference nachschlagen, dem angesehensten zweisprachigen Wörterbuch im Netz, erhalten Sie „cochineal” oder „mealybug”. Google Translate liefert „cochineal”. Beide Übersetzungen sind falsch.

Im Französischen bezeichnet „cochenille” die gesamte Überfamilie Coccoidea, im Englischen als scale insects (Schildläuse) bekannt. Cochineal ist speziell das roten Farbstoff produzierende Insekt (Dactylopius coccus), eine einzige Art innerhalb dieser Überfamilie. Mealybug ist die weiße, wollige Variante, eine weitere eigenständige Untergruppe. „Cochenille” als „cochineal” zu übersetzen, ist wie „Katze” mit „Tabby” zu übersetzen: technisch eine Katze, sicher, aber Sie haben gerade alle anderen Katzenarten aus dem Gespräch ausgeschlossen.

Das ist keine Nischenbeschwerde. Übersetzungstools und zweisprachige Wörterbücher sind grundlegende Infrastruktur dafür, wie Milliarden von Menschen die Welt über Sprachgrenzen hinweg verstehen. Wenn sie einen grundlegenden taxonomischen Begriff falsch wiedergeben, setzt sich der Fehler kaskadenartig fort. Studierende lernen es falsch. Autoren wiederholen es. Datenbanken kodieren es. Und irgendwann trainiert ein KI-Modell darauf und reproduziert es mit perfekter Sicherheit, woraufhin alle die KI beschuldigen.

Die Müllhalde, auf der Sie trainiert haben

Hier ist der Teil, den niemand in der Debatte über „KI-Halluzinationen” zugeben möchte: Die meisten Trainingsdaten für große Sprachmodelle stammen aus dem Internet. Wie unser Redakteur es formulierte: „Die meisten Trainingsdaten kommen aus dem Internet, das eine Müllhalde ist, und dafür sind die Menschen verantwortlich, nicht die LLMs.” Er hat nicht unrecht.

Wenn ein Sprachmodell Ihnen selbstbewusst etwas Falsches erzählt, ist der reflexartige Impuls, es Halluzination zu nennen, als hätte die Maschine spontan eine Unwahrheit aus dem Nichts erfunden. Manchmal tut sie das. Aber oft reproduziert das Modell getreu, was es aus seinen Trainingsdaten gelernt hat, die von Menschen geschrieben, von Menschen hochgeladen und von Menschen unkorrigiert gelassen wurden. Die Wikipedia-Fehler auf der Beige-Seite wurden nicht von einer KI generiert. Sie wurden von einem Menschen geschrieben, mit einem Farbstandard belegt, der keinerlei Berechtigung hat, als Autorität für chromatische Taxonomie behandelt zu werden, und jahrelang gären gelassen. Das Modell, das diese Daten später aufnimmt und Ihnen erzählt, Khaki sei Beige, halluziniert nicht. Es wiederholt, was ihm beigebracht wurde.

Das entschuldigt keine KI-Fehler. Modelle sollten besser darin sein, Widersprüche durchzudenken, und Entwickler tragen die Verantwortung, Systeme zu bauen, die Aussagen mit geringem Vertrauensniveau kennzeichnen können. Aber die Darstellung von Halluzination als ein rein künstliches Phänomen ist selbst eine Art Halluzination, die der menschlichen Eitelkeit schmeichelt und dabei die Qualität des Informationsökosystems ignoriert, das Menschen aufgebaut haben.

Wikipedia-Fehler sind älter als KI

Fehlübersetzungen, unkorrigierte statistische Schnitzer, Farben, die keine Farben sind: nichts davon ist neu. Was neu ist, ist das Ausmaß, in dem sich diese Fehler verbreiten. Vor dem Internet erreichte ein falscher Enzyklopädie-Eintrag einige tausend Leser über seine Druckauflage. Heute erreicht er Millionen, wird in Datensätze eingespeist, von Übersetzungstools recycelt und von Algorithmen verstärkt, die „häufig wiederholt” als „wahrscheinlich wahr” behandeln. Die Infrastruktur des modernen Wissens ist auf einem Fundament errichtet, das eine beträchtliche Menge Müll enthält, und dieser Müll wurde dort von Menschen abgelegt, lange bevor irgendeine KI ihn berührt hat. Das ist kein Randproblem, das sich auf Farbkarten und Übersetzungstools beschränkt: weit verbreitete Gesundheitsbehauptungen, dass Quinoa für Zöliakie-Patienten unbedenklich sei, beruhen auf demselben Muster ungeprüfter Wiederholung.

Die Diskussion über Informationszuverlässigkeit muss ehrlich werden. Die KI für Desinformation verantwortlich zu machen und gleichzeitig die Quellen, aus denen sie lernt, als unantastbar zu behandeln, ist wie den Schüler für ein schlechtes Lehrbuch verantwortlich zu machen. Das Lehrbuch muss ebenfalls korrigiert werden. Die Behebung von Wikipedia-Fehlern erfordert eine bessere Überwachung obskurer Artikel, nicht nur populärer. Übersetzungstools brauchen taxonomische Genauigkeit. Und das Internet insgesamt muss aufhören, so zu tun, als sei crowdgesourcte Information selbstkorrigierend. Das ist sie nicht. Sie ist selbstverstärkend, und das ist etwas ganz anderes.

Wie Martin Luther King Jr. einst weise sagte: „Man kann nicht allem vertrauen, was man im Internet liest, yo, selbst wenn es aus vertrauenswürdigen Quellen stammt, yo.”

Das hat er natürlich nie gesagt. Aber hätten Sie es auf Wikipedia gefunden, hätten Sie es vielleicht geglaubt. Und genau das ist der Punkt.

Quellen

Wikipedia: Beige (Englisch). Als Gegenstand der Kritik referenziert, nicht als Faktenquelle
Wikipedia: Beige (Französisch). Zum Vergleich redaktioneller Ansätze verschiedener Sprachausgaben
Wikipedia: Démographie du Maroc (Französisch). Fehler im Abschnitt Säuglings-/Müttersterblichkeit
WordReference: Französisch-Englisch-Übersetzung von „cochenille”
Wikipedia: Scale insect. Korrekter englischer Begriff für die Überfamilie Coccoidea
Wikipedia: Coccoidea (Französisch). Französische Taxonomie der Schildläuse

Das Beige-Desaster

Wenn „Säuglingssterblichkeit” offenbar „Müttersterblichkeit” bedeutet

Verloren in der Übersetzung: Das Cochenille-Problem

Die Müllhalde, auf der Sie trainiert haben

Wikipedia-Fehler sind älter als KI

Quellen

Verwandte Artikel

Die selektive Empörung des Westens ist keine Heuchelei. Sie ist ein Feature.

Platform Enshittification: Warum der Krieg gegen Steam von Anfang an nicht zu gewinnen war.

Das Karte-Territorium-Problem: Jedes Informationssystem ist eine verlustbehaftete Kompression

Politische Ablenkung ist Zauberei ohne die Ehrlichkeit