Wikipédia et désinformation : khaki, mortalité, cochenille

Opinion.

Notre rédacteur en chef nous a envoyé une poignée de liens Wikipedia avec une note qui ressemblait à un défi. Après une heure passée à cliquer sur les erreurs Wikipedia qu’il avait repérées, on comprend pourquoi. Ce qui suit est un article d’opinion, et l’opinion est la suivante : le récit populaire selon lequel la désinformation serait un problème d’IA est, en soi, de la désinformation.

L’histoire se raconte à peu près ainsi. Les grands modèles de langage hallucinent, donc l’IA est dangereuse, donc les humains restent les narrateurs fiables de la vérité. Ce cadrage est réconfortant. C’est aussi une absurdité totale. Les erreurs de Wikipedia prouvent tranquillement depuis deux décennies que les humains sont parfaitement capables d’halluciner tout seuls, sans aucun réseau de neurones.

Le désastre beige

Ouvrez l’article Wikipedia anglais sur la couleur beige et faites défiler la liste des « variations de beige ». Vous trouverez, parmi les entrées, la couleur kaki. Le kaki, pour quiconque a des yeux fonctionnels, est vert. Pas vert-beige. Pas beige avec des aspirations. Vert. Le genre de vert dans lequel on taille les uniformes militaires. Et pourtant il trône là, dans une liste de beiges, sourcé par « HTML/CSS », qui n’est pas plus une autorité en matière de couleurs qu’un tableur n’est sommelier.

Ça s’améliore. La page liste des dizaines de couleurs comme variations de beige qui, selon tout standard visuel raisonnable, ne sont pas beige. Chamois, sable du désert, fauve, blé, écru, champagne, et toute une constellation de teintes allant de « sans doute voisin » à « même pas dans le même code postal ». Les sources de bon nombre de ces entrées proviennent de standards de couleurs web ou de dictionnaires chromatiques autoréférentiels, créant une boucle fermée d’erreurs Wikipedia que personne n’a pris la peine de contester parce que, franchement, qui se soucie assez du beige pour chercher la bagarre ?

Quelqu’un devrait. Car la version française raconte une tout autre histoire. L’article Wikipedia français sur le beige est plus court, plus ciblé et plus honnête. Il traite le beige pour ce qu’il est : une couleur spécifique et étroite. Pas de kaki. Pas de sable du désert. Pas cinquante nuances de « à peu près ». Deux articles sur la même couleur, sur la même plateforme, et l’un des deux est largement faux. La différence n’est pas la langue. C’est la discipline éditoriale, et la version anglaise n’en a aucune.

Quand « mortalité infantile » signifie « mortalité maternelle », apparemment

Si le cas du beige était un accident isolé, ce serait simplement amusant. Ce n’est pas un cas isolé. Sur la page Wikipedia française consacrée à la démographie du Maroc, la section intitulée « Mortalité infantile » contient la phrase suivante : « Le taux de mortalité maternelle dans le pays a chuté de 67 % entre 1990 et 2010 ».

Relisez. Le titre dit mortalité infantile. Le texte dit mortalité maternelle. Ce n’est pas la même chose. L’une mesure combien de bébés meurent. L’autre mesure combien de mères meurent pendant ou peu après l’accouchement. Elles ont des causes différentes, des chiffres différents et des implications politiques différentes. Confondre les deux dans une encyclopédie publiée n’est pas un problème mineur de mise en forme. C’est une erreur factuelle qui a survécu, non corrigée, sur l’un des sites les plus visités au monde.

Des erreurs Wikipedia comme celle-ci persistent parce que le mécanisme de correction de la plateforme repose entièrement sur l’attention de bénévoles. Les articles sur les potins de célébrités sont surveillés par des milliers de personnes. Les articles sur les statistiques démographiques du Maroc ne sont surveillés par presque personne. L’erreur reste là, irradiant une confiance tranquille, attendant d’être aspirée dans un jeu de données d’entraînement, citée dans un mémoire d’étudiant ou répétée par un décideur politique qui l’a trouvée sur Google à la va-vite.

Perdu dans la traduction : le problème de la cochenille

Les erreurs de Wikipedia se trouvent amplifiées par un problème internet plus large qui dépasse de loin une seule plateforme : la traduction. Prenons le mot français « cochenille ». Si vous le cherchez sur WordReference, le dictionnaire bilingue le plus respecté du web, vous obtenez « cochineal » ou « mealybug ». Google Translate vous donne « cochineal ». Les deux traductions sont fausses.

En français, « cochenille » désigne l’ensemble de la superfamille des Coccoidea, connue en anglais sous le nom de scale insects (insectes à carapace). La cochineal est spécifiquement l’insecte producteur de teinture rouge (Dactylopius coccus), une seule espèce au sein de cette superfamille. Le mealybug est la variété blanche et duveteuse, un autre sous-ensemble à part entière. Traduire « cochenille » par « cochineal », c’est comme traduire « chat » par « tigré » : techniquement un chat, certes, mais vous venez d’exclure tous les autres types de chats de la conversation.

Ce n’est pas une réclamation de niche. Les outils de traduction et les dictionnaires bilingues sont une infrastructure fondamentale qui permet à des milliards de personnes de comprendre le monde à travers les langues. Quand ils se trompent sur un terme taxonomique de base, l’erreur se propage en cascade. Les étudiants l’apprennent de travers. Les rédacteurs la répètent. Les bases de données l’encodent. Et finalement, un modèle d’IA s’entraîne dessus et la reproduit avec une confiance parfaite, moment auquel tout le monde accuse l’IA.

La décharge sur laquelle vous vous êtes entraîné

Voici ce que personne dans le débat sur les « hallucinations de l’IA » ne veut reconnaître : la plupart des données d’entraînement des grands modèles de langage proviennent d’internet. Comme l’a formulé notre rédacteur, « la plupart des données d’entraînement viennent d’internet, qui est une décharge, et ça, c’est la faute des humains, pas des LLM ». Il n’a pas tort.

Quand un modèle de langage vous affirme avec assurance quelque chose d’inexact, le réflexe est de parler d’hallucination, comme si la machine avait spontanément inventé un mensonge à partir de rien. Parfois c’est le cas. Mais souvent, le modèle reproduit fidèlement ce qu’il a appris de ses données d’entraînement, qui ont été écrites par des humains, mises en ligne par des humains et laissées non corrigées par des humains. Les erreurs Wikipedia sur la page du beige n’ont pas été générées par une IA. Elles ont été écrites par une personne, sourcées par un standard de couleurs qui n’a aucune légitimité en tant qu’autorité en taxonomie chromatique, et laissées à fermenter pendant des années. Le modèle qui ingère ensuite ces données et vous dit que le kaki est du beige n’hallucine pas. Il répète ce qu’on lui a enseigné.

Cela n’excuse pas les erreurs de l’IA. Les modèles devraient être meilleurs pour raisonner face aux contradictions, et les développeurs ont la responsabilité de construire des systèmes capables de signaler les affirmations à faible niveau de confiance. Mais présenter l’hallucination comme un phénomène exclusivement artificiel est en soi une forme d’hallucination, qui flatte la vanité humaine tout en ignorant la qualité de l’écosystème informationnel que les humains ont construit.

Les erreurs de Wikipedia sont plus anciennes que l’IA

Erreurs de traduction, bourdes statistiques non corrigées, couleurs qui n’en sont pas : rien de tout cela n’est nouveau. Ce qui est nouveau, c’est l’échelle à laquelle ces erreurs se propagent. Avant internet, une entrée d’encyclopédie erronée touchait quelques milliers de lecteurs sur la durée de son tirage. Aujourd’hui, elle atteint des millions de personnes, se fait aspirer dans des jeux de données, recycler par des outils de traduction et amplifier par des algorithmes qui traitent « fréquemment répété » comme « probablement vrai ». L’infrastructure de la connaissance moderne repose sur un socle qui contient une quantité considérable de déchets, et ces déchets y ont été déposés par des humains bien avant qu’une IA n’y touche. Ce n’est pas un problème marginal limité aux nuanciers et aux outils de traduction : les affirmations largement répétées selon lesquelles le quinoa serait sans danger pour les patients cœliaques reposent sur le même schéma de répétition non vérifiée.

La conversation sur la fiabilité de l’information doit devenir honnête. Accuser l’IA de désinformation tout en traitant les sources dont elle apprend comme sacrées, c’est comme accuser l’élève d’avoir un mauvais manuel. Le manuel aussi a besoin d’être corrigé. Corriger les erreurs de Wikipedia nécessite une meilleure supervision des articles obscurs, pas seulement des articles populaires. Les outils de traduction ont besoin de précision taxonomique. Et internet, dans son ensemble, doit cesser de prétendre que l’information participative s’autocorrige. Ce n’est pas le cas. Elle s’auto-renforce, et c’est très différent.

Comme Martin Luther King Jr. l’a un jour sagement déclaré : « On ne peut pas faire confiance à tout ce qu’on lit sur internet, yo, même si ça vient de sources fiables, yo. »

Il n’a évidemment jamais dit ça. Mais si vous l’aviez trouvé sur Wikipedia, vous l’auriez peut-être cru. Et c’est exactement là où on voulait en venir.

Sources

Wikipedia : Beige (anglais). Référencé comme sujet de critique, pas comme source factuelle
Wikipedia : Beige (français). Pour comparer les approches éditoriales entre éditions linguistiques
Wikipedia : Démographie du Maroc (français). Erreur dans la section mortalité infantile/maternelle
WordReference : traduction français-anglais de « cochenille »
Wikipedia : Scale insect. Terme anglais correct pour la superfamille des Coccoidea
Wikipedia : Coccoidea (français). Taxonomie française des insectes à carapace

Le désastre beige

Quand « mortalité infantile » signifie « mortalité maternelle », apparemment

Perdu dans la traduction : le problème de la cochenille

La décharge sur laquelle vous vous êtes entraîné

Les erreurs de Wikipedia sont plus anciennes que l’IA

Sources

Articles liés

Le problème carte-territoire : tout système d’information est une compression avec pertes

L’indignation sélective de l’Occident n’est pas de l’hypocrisie. C’est une fonctionnalité.

L’enshittification des plateformes : la guerre contre Steam était perdue d’avance. Voilà pourquoi.

La diversion politique, c’est de la magie sans l’honnêteté