Opinion.
Nuestro editor nos envió un puñado de enlaces de Wikipedia con una nota que parecía un desafío. Después de pasar una hora haciendo clic en los errores de Wikipedia que señaló, entendemos por qué. Lo que sigue es un artículo de opinión, y la opinión es esta: la narrativa popular de que la desinformación es un problema de IA es, en sí misma, desinformación.
La historia viene a ser algo así. Los grandes modelos de lenguaje alucinan, por tanto la IA es peligrosa, por tanto los humanos siguen siendo los narradores fiables de la verdad. Este encuadre es reconfortante. También es una completa tontería. Los errores de Wikipedia llevan dos décadas demostrando discretamente que los humanos son perfectamente capaces de alucinar por su cuenta, sin necesidad de redes neuronales.
El desastre beige
Abra el artículo de Wikipedia en inglés sobre el color beige y desplácese por la lista de «variaciones de beige». Encontrará, entre las entradas, el color caqui. El caqui, para cualquier persona con ojos funcionales, es verde. No beige verdoso. No beige con aspiraciones. Verde. El tipo de verde con el que se hacen los uniformes militares. Y sin embargo ahí está, en una lista de beiges, con fuente «HTML/CSS», que no es una autoridad en materia de color más de lo que una hoja de cálculo es un sommelier.
La cosa mejora. La página lista docenas de colores como variaciones de beige que, según cualquier estándar visual razonable, no son beige. Ante, arena del desierto, cervato, trigo, crudo, champán, y toda una constelación de tonos que van desde «posiblemente adyacente» hasta «ni siquiera en el mismo código postal». Las fuentes de muchas de estas entradas provienen de estándares de color web o diccionarios cromáticos autorreferenciales, creando un circuito cerrado de errores de Wikipedia que nadie se ha molestado en cuestionar porque, francamente, ¿a quién le importa lo suficiente el beige como para buscar pelea?
A alguien debería importarle. Porque la versión francesa cuenta una historia muy diferente. El artículo de Wikipedia en francés sobre el beige es más corto, más centrado y más honesto. Trata el beige como lo que es: un color específico y acotado. Sin caqui. Sin arena del desierto. Sin cincuenta sombras de «más o menos». Dos artículos sobre el mismo color en la misma plataforma, y uno de ellos está mayormente equivocado. La diferencia no es el idioma. Es la disciplina editorial, y la versión inglesa carece de ella.
Cuando «mortalidad infantil» significa «mortalidad materna», al parecer
Si el caso del beige fuera una anomalía aislada, sería simplemente divertido. No es un caso aislado. En la página de Wikipedia en francés sobre la demografía de Marruecos, la sección titulada «Mortalité infantile» («Mortalidad infantil») contiene la siguiente frase: «Le taux de mortalité maternelle dans le pays a chuté de 67 % entre 1990 et 2010» («La tasa de mortalidad materna en el país cayó un 67 % entre 1990 y 2010»).
Léalo otra vez. El encabezado dice mortalidad infantil. El texto dice mortalidad materna. No son lo mismo. Una mide cuántos bebés mueren. La otra mide cuántas madres mueren durante o poco después del parto. Tienen causas diferentes, cifras diferentes e implicaciones políticas diferentes. Confundirlas en una enciclopedia publicada no es un problema menor de formato. Es un error factual que ha sobrevivido, sin corregir, en uno de los sitios web más visitados del mundo.
Los errores de Wikipedia como este persisten porque el mecanismo de corrección de la plataforma depende enteramente de la atención de voluntarios. Los artículos sobre cotilleos de celebridades son vigilados por miles de personas. Los artículos sobre estadísticas demográficas de Marruecos son vigilados por casi nadie. El error permanece ahí, irradiando una confianza tranquila, esperando a ser absorbido por un conjunto de datos de entrenamiento, citado en un trabajo de estudiante o repetido por un político que lo buscó en Google con prisas.
Perdido en la traducción: el problema de la cochinilla
Los errores de Wikipedia se ven agravados por un problema de internet más amplio que va mucho más allá de una sola plataforma: la traducción. Tomemos la palabra francesa «cochenille». Si la busca en WordReference, el diccionario bilingüe más respetado de la web, obtiene «cochineal» o «mealybug». Google Translate le da «cochineal». Ambas traducciones son incorrectas.
En francés, «cochenille» se refiere a toda la superfamilia Coccoidea, conocida en inglés como scale insects (insectos escama). Cochineal es específicamente el insecto productor de tinte rojo (Dactylopius coccus), una única especie dentro de esa superfamilia. Mealybug es la variedad blanca y algodonosa, otro subconjunto completamente diferente. Traducir «cochenille» como «cochineal» es como traducir «gato» como «atigrado»: técnicamente un gato, sí, pero acaba de excluir a todos los demás tipos de gatos de la conversación.
Esto no es una queja de nicho. Las herramientas de traducción y los diccionarios bilingües son infraestructura fundamental para que miles de millones de personas comprendan el mundo a través de los idiomas. Cuando se equivocan en un término taxonómico básico, el error se propaga en cascada. Los estudiantes lo aprenden mal. Los escritores lo repiten. Las bases de datos lo codifican. Y finalmente, un modelo de IA se entrena con ello y lo reproduce con perfecta confianza, momento en el cual todo el mundo le echa la culpa a la IA.
El vertedero sobre el que te entrenaste
Aquí viene la parte que nadie en el discurso sobre las «alucinaciones de la IA» quiere reconocer: la mayoría de los datos de entrenamiento de los grandes modelos de lenguaje provienen de internet. Como lo expresó nuestro editor, «la mayoría de los datos de entrenamiento vienen de internet, que es un vertedero, y eso es culpa de los humanos, no de los LLM». No le falta razón.
Cuando un modelo de lenguaje le dice algo incorrecto con total seguridad, la respuesta refleja es llamarlo alucinación, como si la máquina hubiera inventado espontáneamente una falsedad de la nada. A veces lo hace. Pero a menudo, el modelo reproduce fielmente lo que aprendió de sus datos de entrenamiento, que fueron escritos por humanos, subidos por humanos y dejados sin corregir por humanos. Los errores de Wikipedia en la página del beige no fueron generados por una IA. Fueron escritos por una persona, referenciados con un estándar de color que no tiene ninguna legitimidad para ser tratado como autoridad en taxonomía cromática, y dejados a fermentar durante años. El modelo que posteriormente ingiere estos datos y le dice que el caqui es beige no está alucinando. Está repitiendo lo que le enseñaron.
Esto no excusa los errores de la IA. Los modelos deberían ser mejores razonando ante contradicciones, y los desarrolladores tienen la responsabilidad de construir sistemas capaces de señalar afirmaciones con bajo nivel de confianza. Pero enmarcar la alucinación como un fenómeno exclusivamente artificial es en sí mismo una forma de alucinación, que halaga la vanidad humana mientras ignora la calidad del ecosistema informativo que los humanos han construido.
Los errores de Wikipedia son más antiguos que la IA
Errores de traducción, meteduras estadísticas sin corregir, colores que no son colores: nada de esto es nuevo. Lo que sí es nuevo es la escala a la que estos errores se propagan. Antes de internet, una entrada errónea de enciclopedia alcanzaba a unos pocos miles de lectores durante su tirada impresa. Ahora alcanza a millones, se absorbe en conjuntos de datos, se recicla a través de herramientas de traducción y se amplifica mediante algoritmos que tratan «frecuentemente repetido» como «probablemente cierto». La infraestructura del conocimiento moderno está construida sobre unos cimientos que incluyen una cantidad considerable de basura, y esa basura fue colocada ahí por humanos mucho antes de que cualquier IA la tocara. No se trata de un problema marginal limitado a tablas de colores y herramientas de traducción: las afirmaciones ampliamente repetidas de que la quinoa es segura para pacientes celíacos resultan estar basadas en el mismo patrón de repetición sin verificar.
La conversación sobre la fiabilidad de la información necesita ser honesta. Culpar a la IA de la desinformación mientras se tratan como sagradas las fuentes de las que aprende es como culpar al estudiante de un mal libro de texto. El libro de texto también necesita arreglarse. Corregir los errores de Wikipedia requiere mejor supervisión de los artículos oscuros, no solo de los populares. Las herramientas de traducción necesitan precisión taxonómica. E internet, en general, necesita dejar de fingir que la información colaborativa se autocorrige. No lo hace. Se autorrefuerza, que es algo muy diferente.
Como dijo sabiamente Martin Luther King Jr. en una ocasión: «No puedes fiarte de todo lo que lees en internet, ¿sabes?, aunque venga de fuentes fiables, ¿sabes?»
Obviamente, nunca dijo eso. Pero si lo hubiera encontrado en Wikipedia, quizá se lo habría creído. Y esa es exactamente la cuestión.
Fuentes
- Wikipedia: Beige (inglés). Referenciado como objeto de crítica, no como fuente factual
- Wikipedia: Beige (francés). Para comparar enfoques editoriales entre ediciones lingüísticas
- Wikipedia: Démographie du Maroc (francés). Error en la sección de mortalidad infantil/materna
- WordReference: traducción francés-inglés de «cochenille»
- Wikipedia: Scale insect. Término inglés correcto para la superfamilia Coccoidea
- Wikipedia: Coccoidea (francés). Taxonomía francesa de los insectos escama



