Errores Wikipedia Prueban Que Humanos También Alucinan

Opinion.

Un puñado de enlaces de Wikipedia y una hora haciendo clic en los errores que contenían bastaron para entender por qué. Lo que sigue es un artículo de opinión, y la opinión es esta: la narrativa popular de que la desinformación es un problema de IA es, en sí misma, desinformación.

La historia viene a ser algo así. Los grandes modelos de lenguaje alucinan, por tanto la IA es peligrosa, por tanto los humanos siguen siendo los narradores fiables de la verdad. Este encuadre es reconfortante. También es una completa tontería. Los errores de Wikipedia llevan dos décadas demostrando discretamente que los humanos son perfectamente capaces de alucinar por su cuenta, sin necesidad de redes neuronales.

El desastre beige

Abra el artículo de Wikipedia en inglés sobre el color beige^[s] y desplácese por la lista de «variaciones de beige». Encontrará, entre las entradas, el color caqui. El caqui, para cualquier persona con ojos funcionales, es verde. No beige verdoso. No beige con aspiraciones. Verde. El tipo de verde con el que se hacen los uniformes militares. Y sin embargo ahí está, en una lista de beiges, con fuente «HTML/CSS», que no es una autoridad en materia de color más de lo que una hoja de cálculo es un sommelier.

La cosa mejora. La página lista docenas de colores como variaciones de beige que, según cualquier estándar visual razonable, no son beige. Ante, arena del desierto, cervato, trigo, crudo, champán, y toda una constelación de tonos que van desde «posiblemente adyacente» hasta «ni siquiera en el mismo código postal». Las fuentes de muchas de estas entradas provienen de estándares de color web o diccionarios cromáticos autorreferenciales, creando un circuito cerrado de errores de Wikipedia que nadie se ha molestado en cuestionar porque, francamente, ¿a quién le importa lo suficiente el beige como para buscar pelea?

A alguien debería importarle. Porque la versión francesa cuenta una historia muy diferente. El artículo de Wikipedia en francés sobre el beige^[s] es más corto, más centrado y más honesto. Trata el beige como lo que es: un color específico y acotado. Sin caqui. Sin arena del desierto. Sin cincuenta sombras de «más o menos». Dos artículos sobre el mismo color en la misma plataforma, y uno de ellos está mayormente equivocado. La diferencia no es el idioma. Es la disciplina editorial, y la versión inglesa carece de ella.

Cuando «mortalidad infantil» significa «mortalidad materna», al parecer

Si el caso del beige fuera una anomalía aislada, sería simplemente divertido. No es un caso aislado. En la página de Wikipedia en francés sobre la demografía de Marruecos^[s], la sección titulada «Mortalité infantile» («Mortalidad infantil») contiene el siguiente pasaje: «Le taux de mortalité maternelle dans le pays a chuté de 67 % entre 1990 et 2010 et le taux de mortalité des moins de cinq ans chuté de 60 % entre 1990 et 2011» («La tasa de mortalidad materna en el país cayó un 67 % entre 1990 y 2010, y la tasa de mortalidad de menores de cinco años cayó un 60 % entre 1990 y 2011»).

Léalo otra vez. El encabezado dice mortalidad infantil. La frase comienza con la mortalidad materna — una métrica completamente distinta que mide cuántas madres mueren durante o poco después del parto — antes de pasar a la mortalidad de menores de cinco años, que está relacionada pero sigue siendo distinta de la mortalidad infantil. La sección mezcla tres conceptos distintos bajo un mismo encabezado, cada uno con causas diferentes, cifras diferentes e implicaciones políticas diferentes. No es un error catastrófico, pero es el tipo de imprecisión discreta que ha sobrevivido, sin corregir, en uno de los sitios web más visitados del mundo.

Los errores de Wikipedia como este persisten porque el mecanismo de corrección de la plataforma depende enteramente de la atención de voluntarios. Los artículos sobre cotilleos de celebridades son vigilados por miles de personas. Los artículos sobre estadísticas demográficas de Marruecos son vigilados por casi nadie. El error permanece ahí, irradiando una confianza tranquila, esperando a ser absorbido por un conjunto de datos de entrenamiento, citado en un trabajo de estudiante o repetido por un político que lo buscó en Google con prisas.

Perdido en la traducción: el problema de la cochinilla

Los errores de Wikipedia se ven agravados por un problema de internet más amplio que va mucho más allá de una sola plataforma: la traducción. Tomemos la palabra francesa «cochenille». Si la busca en WordReference^[s], el diccionario bilingüe más respetado de la web, obtiene «cochineal» o «mealybug». Google Translate le da «cochineal». Ambas traducciones son incorrectas.

En francés, «cochenille» se refiere a toda la superfamilia Coccoidea^[s], conocida en inglés como scale insects^[s] (insectos escama). Cochineal es específicamente el insecto productor de tinte rojo (Dactylopius coccus), una única especie dentro de esa superfamilia. Mealybug es la variedad blanca y algodonosa, otro subconjunto completamente diferente. Traducir «cochenille» como «cochineal» es como traducir «gato» como «atigrado»: técnicamente un gato, sí, pero acaba de excluir a todos los demás tipos de gatos de la conversación.

Esto no es una queja de nicho. Las herramientas de traducción y los diccionarios bilingües son infraestructura fundamental para que miles de millones de personas comprendan el mundo a través de los idiomas. Cuando se equivocan en un término taxonómico básico, el error se propaga en cascada. Los estudiantes lo aprenden mal. Los escritores lo repiten. Las bases de datos lo codifican. Y finalmente, un modelo de IA se entrena con ello y lo reproduce con perfecta confianza, momento en el cual todo el mundo le echa la culpa a la IA.

El vertedero sobre el que te entrenaste

Aquí viene la parte que nadie en el discurso sobre las «alucinaciones de la IA» quiere reconocer: la mayoría de los datos de entrenamiento de los grandes modelos de lenguaje provienen de internet. La verdad incómoda persiste: «la mayoría de los datos de entrenamiento vienen de internet, que es un vertedero, y eso es culpa de los humanos, no de los LLM».

Cuando un modelo de lenguaje le dice algo incorrecto con total seguridad, la respuesta refleja es llamarlo alucinación, como si la máquina hubiera inventado espontáneamente una falsedad de la nada. A veces lo hace. Pero a menudo, el modelo reproduce fielmente lo que aprendió de sus datos de entrenamiento, que fueron escritos por humanos, subidos por humanos y dejados sin corregir por humanos. Los errores de Wikipedia en la página del beige no fueron generados por una IA. Fueron escritos por una persona, referenciados con un estándar de color que no tiene ninguna legitimidad para ser tratado como autoridad en taxonomía cromática, y dejados a fermentar durante años. El modelo que posteriormente ingiere estos datos y le dice que el caqui es beige no está alucinando. Está repitiendo lo que le enseñaron.

Esto no excusa los errores de la IA. Los modelos deberían ser mejores razonando ante contradicciones, y los desarrolladores tienen la responsabilidad de construir sistemas capaces de señalar afirmaciones con bajo nivel de confianza. Pero enmarcar la alucinación como un fenómeno exclusivamente artificial es en sí mismo una forma de alucinación, que halaga la vanidad humana mientras ignora la calidad del ecosistema informativo que los humanos han construido.

Los errores de Wikipedia son más antiguos que la IA

Errores de traducción, meteduras estadísticas sin corregir, colores que no son colores: nada de esto es nuevo. Lo que sí es nuevo es la escala a la que estos errores se propagan. Antes de internet, una entrada errónea de enciclopedia alcanzaba a unos pocos miles de lectores durante su tirada impresa. Ahora alcanza a millones, se absorbe en conjuntos de datos, se recicla a través de herramientas de traducción y se amplifica mediante algoritmos que tratan «frecuentemente repetido» como «probablemente cierto». La infraestructura del conocimiento moderno está construida sobre unos cimientos que incluyen una cantidad considerable de basura, y esa basura fue colocada ahí por humanos mucho antes de que cualquier IA la tocara. No se trata de un problema marginal limitado a tablas de colores y herramientas de traducción: las afirmaciones ampliamente repetidas de que la quinoa es segura para pacientes celíacos resultan estar basadas en el mismo patrón de repetición sin verificar.

La conversación sobre la fiabilidad de la información necesita ser honesta. Culpar a la IA de la desinformación mientras se tratan como sagradas las fuentes de las que aprende es como culpar al estudiante de un mal libro de texto. El libro de texto también necesita arreglarse. Corregir los errores de Wikipedia requiere mejor supervisión de los artículos oscuros, no solo de los populares. Las herramientas de traducción necesitan precisión taxonómica. E internet, en general, necesita dejar de fingir que la información colaborativa se autocorrige. No lo hace. Se autorrefuerza, que es algo muy diferente.

Como dijo sabiamente Martin Luther King Jr. en una ocasión: «No puedes fiarte de todo lo que lees en internet, ¿sabes?, aunque venga de fuentes fiables, ¿sabes?»

Obviamente, nunca dijo eso. Pero si lo hubiera encontrado en Wikipedia, quizá se lo habría creído. Y esa es exactamente la cuestión.

Caqui no es beige, y otros errores de Wikipedia que demuestran que las alucinaciones son un invento humano

El desastre beige

Cuando «mortalidad infantil» significa «mortalidad materna», al parecer

Perdido en la traducción: el problema de la cochinilla

El vertedero sobre el que te entrenaste

Los errores de Wikipedia son más antiguos que la IA

Fuentes

El desastre beige

Cuando «mortalidad infantil» significa «mortalidad materna», al parecer

Perdido en la traducción: el problema de la cochinilla

El vertedero sobre el que te entrenaste

Los errores de Wikipedia son más antiguos que la IA

Fuentes

Artículos relacionados

La apuesta de mil millones de Yann LeCun contra los LLM: por qué cree que todo el paradigma es erróneo

Cómo se crean los deepfakes y por qué su detección fracasa estructuralmente

El veredicto sobre adicción a las redes sociales que puso a las grandes tecnológicas en la trayectoria del tabaco

El IA Overlord Elegido: Tu Suscripción Es un Voto por el Futuro