Borrado del historial digital: el peligroso secreto que reescribe la historia

Reading mode

En 1984 de George Orwell, el Ministerio de la Verdad empleaba tubos neumáticos llamados “agujeros de la memoria” para incinerar registros incómodos^[s]. El agujero de la memoria actual no necesita fuego. El borrado del historial digital ocurre con un solo clic, un cambio de configuración o una directiva en el archivo robots.txt. En febrero de 2025, la administración Trump eliminó más de 8,000 páginas web y bases de datos de sitios federales^[s]. Veintitrés organizaciones de noticias importantes ahora bloquean al rastreador del Internet Archive para evitar que preserve su contenido^[s]. La infraestructura para reescribir la historia nunca había sido tan accesible.

Cómo funciona realmente el borrado del historial digital

Los sistemas modernos de gestión de contenidos, como WordPress, Drupal y plataformas empresariales, almacenan cada artículo, página y documento en bases de datos. Estos sistemas fueron diseñados para facilitar la publicación. También hacen que el borrado del historial digital sea trivialmente simple.

WordPress, que impulsa aproximadamente el 40% de todos los sitios web, guarda versiones anteriores del contenido como “revisiones”. Cada borrador guardado crea una nueva entrada^[s]. Esto parece una protección contra el borrado del historial digital, pero en la práctica es distinto. Una sola línea de código en el archivo de configuración puede desactivar las revisiones por completo: define( 'WP_POST_REVISIONS', false );^[s]. Las organizaciones pueden purgar el historial de revisiones con plugins de optimización de bases de datos que se ejecutan automáticamente en horarios programados.

Los sistemas de gestión de contenidos empresariales ofrecen controles más sofisticados, pero el problema central persiste. Un registro de auditoría documenta quién cambió qué y cuándo^[s]. Pero estos registros sirven a los administradores, no al público. Un lector que visita un artículo de noticias no tiene forma de saber si ese artículo se publicó ayer o se editó esta mañana. El público ve la versión actual. El historial permanece detrás de una pantalla de inicio de sesión, si es que existe.

Edición encubierta: el borrado del historial digital en el periodismo

Una edición encubierta ocurre cuando un recurso en línea cambia sin que los lectores vean ningún registro^[s]. Esta técnica se considera poco ética en el periodismo porque permite a los escritores modificar retroactivamente lo que escribieron. Algunos editores argumentan que esto les permite presentar “la versión más completa de una historia”. Los lectores piensan diferente. Ven los cambios no declarados, especialmente los sustanciales, como sospechosos^[s].

En 2016, The New York Times enfrentó escrutinio por cambios editoriales realizados a un artículo sobre Bernie Sanders durante su campaña presidencial. Las revisiones fueron detectadas utilizando la Wayback Machine del Internet Archive^[s]. Hoy, The New York Times bloquea al rastreador del Archive, utilizando medidas técnicas que van más allá de las reglas tradicionales de robots.txt^[s]. Situaciones similares en 2026 podrían ser mucho más difíciles de detectar.

La Wayback Machine bajo asedio

El Internet Archive ha pasado 30 años construyendo la biblioteca digital más grande del mundo, preservando más de un billón de páginas web^[s]. Periodistas, investigadores y tribunales dependen de ella a diario^[s]. Una Wayback Machine debilitada representa un potencial catastrófico para el borrado del historial digital.

Los editores justifican el bloqueo citando preocupaciones sobre empresas de inteligencia artificial que raspan contenido archivado para entrenar datos. The New York Times afirma que su contenido en el Internet Archive “está siendo utilizado por empresas de inteligencia artificial en violación de la ley de derechos de autor”. Pero, como señala la Electronic Frontier Foundation, organizaciones como el Internet Archive no están construyendo sistemas comerciales de inteligencia artificial. Están preservando la historia. Bloquear a archivistas sin fines de lucro en un esfuerzo por controlar el acceso a la inteligencia artificial “podría esencialmente quemar décadas de documentación histórica en una pelea que bibliotecas como el Archive no comenzaron”^[s].

Datos gubernamentales desaparecen

La escala del borrado del historial digital federal en 2025 ha superado a administraciones anteriores. El National Security Archive documentó una estrategia de “negación por borrado” destinada a erradicar referencias al cambio climático de los sitios web gubernamentales^[s]. Las Evaluaciones Nacionales del Clima, ordenadas por ley desde 1990, desaparecieron de los sitios web creados para mostrarlas^[s].

“Es fundamental que los tomadores de decisiones en todo el país conozcan la ciencia en la Evaluación Nacional del Clima”, dijo Kathy Jacobs, científica climática de la Universidad de Arizona. “Es la fuente de información más confiable y revisada sobre el clima que existe para los Estados Unidos”^[s].

El acceso a los datos gubernamentales afecta directamente la reproducibilidad científica, la validación de modelos y la integridad del registro académico. Cuando los conjuntos de datos desaparecen, años de investigación construida sobre esa base pueden invalidarse^[s].

Qué puede hacer usted

Las defensas contra el borrado del historial digital son distribuidas y descentralizadas. El Laboratorio de Innovación de la Biblioteca de la Facultad de Derecho de Harvard acumuló una copia de 16 terabytes de Data.gov que contiene más de 311,000 conjuntos de datos públicos, actualizada diariamente mediante consultas automatizadas a la interfaz de programación de aplicaciones^[s]. Grupos ambientalistas utilizan la Wayback Machine para archivar datos climáticos antes de que desaparezcan.

Las acciones individuales importan. Guarde las páginas que le interesan utilizando la función “Guardar página ahora” de la Wayback Machine. Descargue los conjuntos de datos de los que depende. Reconozca que internet olvida lo que sus operadores deciden eliminar. La preservación digital no es automática.

La arquitectura CMS facilita el borrado del historial digital

Los sistemas de gestión de contenidos separan el contenido de la presentación mediante almacenamiento respaldado por bases de datos. WordPress almacena las publicaciones en wp_posts con revisiones como filas separadas vinculadas por post_parent. Este sistema de revisiones crea una falsa sensación de permanencia. La constante WP_POST_REVISIONS en wp-config.php controla la retención: establecerla en false desactiva las revisiones por completo; establecerla en un número entero limita las versiones almacenadas^[s]. Los plugins de optimización de bases de datos eliminan rutinariamente las tablas de revisiones en horarios automatizados.

Los sistemas empresariales como dotCMS, Adobe Experience Manager y Sitecore implementan registros de auditoría que documentan cambios a nivel de campo con marcas de tiempo e identidad del usuario^[s]. La distinción crítica: los registros de auditoría registran acciones entre borradores (ediciones, aprobaciones, decisiones de publicación), mientras que el historial de versiones almacena los borradores guardados. La mayoría de las organizaciones no pasan auditorías de cumplimiento no porque carezcan de políticas de gobernanza, sino porque no pueden presentar evidencia de que esas políticas se aplicaron^[s]. El público no tiene acceso a estos registros internos.

Edición encubierta: borrado del historial digital a nivel de protocolo

Una edición encubierta modifica contenido publicado sin indicadores visibles de cambio^[s]. La detección tradicionalmente dependía de comparar las páginas actuales con versiones almacenadas en caché o archivadas. Alternativas éticas incluyen: anteponer notificaciones de actualización a los títulos, usar tachado para eliminaciones con adiciones en color, o mantener registros públicos de cambios^[s].

The New York Times enfrentó escrutinio en 2016 por cambios editoriales no declarados en un artículo sobre Bernie Sanders. La Wayback Machine proporcionó evidencia de las alteraciones^[s]. Hoy, el Times bloquea ia_archiverbot utilizando medidas que van más allá de robots.txt^[s]. Esto crea una brecha de responsabilidad asimétrica: las publicaciones pueden editar libremente mientras que la verificación externa se vuelve imposible.

Robots.txt: borrado del historial digital retroactivo

El estándar robots.txt fue diseñado hace más de 20 años para rastreadores de motores de búsqueda. El Internet Archive históricamente respetó estas directivas, lo que crea un resultado perverso. Cuando un sitio en vivo se convierte en un dominio estacionado, el nuevo robots.txt puede ocultar retroactivamente todas las instantáneas históricas de la visualización en la Wayback Machine^[s]. Un negocio cierra, su dominio se estaciona con reglas que bloquean rastreadores, y toda su historia web desaparece de la vista pública.

El Archive recibe quejas diarias sobre estos sitios “desaparecidos”. En 2017, la organización dejó de aplicar robots.txt en sitios web gubernamentales y militares de Estados Unidos tanto para el rastreo como para la visualización^[s]. La política no ha causado problemas. Los editores aún pueden solicitar la exclusión directamente^[s].

Un análisis de Originality AI encontró que 23 sitios de noticias importantes bloquean ia_archiverbot^[s]. La justificación declarada involucra preocupaciones sobre el entrenamiento de inteligencia artificial, pero el mecanismo afecta a todo el archivado, no solo a los raspadores de inteligencia artificial.

Colapso de la infraestructura de datos federales

Ocho meses después del segundo mandato de Trump, la administración “distorsionó fundamentalmente el panorama de la información federal” mediante la reescritura sistemática y el borrado del historial digital de recursos climáticos^[s]. La estrategia, descrita en un video de capacitación de Project 2025, buscaba “erradicar las referencias al cambio climático de absolutamente todas partes”^[s].

IEEE Spectrum reportó que se eliminaron más de 8,000 páginas web y bases de datos solo en febrero de 2025^[s]. Las Evaluaciones Nacionales del Clima, ordenadas por la Ley de Investigación del Cambio Global de 1990, desaparecieron de globalchange.gov^[s]. Data.gov perdió miles de conjuntos de datos, desproporcionadamente de la NOAA, la NASA, el Departamento del Interior, el DOE y la EPA^[s].

El acceso a los datos gubernamentales afecta la reproducibilidad, la validación de modelos y la integridad académica. La eliminación de conjuntos de datos puede invalidar años de investigación dependiente^[s].

Contramedidas y limitaciones

La Iniciativa de Datos Ambientales y Gobernanza (EDGI) y los Socios de Datos Ambientales Públicos (PEDP) coordinan con el personal del Internet Archive para monitorear cambios en sitios web federales mediante rastreadores web^[s]. El Laboratorio de Innovación de la Biblioteca de la Facultad de Derecho de Harvard mantiene un espejo de 16 terabytes de Data.gov (más de 311,000 conjuntos de datos) actualizado mediante llamadas automatizadas a la interfaz de programación de aplicaciones^[s].

Estos esfuerzos enfrentan límites estructurales. Gretchen Gehrke, cofundadora de EDGI, señala: “Las pequeñas organizaciones sin fines de lucro no van a lanzar un satélite ni a recopilar datos climáticos. Dependemos del gobierno para recopilar estos datos en beneficio público”^[s].

Las contramedidas técnicas incluyen: archivado proactivo mediante “Guardar página ahora”, descargas locales de conjuntos de datos, almacenamiento descentralizado basado en IPFS y herramientas de monitoreo como el Rastreador Web Ambiental Federal de EDGI. Ninguna sustituye la recopilación autorizada de datos en la fuente.

La arquitectura del agujero de la memoria: Cómo las plataformas CMS modernas hacen que el borrado del historial digital sea trivial

Cómo funciona realmente el borrado del historial digital

Edición encubierta: el borrado del historial digital en el periodismo

La Wayback Machine bajo asedio

Datos gubernamentales desaparecen

Qué puede hacer usted

La arquitectura CMS facilita el borrado del historial digital

Edición encubierta: borrado del historial digital a nivel de protocolo

Robots.txt: borrado del historial digital retroactivo

Colapso de la infraestructura de datos federales

Contramedidas y limitaciones

Fuentes

Cómo funciona realmente el borrado del historial digital

Edición encubiertaCambio no declarado en contenido publicado en línea que no deja rastro visible para los lectores.: el borrado del historial digital en el periodismo

La Wayback Machine bajo asedio

Datos gubernamentales desaparecen

Qué puede hacer usted

La arquitectura CMS facilita el borrado del historial digital

Edición encubiertaCambio no declarado en contenido publicado en línea que no deja rastro visible para los lectores.: borrado del historial digital a nivel de protocolo

Robots.txt: borrado del historial digital retroactivo

Colapso de la infraestructura de datos federales

Contramedidas y limitaciones

Fuentes

Artículos relacionados

El autocorrector se llevó tu ortografía. La IA quiere el resto.

Superalimentos: lo falso, lo real, lo peligroso y la palabra de 193.000 millones de dólares que no significa nada

El AI Slop es una elección. Este sitio es la prueba.

Cómo funciona el lobbying: la corrupción legal que moldea cada ley que rige tu vida

Edición encubierta: el borrado del historial digital en el periodismo

Edición encubierta: borrado del historial digital a nivel de protocolo