La detección deepfake se ha convertido en uno de los desafíos más urgentes en seguridad digital, y los números cuentan una historia impactante. Las pérdidas financieras por fraude deepfake han alcanzado $1.56 mil millones, con más de $1 mil millones ocurriendo solo en 2025[s]. La solución principal de la industria tecnológica, las marcas de agua invisibles que etiquetan el contenido generado por IA, tiene un fallo fundamental: los investigadores han demostrado que pueden eliminar estas marcas de agua sin siquiera saber que existen.
La Promesa de las Marcas de Agua
La idea básica detrás de las marcas de agua suena razonable. Las empresas de IA como Google, Meta y OpenAI incorporan firmas digitales invisibles en el contenido que generan sus sistemas. Se supone que estas firmas son imperceptibles para los humanos pero legibles por las herramientas de detección. La Coalition for Content Provenance and Authenticity (C2PA), un consorcio de más de 6,000 miembros incluyendo Adobe, Microsoft e Intel, ha creado un estándar para rastrear de dónde proviene el contenido digital[s].
Los gobiernos han adoptado este enfoque. La Ley de IA de la UE, con disposiciones de transparencia que requieren que los medios sintéticos lleven etiquetas legibles por máquina entrando en vigor en agosto de 2026, representa el impulso regulatorio en esta dirección[s]. En Estados Unidos, la legislación que requiere marcas de agua en contenido generado por IA está avanzando en el Congreso. La suposición es que si podemos etiquetar el contenido falso en la fuente, podemos identificarlo después.
Por Qué Fallan las Marcas de Agua
En julio de 2025, investigadores de la Universidad de Waterloo publicaron una herramienta llamada UnMarker que expone la debilidad central de todo este enfoque. La herramienta puede eliminar cualquier marca de agua de imagen IA sin necesidad de saber cómo fue codificada la marca de agua, o incluso si la imagen tiene marca de agua[s].
UnMarker funciona analizando dónde las frecuencias de píxeles en una imagen son inusuales, la firma dejada por los sistemas de marcas de agua. Luego distorsiona ligeramente esas frecuencias, haciendo que la imagen sea irreconocible para los detectores de marcas de agua mientras parece idéntica a los ojos humanos. En las pruebas, tuvo éxito más del 50% del tiempo contra sistemas importantes incluyendo SynthID de Google y Stable Signature de Meta[s].
El estándar C2PA tiene sus propios problemas. Sus datos de procedencia se almacenan como metadatosDatos sobre datos que describen las características de las comunicaciones, como quién llamó a quién, cuándo y por cuánto tiempo, sin el contenido real. adjuntos a archivos en lugar de estar incorporados en el contenido mismo. Las imágenes frecuentemente pierden sus metadatos cuando se comparten a través de plataformas[s]. Convertir un archivo de un formato a otro, o simplemente tomar una captura de pantalla, elimina completamente toda la información de procedencia[s].
Un Sistema Fragmentado
Incluso si las marcas de agua fueran robustas, la detección deepfake a través de marcas de agua solo funciona si todos usan el mismo sistema. No lo hacen. SynthID de Google solo detecta contenido hecho con los servicios de IA de Google. Meta tiene su propio sistema. OpenAI tiene otro[s]. Alguien puede generar un deepfake usando un modelo de código abierto o una herramienta menos conocida, y ninguno de estos sistemas de detección lo marcará.
Ya existen servicios comerciales que eliminarán marcas de agua por una tarifa[s]. La Universidad de Maryland encontró que las marcas de agua no solo pueden ser eliminadas, sino agregadas a imágenes reales para marcarlas falsamente como generadas por IA[s]. Esto significa que las marcas de agua podrían ser utilizadas como armas para desacreditar contenido legítimo.
Consecuencias del Mundo Real
Estas fallas técnicas se traducen directamente en daño real. En febrero de 2024, un empleado de finanzas en Arup, la firma de ingeniería detrás de la Ópera de Sídney y el estadio Nido de Pájaro de Beijing, recibió una invitación a videollamada de alguien que afirmaba ser el director financiero de la empresa. En la llamada, todos los participantes, el CFO y varios colegas, aparecían y sonaban exactamente como el empleado esperaba. Todos eran deepfakes. El empleado autorizó 15 transferencias por un total de $25 millones[s].
El costo de crear tales deepfakes ha colapsado. La clonación de voz ahora cuesta tan poco como $0.01 por minuto, y solo se necesitan tres segundos de audio grabado para clonar la voz de alguien[s].
Lo Que Realmente Funciona
Los métodos de detección deepfake que analizan el contenido mismo, en lugar de buscar marcas de agua, muestran más promesa. FakeCatcher de Intel examina cambios sutiles de color en píxeles faciales causados por la sangre fluyendo a través de las venas, una señal llamada fotopletismografíaUna técnica para medir el flujo sanguíneo detectando cambios sutiles de color en la piel causados por el bombeo de sangre del corazón.. Los rostros humanos reales muestran fluctuaciones de color microscópicas cuando el corazón bombea sangre; los deepfakes no replican este patrón[s]. En las pruebas, FakeCatcher alcanzó 91% de precisión[s].
Una ventaja clave de este enfoque: no puede ser fácilmente sometido a ingeniería inversa. Los atacantes que entrenan sistemas de IA para evadir la detección deepfake necesitan entender exactamente qué está buscando el detector. El método de FakeCatcher es matemáticamente no diferenciable, lo que significa que los atacantes no pueden simplemente entrenar sus generadores de deepfake para vencerlo[s].
Se proyecta que el mercado de detección deepfake crezca de $5.5 mil millones en 2023 a $15.7 mil millones en 2026[s]. Ese crecimiento refleja una verdad dura: las marcas de agua siempre fueron una medida de cumplimiento, no una medida de seguridad. Protegerse contra el fraude sofisticado requiere sistemas de detección que funcionen independientemente de si el atacante coopera.
La ciencia forense de la detección deepfake enfrenta una asimetría fundamental. Los defensores se basan principalmente en esquemasMarcos mentales de representaciones comprimidas y expectativas que el cerebro utiliza para codificar, almacenar y recuperar información. Cuando recuerdas algo, tu cerebro lo reconstruye usando esquemas más cualquier indicio contextual presente. de marcas de agua que asumen cooperación del adversario, mientras que los atacantes necesitan solo un método de evasión exitoso. Las pérdidas financieras por fraude habilitado por deepfakes han alcanzado $1.56 mil millones, con más de $1 mil millones ocurriendo solo en 2025[s], una trayectoria que expone la inadecuación estructural de los estándares de autenticación actuales.
La Arquitectura de Marcas de Agua
La especificación Coalition for Content Provenance and Authenticity (C2PA) usa certificados digitales X.509 y hash criptográfico para firmar manifiestos de procedenciaRegistros de metadatos firmados criptográficamente que rastrean las herramientas de creación, autoría e historial de edición del contenido digital.. Estos manifiestos registran herramientas de creación, autores declarados e historiales de edición. La arquitectura tiene tres componentes: aserciones sobre procedencia, firmas criptográficas que vinculan esas aserciones a identidades, y hashes de contenido que conectan manifiestos con archivos específicos[s].
SynthID de Google funciona diferente según el tipo de contenido. Para texto, ajusta las distribuciones de probabilidad de tokens durante la generación, creando patrones estadísticos invisibles para lectores pero detectables algorítmicamente. Para imágenes y video, incorpora marcas de agua invisibles diseñadas para sobrevivir recorte, filtrado y compresión con pérdidaMétodo de reducción de datos que descarta permanentemente cierta información, aceptado porque el resultado es suficientemente cercano al original para el uso previsto.. Para audio, incorpora firmas inaudibles que persisten a través de la adición de ruido y conversión de formato[s].
Detección Deepfake via Marcas de Agua: La Superficie de AtaqueEl conjunto de puntos en un sistema donde un atacante puede intentar entrar, extraer datos o causar daño.
UnMarker, publicado en las actas del 46° Simposio IEEE sobre Seguridad y Privacidad, demuestra un ataque universal en marcas de agua defensivas. La herramienta no requiere conocimiento del algoritmo de marca de agua, no requiere acceso a parámetros internos, y no requiere interacción con detectores[s].
El ataque explota una restricción inherente a todos los esquemas de marcas de agua. Para preservar la calidad de imagen, las marcas de agua deben ser invisibles para humanos. Para resistir manipulación, deben ser robustas contra transformaciones comunes. Estos requisitos fuerzan a las marcas de agua a operar en el dominio espectral, manipulando sutilmente cómo varían las intensidades de píxeles a través de la imagen[s]. UnMarker identifica estas anomalías espectrales estadísticamente, luego aplica distorsión de frecuencia dirigida que destruye la marca de agua mientras permanece imperceptible a la visión humana.
En pruebas empíricas, UnMarker alcanzó tasas de éxito superiores al 50% contra SynthID de Google y Stable Signature de Meta sin conocimiento previo de métodos de marcas de agua u orígenes de imagen[s].
Vulnerabilidades de MetadatosDatos sobre datos que describen las características de las comunicaciones, como quién llamó a quién, cuándo y por cuánto tiempo, sin el contenido real. C2PA
El estándar C2PA almacena manifiestos como metadatos adjuntos a archivos en formato JUMBF para JPEG, o cajas dedicadas para PNG y MP4. Este enfoque basado en metadatos tiene varios modos de falla:
- Eliminación por plataforma: Las imágenes comúnmente pierden metadatos C2PA cuando se comparten a través de plataformas sociales[s]
- Conversión de formato: Convertir de WebP a PNG, o cualquier transformación similar, rompe completamente la cadena de procedencia[s]
- Evasión por captura de pantalla: La captura de pantalla crea un nuevo archivo sin referencia al manifiesto original[s]
- Debilidad del modelo de confianza: La especificación permite certificados autofirmados y certificados de CAs no confiables, permitiendo a cualquiera firmar contenido con manifiestos que parecen técnicamente válidos[s]
La investigación en la Universidad de Maryland demostró que las marcas de agua pueden ser agregadas a imágenes generadas por humanos, activando falsos positivos que podrían ser utilizados como arma para desacreditar contenido auténtico[s].
Fragmentación del Ecosistema
SynthID solo detecta contenido generado por los servicios de IA de Google: Gemini para texto, Veo para video, Imagen para imágenes, Lyria para audio. El contenido de ChatGPT, modelos de código abierto como Stable Diffusion, o pipelines personalizados no produce señal SynthID[s]. Cada proveedor importante de IA ha desarrollado marcas de agua propietarias, creando un panorama fragmentado donde la verificación requiere múltiples herramientas que pueden producir resultados conflictivos.
Estudio de Caso: Fraude Deepfake Multi-Participantes
En febrero de 2024, un empleado de Arup en Hong Kong recibió lo que parecía ser una videoconferencia con el CFO y colegas de la empresa. Todos los participantes eran recreaciones deepfake generadas a partir de video y audio disponibles públicamente. El empleado autorizó 15 transferencias por un total de $25 millones antes de que se descubriera el fraude[s].
El CIO global de Arup señaló que “el número y sofisticación de estos ataques ha estado aumentando drásticamente en los últimos meses”[s]. La economía favorece a los atacantes: la clonación de voz cuesta $0.01-$0.20 por minuto, y tres segundos de audio grabado son suficientes para clonar una voz[s].
Detección Deepfake Basada en Contenido
Los métodos de detección que analizan el contenido mismo, en lugar de metadatos o marcas de agua, muestran ventajas estructurales. FakeCatcher de Intel usa fotopletismografíaUna técnica para medir el flujo sanguíneo detectando cambios sutiles de color en la piel causados por el bombeo de sangre del corazón. remota (PPG) para detectar señales de flujo sanguíneo en video facial. Las señales PPG aparecen en todas las regiones de piel, no solo características faciales específicas, y no pueden ser eliminadas cambiando la iluminación[s].
Críticamente, las operaciones generativas destruyen las correlaciones espaciales, espectrales y temporales que caracterizan las señales PPG genuinas. Cualquier manipulación sintética introduce patrones de ruido que interrumpen estas correlaciones. FakeCatcher alcanzó 91% de precisión en las pruebas, casi nueve puntos porcentualesUna unidad de medida para diferencias aritméticas entre porcentajes, distinta del cambio porcentual. por encima del siguiente mejor sistema[s].
El método tiene una propiedad de seguridad adicional: es no diferenciable, lo que significa que el entrenamiento adversarial no puede ser fácilmente aplicado. Los atacantes que usan optimización basada en gradientes para evadir la detección deepfake requieren una función de detección diferenciable. El pipeline de análisis PPG de FakeCatcher resiste este vector de ataque[s].
Carrera Armamentista de Detección
Las herramientas actuales de detección deepfake afirman tasas de precisión superiores al 90%, pero estos benchmarks enfrentan un objetivo en movimiento. Los modelos generativos de código abierto permiten a los atacantes iterar rápidamente, y la generación automatizada de contenido puede abrumar los pipelines de detección que requieren revisión humana para casos límite[s].
Se proyecta que el mercado de detección deepfake crezca 42% anualmente, de $5.5 mil millones en 2023 a $15.7 mil millones en 2026[s]. Este crecimiento refleja reconocimiento institucional de que las marcas de agua, aunque útiles para rastreo de procedencia en escenarios cooperativos, no pueden servir como defensa primaria contra deepfakes adversariales. La detección robusta requiere analizar señales biológicas y físicas que los modelos generativos actuales no pueden reproducir fielmente.



