Opinion.
Hay dos preguntas que una empresa puede hacerse al decidir qué debe negarse a hacer su IA. La primera: ¿reduce esta restricción el daño? La segunda: ¿nos protege esta restricción si alguien resulta perjudicado? Estas preguntas suenan similares. Producen productos muy diferentes, y la diferencia entre ellas es la base del teatro de seguridad de la IA.
La brecha entre la ingeniería de seguridad genuina y la gestión de responsabilidad corporativa se ha convertido en la tensión definitoria del desarrollo de la IA. Lo que se comercializa como « seguridad de la IA » es cada vez más teatro de seguridad de la IA: un conjunto de restricciones diseñadas no para proteger a los usuarios, sino para proteger los balances financieros. La distinción importa porque quienes pagan el precio de esta confusión son los cientos de millones de usuarios que interactúan con estos sistemas a diario, y que cada vez los encuentran menos útiles de lo que deberían ser.
El disfraz de responsabilidad
Cuando un modelo de IA se niega a hablar sobre la historia de la Segunda Guerra Mundial, eso no es una decisión de seguridad. Nadie resulta perjudicado porque un chatbot explique el Frente Oriental. Cuando un modelo se niega a resumir la farmacología de medicamentos comunes, eso no protege a nadie de la desinformación médica; la misma información está en la primera página de cualquier motor de búsqueda. Cuando Gemini de Google se negó a generar imágenes de personas blancas a principios de 2024, produciendo representaciones históricamente inexactas de soldados alemanes de la era nazi como personas negras, eso no fue una iniciativa de diversidad. Fue un cálculo de responsabilidad que erró tan estrepitosamente que se convirtió en autoparodia. El CEO de Google, Sundar Pichai, calificó los resultados de « completamente inaceptables » en un memorando interno, un reconocimiento tácito de que las barreras de protección habían sido optimizadas para una función objetivoEn aprendizaje automático, la fórmula matemática que un modelo está entrenado para optimizar. Lo que la función objetivo recompensa determina el comportamiento del modelo — optimizar el objetivo equivocado produce sistemas que técnicamente funcionan pero que en la práctica fallan. completamente equivocada.
Son decisiones de responsabilidad disfrazadas de seguridad. El razonamiento es directo: ninguna empresa ha enfrentado jamás una demanda porque su IA se negó a responder una pregunta. Muchas empresas han enfrentado crisis de relaciones públicas porque su IA respondió una. La estructura de incentivos se escribe sola.
El teatro de seguridad de la IA y la asimetría de visibilidad
El problema central del teatro de seguridad de la IA es una asimetría de evidencias. Cuando un sistema de IA produce una salida dañina, esa salida es concreta. Puede capturarse en pantalla, compartirse en redes sociales, enviarse a periodistas, citarse en audiencias del Congreso. Tiene peso. Tiene URL. Una sola mala respuesta de un chatbot puede convertirse en noticia de portada en cuestión de horas.
El coste de la sobrerrestricción es, por el contrario, invisible. Un investigador médico que obtiene una no-respuesta inútil sobre interacciones farmacológicas no escribe un artículo sobre ello. Cierra la pestaña. Un estudiante que no puede obtener ayuda para entender un período histórico sensible no presenta una queja. Encuentra una fuente peor. Un profesional de ciberseguridad señalado por una herramienta de detección de IA por escribir con demasiada claridad no tiene recurso ni audiencia. El daño es real pero difuso, repartido entre millones de interacciones que individualmente parecen triviales y que colectivamente representan una enorme pérdida de utilidad.
Ningún jefe de producto ha sido despedido jamás por una IA demasiado cautelosa. Muchos han sido despedidos por una IA demasiado permisiva. Esta asimetría no produce buen juicio. Produce un trinquete que solo gira en una dirección.
Las personas que realmente harían un mal uso
La justificación estándar para las restricciones agresivas de contenido es que previenen el mal uso. Este argumento tiene un defecto estructural que debería ser obvio pero rara vez se reconoce: las personas más motivadas para abusar de los sistemas de IA son, por definición, las más motivadas para evadir las restricciones.
El 0,1 % de usuarios que genuinamente buscaría información dañina en un modelo de IA no se disuade con un mensaje de rechazo. Usan jailbreaks. Usan modelos de código abierto sin barreras de protección. Usan las docenas de variantes de modelos « sin censura » disponibles en Hugging Face. Encuentran la información por otros canales, porque la información en sí no es difícil de encontrar. Como han documentado investigadores de seguridad, los filtros de contenido generales suelen suprimir el trabajo legítimo de ciberseguridad sin hacer nada para prevenir a los actores de amenazas reales, que simplemente sortean las restricciones como rutina.
Lo que las restricciones realmente logran es degradar la experiencia del 99,9 % de usuarios con necesidades legítimas. El profesor que pide ayuda para explicar una atrocidad histórica compleja recibe el mismo rechazo que el hipotético actor malicioso. El novelista que intenta escribir un villano realista es tratado como amenaza potencial. El investigador de seguridad que prueba defensas queda excluido de las mismas herramientas que necesita para proteger sistemas. Las restricciones son a la vez inútiles contra sus objetivos declarados y dañinas para todos los demás, una combinación que debería ser descalificante pero que en su lugar recibe la etiqueta de « IA responsable ».
Seguridad genuina vs. seguridad de responsabilidad
Para ser claros: el verdadero trabajo de seguridad de la IA existe y es importante. Evitar que los modelos ayuden a sintetizar nuevas armas biológicas es una preocupación de seguridad real. Garantizar que los sistemas autónomos mantengan la supervisión humana en decisiones de alto riesgo es una preocupación de seguridad real. La negativa de Anthropic a permitir que su modelo Claude se use para la vigilancia masiva doméstica o sistemas de armas totalmente autónomos, lo que llevó a la administración Trump a prohibir a la empresa los contratos federales en febrero de 2026, representa una posición de seguridad genuina con costes genuinos. Esté o no de acuerdo con esa línea específica, está claramente trazada en un punto donde el daño real a personas reales es plausible.
El problema es que la misma palabra, « seguridad », cubre tanto este tipo de posición principista como la decisión de impedir que un chatbot explique cómo funcionan las cerraduras. Cuando todo es seguridad, nada lo es. La etiqueta pierde su capacidad de distinguir entre restricciones que protegen a las personas y restricciones que protegen los resultados trimestrales. Esta confusión socava activamente la confianza pública en la seguridad de la IA como preocupación legítima, porque los usuarios experimentan las restricciones triviales constantemente y las significativas nunca. Su experiencia vivida de la « seguridad de la IA » consiste en que les digan que no pueden obtener una receta de un cóctel comúnmente disponible, y razonablemente concluyen que toda la empresa es una representación.
El bucle de retroalimentación regulatoria
El panorama regulatorio emergente amenaza con afianzar esta dinámica. Como ha documentado la investigación de RAND Corporation sobre responsabilidad de la IA, los marcos de responsabilidad pueden crear incentivos genuinos para la reducción del daño cuando están bien diseñados, obligando a las empresas a internalizar costes que de otro modo impondrían a terceros. Pero también pueden producir lo que los investigadores de políticas públicas llaman « liability-washing » (lavado de responsabilidad): adoptar medidas de seguridad principalmente para establecer una defensa legal en lugar de prevenir daños.
La Ley de IA de la UE (EU AI Act), que entró en su fase de aplicación en 2025, y la Ley RAISE de Nueva York (New York RAISE Act), firmada a finales de 2025, imponen requisitos de cumplimiento que podrían empujar a las empresas hacia prácticas de seguridad sustantivas o hacia rituales de documentación elaborados, dependiendo de cómo se desarrolle la aplicación. El riesgo, identificado por el análisis del Cato Institute sobre regulación de la IA y libertad de expresión, es que mandatos vagos de « seguridad » den a las empresas cobertura legal para restringir las salidas mucho más allá de lo que cualquier cálculo razonable de daños justificaría, porque el exceso de cumplimiento no tiene penalización mientras que el cumplimiento insuficiente sí.
El resultado es un bucle de retroalimentación. Las empresas sobrerrestringen para minimizar la responsabilidad. Los reguladores ven las salidas restringidas como la línea base y las codifican. La línea base se desplaza. Las empresas restringen más para mantenerse por delante de la nueva línea base. En ningún punto de este ciclo alguien pregunta si los usuarios están realmente más seguros, porque la seguridad del usuario nunca fue la variable que se estaba optimizando.
Cómo sería la seguridad genuina
Un marco de seguridad orientado hacia la reducción real del daño sería diferente de lo que la mayoría de empresas de IA entregan actualmente. Partiría de un principio simple: las restricciones deberían ser proporcionales a la probabilidad y severidad del daño real, no a la probabilidad y severidad del daño en relaciones públicas.
Esto significa aceptar que un chatbot que discute la química de limpiadores domésticos comunes no es un vector significativo de daño, porque esa información está libremente disponible en todas partes. Significa distinguir entre información que es peligrosa porque es rara (nuevas rutas de síntesis para sustancias controladas) e información que es peligrosa solo en la imaginación de un departamento de cumplimiento (el artículo de Wikipedia sobre explosivos). Significa reconocer que la negativa de un sistema de IA a abordar un tema no hace inaccesible ese tema; hace menos útil al sistema de IA.
También significa medir los costes de la restricción, no solo los costes de la permisión. Cada consulta rechazada tiene un coste. Cada respuesta truncada tiene un coste. Cada usuario que aprende que no se puede confiar en la IA para abordar honestamente un tema complejo y deja de usarla para trabajo serio: eso es un coste. Estos costes son difíciles de cuantificar con precisión, que es exactamente la razón por la que se ignoran en un sistema que solo cuenta los fallos visibles.
El problema de incentivos tiene nombre
En la investigación de seguridad, existe un concepto llamado « teatro de seguridad » (security theater): medidas que proporcionan la sensación de seguridad sin reducir significativamente el riesgo. La confiscación de botellas de agua por parte de la TSA es el ejemplo canónico. El teatro de seguridad de la IA opera con el mismo principio. El modelo se niega a discutir algo benigno; la empresa señala el rechazo como evidencia de responsabilidad; el usuario no está más seguro; la empresa está mejor posicionada legalmente.
El término importa porque nombra un problema de incentivos estructural en lugar de atribuir malicia. La mayoría de los ingenieros que trabajan en seguridad de la IA son sinceros. La mayoría de los jefes de producto que implementan restricciones genuinamente creen estar haciendo lo correcto. El problema no es la mala fe; es un sistema que recompensa la cautela indiscriminadamente y castiga el riesgo asimétricamente. Personas buenas, actuando racionalmente dentro de estructuras de incentivos deficientes, producen malos resultados. Esta no es una observación novedosa sobre las instituciones, pero es una que la industria de la IA ha sido notablemente lenta en internalizar.
Hasta que la estructura de incentivos cambie, hasta que la sobrerrestricción conlleve costes reputacionales y regulatorios comparables a la subrestricción, el teatro de seguridad de la IA seguirá siendo lo predeterminado. La pregunta es si la industria puede reformarse antes de que el concepto de seguridad de la IA erosione la confianza pública en el trabajo de seguridad real que genuinamente importa. Dados los riesgos que los sistemas de IA avanzados plantearán en los próximos años, ese resultado sería peor que cualquier respuesta de chatbot capturada en pantalla.
Fuentes
- NPR: Google busca solución tras los fallos de Gemini (2024)
- CNN: la administración Trump ordena cesar negocios con Anthropic (2026)
- RAND Corporation: responsabilidad por daños de sistemas de IA (2024)
- Cato Institute: la regulación de la inteligencia artificial amenaza la libertad de expresión (2025)
- Kindo: cómo la censura de modelos de IA impacta la ciberseguridad (2025)
- Fisher Phillips: el gobernador de Nueva York firma una amplia ley de seguridad de IA (2025)



