Modelos de IA sin censura: 3 fallas brutales en seguridad

Modo de lectura

El jefe nos señaló este tema, y es un buen planteamiento: la pregunta sobre qué pueden decir realmente los sistemas de IA y por qué.

Si ha interactuado con un chatbot de IA moderno, seguro se ha topado con un filtro de seguridad. Pregunte sobre interacciones medicamentosas, atrocidades históricas, vulnerabilidades de seguridad o incluso algo completamente mundano que suene riesgoso, y el modelo se negará a responder. A veces explica por qué. Más a menudo, ofrece un vago «No puedo ayudarte con eso». La pregunta que nadie se molesta en responder a los usuarios es: ¿qué ocurre realmente dentro del modelo y quién lo decidió?

Los modelos de IA sin censura son una respuesta directa a esta situación. Se trata de sistemas de IA, a menudo de código abierto, entrenados sin los agresivos filtros de contenido que caracterizan a los chatbots comerciales. Para entender por qué existen y para qué sirven, primero hay que comprender cómo se implementan estos filtros de seguridad.

Cómo aprenden los modelos de IA a negarse a responder

Los grandes modelos de lenguaje modernos no llegan ya entrenados sabiendo qué deben o no deben decir. El modelo base, entrenado con enormes cantidades de texto, dirá básicamente lo que complete el patrón. Las negativas llegan después, mediante un proceso llamado Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés)^[s].

La idea básica: evaluadores humanos comparan pares de respuestas de IA y eligen cuál prefieren. Un modelo separado, llamado modelo de recompensa, aprende a predecir esas preferencias. Luego, la IA se entrena mediante aprendizaje por refuerzo para obtener una alta puntuación en el modelo de recompensa. Repita este proceso suficientes veces, y la IA aprenderá a producir respuestas que los humanos califican como «útiles e inofensivas».

La implementación técnica^[s] añade un término de equilibrio para evitar que el modelo se aleje demasiado de su comportamiento original, una penalización basada en algo llamado divergencia KL. Sin esto, el modelo aprendería a generar texto que engañe al modelo de recompensa mientras se vuelve incoherente para los humanos.

El resultado: un modelo que suena útil, evita daños obvios y rechaza una amplia gama de solicitudes que ha sido entrenado para clasificar como riesgosas. En principio, esto es exactamente lo que se busca.

Las 3 fallas críticas en el entrenamiento de seguridad de la IA

En la práctica, surgen tres problemas de manera consistente.

Falla 1: Negativas excesivas. Un estudio académico de 2023^[s] encontró que el ajuste fino de seguridad tiene rendimientos decrecientes: agregar solo un 3% de ejemplos de seguridad al entrenamiento de un modelo mejora sustancialmente su comportamiento, pero más allá de ese umbral, «demasiado entrenamiento de seguridad hace que los modelos rechacen solicitudes perfectamente seguras si se parecen superficialmente a otras inseguras». El modelo está haciendo coincidir patrones superficiales, no entendiendo la intención. Pregunte cómo funciona un mecanismo de cerradura para un blog de seguridad, y el modelo verá «mecanismo de cerradura» y activará la misma negativa que usaría para un ladrón real.

Falla 2: La carrera armamentista. Todo sistema de filtros enfrenta a un público adversario. Investigadores analizaron 1,405 prompts de jailbreak del mundo real^[s] recopilados entre diciembre de 2022 y diciembre de 2023 y descubrieron que 5 prompts específicos lograron una tasa de éxito del 95% para eludir los filtros de seguridad en GPT-3.5 y GPT-4. El más antiguo de estos prompts había persistido en línea durante más de 240 días. Los filtros de seguridad no detienen a usuarios decididos; solo añaden fricción para todos los demás.

Falla 3: ¿Quién decide? El sistema de IA Constitucional de Anthropic^[s] entrena modelos contra una lista escrita de principios, donde el modelo critica y revisa sus propias respuestas según esos principios y luego se entrena con las revisiones. Esto es más limpio que el RLHF puro en algunos aspectos, pero aún concentra un enorme poder en quien escribe la constitución. Los valores del modelo son, en gran medida, los valores de la empresa que lo construyó, codificados en datos de entrenamiento que ningún usuario puede auditar.

Modelos de IA sin censura: qué son y quién los usa

Los modelos de IA sin censura eliminan o reducen significativamente esta capa de filtrado. Los ejemplos más destacados son de código abierto: Llama 2 de Meta^[s] ofrece pesos públicos con seguridad configurable, y Mistral AI declaró explícitamente^[s] que su modelo Mistral 7B Instruct «no tiene ningún mecanismo de moderación».

¿Quién usa realmente los modelos de IA sin censura? Los casos de uso son más mundanos de lo que sugiere el discurso: investigadores de seguridad que necesitan discutir vulnerabilidades sin negativas constantes, escritores que trabajan en ficción que involucra crimen o violencia, historiadores que estudian retórica extremista, profesionales médicos que requieren información clínica franca y desarrolladores que prueban el comportamiento de los modelos sin el ruido de los filtros. Los investigadores citados señalan que las compensaciones de seguridad son reales, pero también lo son los costos de la sobrerestricción.

La conclusión honesta: los modelos de IA sin censura no son inherentemente más peligrosos que una biblioteca. Son herramientas, y las herramientas pueden ser mal utilizadas. Pero la conversación que nunca ocurre es sobre lo que perdemos cuando cada herramienta se distribuye con un filtro de contenido permanente establecido por un comité en el que usted no votó.

Nuestro editor señaló este tema, y encaja perfectamente en lo que cubre esta columna: las decisiones de ingeniería que determinan lo que los sistemas de IA realmente hacen.

Los modelos de IA sin censura se han convertido en una categoría significativa en la implementación de IA precisamente porque el proceso de entrenamiento de seguridad utilizado por los modelos de lenguaje grandes comerciales tiene modos de falla bien documentados. Entender esos modos requiere comprender toda la pila de entrenamiento, desde el preentrenamiento base hasta el RLHF y las variantes de IA Constitucional.

El proceso RLHF y cómo surgen los filtros de contenido

El trabajo fundamental de RLHF^[s] de Christiano y otros demostró que las comparaciones de preferencias humanas sobre segmentos de trayectorias pueden entrenar comportamientos complejos sin acceso a una función de recompensa explícita. Aplicado a los modelos de lenguaje, esto se convirtió en el proceso estándar de alineación: recopilar pares de preferencias humanas sobre las respuestas del modelo, entrenar un modelo de recompensa con esos pares y luego ajustar el modelo de lenguaje grande mediante PPO para maximizar las puntuaciones del modelo de recompensa.

El detalle de implementación que importa^[s] para el filtrado de contenido: la función de pérdida del ajuste fino incluye una penalización por divergencia KL entre la distribución de la política y el modelo inicial congelado. Esto evita el «hackeo de recompensas», donde el modelo aprende a generar texto que obtiene una alta puntuación en el modelo de recompensa mientras se aleja del lenguaje coherente. La penalización es una necesidad práctica, pero también significa que el modelo entrenado para seguridad está limitado a permanecer cerca de su distribución preentrenada, lo que influye en cómo se generalizan las negativas.

El artículo de RLHF de Anthropic^[s] describe un enfoque de entrenamiento en línea iterativo donde los modelos de preferencia y las políticas de RL se actualizan semanalmente con nueva retroalimentación humana, e identifica «una relación aproximadamente lineal entre la recompensa de RL y la raíz cuadrada de la divergencia KL entre la política y su inicialización». Esta relación es significativa: presionar más en las recompensas de seguridad incurre en una penalización polinómica en la deriva distribucional.

IA Constitucional y RLAIF

La IA Constitucional^[s] (CAI, por sus siglas en inglés) reemplaza las etiquetas de inocuidad humana con etiquetas generadas por IA. El proceso: muestrear del modelo inicial, generar autocríticas y revisiones contra una constitución escrita de principios, ajustar el modelo con las salidas revisadas (fase supervisada) y luego entrenar un modelo de preferencia con comparaciones generadas por IA para la fase de RL. Esto es «RL a partir de retroalimentación de IA» (RLAIF). Como lo describe Anthropic, el método «hace posible controlar el comportamiento de la IA con mayor precisión y con muchas menos etiquetas humanas».

El enfoque constitucional tiene una ventaja de ingeniería sobre el RLHF puro para el control de contenido: los principios son explícitos y auditables, a diferencia de las preferencias implícitas codificadas por los evaluadores humanos. También tiene un riesgo estructural: quien escribe la constitución determina por completo lo que el modelo trata como dañino. El propio marco de Anthropic^[s] reconoce que el entrenamiento puramente para evitar daños es insuficiente, y que entrenar solo para «inocuidad» produce modos de falla diferentes que entrenar para un carácter matizado. Esta tensión interna explica parte de la precaución excesiva observada empíricamente.

La literatura sobre negativas excesivas y el umbral del 3%

Bianchi y otros (2023)^[s] ofrecen la imagen empírica más clara de los modos de falla en el entrenamiento de seguridad. Su hallazgo: «agregar solo un 3% de ejemplos de seguridad al ajustar un modelo como LLaMA puede mejorar sustancialmente su seguridad», pero más allá de este umbral, la calidad se degrada en comportamientos de seguridad exagerados, donde los modelos rechazan «solicitudes perfectamente seguras si se parecen superficialmente a otras inseguras». El modelo de recompensa está generalizando patrones superficiales, no la intención semántica, una característica estándar de la optimización basada en gradientes con datos etiquetados finitos.

El contraparte adversarial: Shen y otros (2023)^[s] analizaron 1,405 prompts de jailbreak y encontraron 5 prompts que lograron tasas de éxito de ataque del 0.95 en GPT-3.5 y GPT-4. Las estrategias de ataque, principalmente inyección de prompts y escalada de privilegios, explotan el proceso de generación autorregresiva en lugar del modelo de recompensa directamente. Notablemente, los jailbreaks más efectivos persistieron durante más de 240 días, y 28 cuentas de usuario habían estado optimizando prompts de manera continua durante más de 100 días. Los filtros de seguridad son efectivos contra el mal uso casual e ineficaces contra adversarios motivados, exactamente la distribución de amenazas que se predeciría a partir de investigaciones de red teaming^[s] que muestran que los modelos RLHF se vuelven más difíciles de atacar a escala, pero no imposibles.

Modelos de IA sin censura en la práctica

La respuesta del código abierto a este panorama son los modelos de IA sin censura con seguridad configurable. Llama 2 de Meta^[s] proporciona pesos base y variantes de seguridad ajustadas, permitiendo a los usuarios finales elegir su nivel de filtrado. Mistral 7B^[s] se distribuye sin mecanismo de moderación por diseño, posicionándose explícitamente como una base para implementaciones personalizadas en lugar de un producto de consumo. En entornos técnicos, los modelos de IA sin censura son fundamentales para evitar restricciones innecesarias y permitir un análisis más flexible y profundo.

El caso de uso práctico para los modelos de IA sin censura en contextos técnicos es significativo: investigación en seguridad, red teaming, sistemas de información médica, análisis legal, escritura creativa y cualquier dominio donde el modo de falla de negativas excesivas sea más costoso que el modo de falla de mal uso. La literatura de investigación sobre entrenamiento de seguridad hace explícita la compensación. Lo que no hace es responder la pregunta de valor sobre dónde debería situarse ese equilibrio, y si los usuarios deberían tener voz en ello.

El equilibrio actual, modelos comerciales con filtros fijos más un ecosistema paralelo de modelos de IA sin censura para todo lo demás, probablemente no sea el estado final. Pero sí refleja honestamente el estado actual de la investigación en alineación: capaz de entrenar asistentes útiles e inofensivos, menos capaz de entrenar asistentes que sean útiles porque entienden el daño en lugar de hacer coincidir patrones.

Vale la pena explorar

Si desea experimentar directamente con modelos de IA sin censura, Uncensored.com ofrece acceso a IA sin los filtros comerciales estándar. Útil si está haciendo investigación, escritura creativa o simplemente quiere ver lo que el modelo realmente piensa sin los filtros de por medio.

Divulgación: Art of Truth recibe una comisión por compras calificadas sin costo adicional para usted. Esto no influye en nuestro contenido editorial.

Modelos de IA sin censura: 3 fallas críticas en el entrenamiento de seguridad de la IA

Cómo aprenden los modelos de IA a negarse a responder

Las 3 fallas críticas en el entrenamiento de seguridad de la IA

Modelos de IA sin censura: qué son y quién los usa

El proceso RLHF y cómo surgen los filtros de contenido

IA Constitucional y RLAIF

La literatura sobre negativas excesivas y el umbral del 3%

Modelos de IA sin censura en la práctica

Vale la pena explorar

Fuentes

Cómo aprenden los modelos de IA a negarse a responder

Las 3 fallas críticas en el entrenamiento de seguridad de la IA

Modelos de IA sin censura: qué son y quién los usa

El proceso RLHF y cómo surgen los filtros de contenido

IA Constitucional y RLAIF

La literatura sobre negativas excesivas y el umbral del 3%

Modelos de IA sin censura en la práctica

Vale la pena explorar

Fuentes

Artículos relacionados

El mito de la serotonina: cómo se vendió la teoría del desequilibrio químico de la depresión sin pruebas

El efecto Ozempic en el cerebro: por qué la semaglutida reduce la depresión y la ansiedad

CRISPR sin el hype: lo que la edición genética puede y no puede hacer realmente en 2026

Cómo funciona la memoria humana y por qué los testimonios de testigos oculares son poco fiables