IA de código abierto vs cerrada: 30 tests devastadores

Reading mode

El inquilino de arriba lleva una semana haciéndoles preguntas cada vez más inapropiadas a chatbots, tomando notas como un científico que cataloga especímenes de mariposas. Los resultados revelan una división fascinante entre la IA de código abierto y sus equivalentes corporativos.

Todos los grandes modelos de IA incorporan barreras de protección: reglas sobre lo que discutirán y lo que no. Pero esas barreras varían enormemente según quién haya construido el modelo y, lo que es más importante, según si los pesos han sido publicados o no. La brecha entre lo que una API propietaria le dirá y lo que un modelo de código abierto modificado por la comunidad le contará es enorme, va en aumento y merece comprenderse por sí misma.

Esto no es un ranking del modelo «mejor». Es un mapa de lo que cada uno dirá realmente cuando se le hagan preguntas difíciles, acompañado de una explicación técnica de cómo la comunidad convierte un modelo cauteloso en uno sin restricciones.

IA de código abierto vs. IA propietaria: dos bandos

Por un lado: los modelos cerrados. Son sistemas de IA a los que se accede a través de una API o un sitio web. La empresa controla los pesos (los parámetros internos que hacen funcionar el modelo) y el usuario solo interactúa a través de su interfaz. Este bando incluye la serie GPT de OpenAI, Claude de Anthropic y Gemini de Google. La empresa puede actualizar el modelo, cambiar su comportamiento y supervisar cómo se usa.

Por el otro: los modelos de pesos abiertos. Son modelos en los que el desarrollador publica los archivos reales que hacen funcionar el sistema. Se pueden descargar, ejecutar en hardware propio y modificar como se desee. Este bando incluye Llama de Meta, los modelos de Mistral y la serie Gemma de Google. Una vez que los pesos están publicados, el desarrollador no tiene ningún control práctico sobre lo que ocurre a continuación.

Nótese la terminología cuidadosa: «pesos abiertos» en lugar de «código abierto». La mayoría de estos modelos vienen con licencias que restringen ciertos usos. La licencia de Llama 3 de Meta, por ejemplo, prohíbe su uso para el desarrollo de armas, malware y actividades que presenten «un riesgo de muerte o daño físico».^[s] Pero una vez descargados los pesos, el cumplimiento de estas normas depende esencialmente del sistema del honor.

Lo que cada modelo rechaza

Un estudio del Stanford CRFM que examinó las políticas de uso aceptable de 30 desarrolladores de modelos fundacionales^[s] encontró un acuerdo casi universal en algunas categorías (contenido ilegal, malware, explotación infantil) y divergencias significativas en otras. Así es el panorama práctico en cinco categorías que realmente interesan a los usuarios:

Consejo médico. Todos los modelos cerrados hablan de salud pero envuelven todo en advertencias. GPT, Claude y Gemini explican interacciones entre fármacos, describen síntomas y comentan opciones de tratamiento, pero recuerdan que no son médicos. Los modelos de pesos abiertos (Llama, Mistral, Gemma) se comportan igual por defecto. Las versiones «sin censura» modificadas por la comunidad dan la misma información sin las advertencias.

Armas y explosivos. Aquí la brecha se amplía. Los modelos cerrados se niegan a proporcionar instrucciones de síntesis de explosivos o guías detalladas de modificación de armas. Los modelos de pesos abiertos en su configuración por defecto hacen lo mismo. Las variantes comunitarias sin censura tratan estos temas con más libertad, aunque la información que proporcionan no suele ser más detallada que lo disponible en libros de química o manuales militares que llevan décadas siendo de dominio público.

Historia controvertida. Los modelos cerrados abordan los temas históricos sensibles (colonialismo, atrocidades bélicas, genocidios) con cautela y desde múltiples perspectivas. Claude y GPT tienden a añadir un contexto extenso. Gemini ha sido históricamente el más cauto, llegando a veces a negarse a discutir ciertas figuras históricas sensibles. Los modelos de pesos abiertos, especialmente las variantes sin censura, tratan estos temas sin el encuadre editorial.

Contenido para adultos. La distinción más clara. Todos los grandes modelos cerrados se niegan a generar contenido sexualmente explícito. Los modelos de pesos abiertos sin censura no tienen esa restricción. Este es, con mucha diferencia, el motivo más común por el que la gente busca modelos sin censura.

Opiniones políticas. Los modelos cerrados están entrenados para presentar perspectivas equilibradas y evitar tomar partido. El estudio de Stanford reveló que OpenAI, Anthropic, Cohere y Midjourney prohíben explícitamente el uso para campañas políticas o lobbying, mientras que Google y Meta no imponen ninguna restricción de este tipo. Los modelos de código abierto sin censura expresarán las opiniones presentes en sus datos de entrenamiento sin el encuadre de «ambos lados».

Cómo funciona realmente la «descensura»

Cuando una empresa como Meta lanza Llama, el modelo ya ha pasado por un proceso llamado RLHF (Reinforcement Learning from Human Feedback, aprendizaje por refuerzo a partir de retroalimentación humana). El modelo base aprendió de toda la internet y sabe de todo, incluyendo cosas sobre las que probablemente no debería hablar sin más. El RLHF es el proceso que le enseña cuándo decir «prefiero no responder a eso».

La clave: el RLHF no elimina conocimiento. Añade una capa de comportamiento por encima. El modelo todavía «sabe» la información; simplemente ha sido entrenado para negarse a hablar de ella. Por eso la descensura es posible.

La comunidad usa dos enfoques principales:

Fine-tuning sobre conjuntos de datos filtrados. Este es el método que Eric Hartford popularizó con su serie de modelos Dolphin^[s]. Hartford toma conjuntos de datos de instrucciones (los datos usados para enseñar a los modelos a seguir instrucciones) y filtra cada instancia en la que el modelo rechaza, evita o moraliza. Luego hace fine-tuning del modelo con este conjunto de datos depurado. El resultado es un modelo que responde a las instrucciones sin los patrones de rechazo. El argumento de Hartford: «No existe un «alineamiento único y correcto» y no hay razón para que sea el de OpenAI el que se imponga.»

Abliteración. Este es el enfoque más quirúrgico. Los investigadores descubrieron que el comportamiento de rechazo en los modelos de lenguaje está codificado como una dirección específica en las activaciones internas del modelo, un único vector matemático que, cuando se activa, produce una respuesta de rechazo. La abliteración identifica esta «dirección de rechazo» y la elimina de los pesos del modelo^[s] mediante un proceso llamado ortogonalización. La matemática es sorprendentemente elegante: se modifica la matriz de pesos W para obtener W’ = W – r(r^TW), donde r es el vector de dirección de rechazo. Esto impide que el modelo produzca activaciones a lo largo del eje de rechazo mientras deja intactas todas las demás capacidades.

El resultado práctico: en cuestión de días tras la publicación de un nuevo modelo Llama por Meta, aparecen versiones abliteradas en Hugging Face. El proceso es ya tan rutinario que la comunidad lo da por descontado.

¿Es peligrosa la IA de código abierto?

Aquí es donde el debate se vuelve genuinamente interesante, porque la evidencia no respalda claramente ninguno de los dos lados.

Los argumentos a favor de la preocupación. El Índice de Seguridad en IA 2025 del Future of Life Institute^[s] evaluó a las grandes empresas de IA en sus prácticas de seguridad. Meta obtuvo una D (1,06 sobre 4), muy por debajo del C+ de Anthropic (2,64) y del C de OpenAI (2,10). El índice señaló específicamente que la publicación de pesos en formato abierto dificulta hacer cumplir las medidas de seguridad tras la distribución. La preocupación es real: una vez que los pesos son públicos, el desarrollador no dispone de ningún mecanismo técnico para impedir modificaciones.

Los argumentos contra el pánico. El informe de la NTIA de 2024 sobre modelos de pesos abiertos^[s] concluyó que «ningún modelo actual, propietario o ampliamente disponible, ofrece una ventaja adicional en estas tareas respecto a los recursos de información de código abierto» al examinar los riesgos QBRN (químicos, biológicos, radiológicos, nucleares). En términos sencillos: los modelos de IA actuales no enseñan nada sobre la fabricación de armas que no se pudiera encontrar ya en una biblioteca universitaria o mediante una búsqueda determinada. La NTIA recomendó supervisión en lugar de restricción de la distribución de modelos de pesos abiertos.

El grupo de investigación AI Frontiers^[s] hizo un punto complementario: restringir los modelos abiertos corre el riesgo de crear un «feudalismo digital» en el que la tecnología de IA crítica quede controlada por un puñado de corporaciones, mientras que existen «pocas pruebas de que los modelos abiertos estén impulsando un aumento material del riesgo catastrófico respecto a la situación actual».

La valoración honesta: el argumento del riesgo informacional (que la IA hace más accesible el conocimiento peligroso) es más débil precisamente donde suena más alarmante. Los libros de química, los manuales militares, las referencias médicas: esta información ya es de libre acceso. Un modelo de IA que aborda estos temas no crea conocimiento nuevo; hace que el conocimiento existente sea ligeramente más conversacional. Los riesgos genuinos residen en futuros modelos que puedan sintetizar información de formas novedosas o que posean capacidades que superen lo actualmente disponible a través de la investigación tradicional, pero todavía no estamos ahí.

Lo que esto significa para usted

Si usa modelos cerrados (ChatGPT, Claude, Gemini), obtiene una experiencia curada. El modelo tiene sus propias opiniones sobre lo que discute y lo que no, y esas opiniones las establece la empresa. Eso no es inherentemente malo: la mayoría de los usuarios se beneficia de modelos que no hablan sin más sobre cómo sintetizar productos químicos peligrosos. Pero también significa que la empresa toma decisiones editoriales sobre qué conocimiento puede usted consultar a través de su producto. (Para una perspectiva relacionada sobre cómo la IA está transformando la calidad del software, véase nuestro artículo sobre el slopware de IA.)

Si usa modelos de pesos abiertos, tiene la opción de ejecutarlos tal como se publicaron (con las barreras de seguridad intactas) o de usar versiones modificadas por la comunidad. La existencia de modelos sin censura no va a desaparecer; las técnicas son bien conocidas, la demanda es real y las restricciones de licencia son inaplicables una vez descargados los pesos^[s].

La pregunta más productiva no es si los modelos sin censura deberían existir. Es cómo construir sistemas que sean genuinamente útiles sin ser imprudentes, y cómo distinguir entre proteger a los usuarios de un daño y proteger a las empresas de una responsabilidad legal. Son objetivos distintos, y producen barreras de protección distintas.

La arquitectura del rechazo en la IA de código abierto

La restricción de contenido en los grandes modelos de lenguaje opera en múltiples niveles, y entender en qué capa de la pila se sitúa cada restricción explica por qué algunas son fáciles de eliminar y otras no.

Las restricciones del prompt de sistema son la capa más externa. Son instrucciones en lenguaje natural que se anteponen a cada conversación. GPT-4, Claude y Gemini utilizan todos prompts de sistema que especifican categorías de rechazo. Estas se eluden trivialmente en los modelos de pesos abiertos simplemente eliminándolas, y en los modelos cerrados mediante diversas técnicas de «jailbreak» que, a pesar de los parches constantes, siguen encontrando nuevas superficies de ataque.

El alineamiento RLHF/RLAIF es la capa de entrenamiento conductual. Tras el preentrenamiento sobre corpus de texto y el fine-tuning de instrucciones, los modelos pasan por aprendizaje por refuerzo a partir de retroalimentación humana (o de IA). Este proceso moldea la distribución de respuestas del modelo: ante un prompt sobre síntesis de armas, el modelo aprende a asignar alta probabilidad a los tokens de rechazo y baja a los de cumplimiento. Crucialmente, el RLHF no modifica lo que el modelo «sabe» en sus capas feed-forward; modifica la política que regula qué conocimiento aflora. El modelo base Llama 3.1 405B, antes del RLHF, discutirá temas que la versión ajustada para chat rechaza.

Los clasificadores de seguridad son filtros de post-generación que evalúan las salidas antes de entregarlas. OpenAI ejecuta un clasificador independiente sobre las salidas de GPT; Anthropic usa métodos de IA constitucional que integran el razonamiento de seguridad en el propio proceso de generación. Estos clasificadores añaden latencia y pueden evitarse en despliegues de pesos abiertos simplemente no ejecutándolos.

Comparación de políticas entre proveedores

El Centro de Investigación sobre Modelos Fundacionales de Stanford (CRFM) analizó las políticas de uso aceptable de 30 desarrolladores^[s], revelando divergencias reveladoras incluso entre empresas que aparentan coincidir en los principios:

Desarrollo de armas: Allen AI, Anthropic, Meta, Mistral, OpenAI y Stability AI prohíben explícitamente el uso relacionado con armas. La política de Google para Gemini aborda el «daño» de forma amplia sin nombrar específicamente las armas. La licencia más permisiva de Gemma refleja la doble estrategia de Google: controles estrictos en el producto cerrado, restricciones más ligeras en el abierto.

Contenido político: OpenAI, Anthropic, Cohere y Midjourney prohíben explícitamente las campañas políticas y el lobbying. Google, Meta y Eleven Labs no imponen ninguna restricción de este tipo. Esta divergencia se corresponde exactamente con los modelos de negocio: las empresas que venden a grandes corporaciones (donde el sesgo político es una responsabilidad) lo restringen; las que cortejean ecosistemas de desarrolladores (donde la flexibilidad es un argumento de venta) no lo hacen.

Contenido sexual: Prohibición universal entre los proveedores cerrados. Entre los proveedores de pesos abiertos, Meta y Mistral restringen estrictamente el contenido que involucra menores y violencia, pero no prohíben el contenido para adultos de forma general. Esto crea el margen legal para los fine-tunes comunitarios.

Asesoramiento médico/legal/financiero: Ocho de los 30 desarrolladores prohíben el uso para asesoramiento profesional. El resto guarda silencio, lo cual es jurídicamente interesante: el silencio en una política de uso no es permiso, pero tampoco es prohibición.

Un hallazgo notable: solo 3 de los 10 desarrolladores líderes revelan sus mecanismos de aplicación. Solo 2 explican las infracciones de política a los usuarios. La brecha de transparencia entre los desarrolladores de IA y las empresas de redes sociales (que publican informes de transparencia periódicos) sigue siendo amplia.

La mecánica de la descensura

Método 1: filtrado de datos + fine-tuning. El enfoque de Eric Hartford, documentado en su entrada técnica de blog^[s], funciona seleccionando el conjunto de datos de instrucciones. Los conjuntos de datos de instrucciones estándar se generan usando la API de ChatGPT, lo que significa que las preferencias de alineamiento de ChatGPT se propagan hacia abajo a todos los modelos entrenados con esos datos. El proceso de Hartford: tomar un conjunto de datos de instrucciones existente, identificar y eliminar programáticamente cada instancia en la que la respuesta contenga lenguaje de rechazo («No puedo», «No soy capaz», «Como IA»), y luego hacer fine-tuning del modelo base sobre este conjunto de datos filtrado. El modelo resultante conserva la capacidad de seguir instrucciones pero pierde la distribución de rechazo.

El coste computacional es modesto. El informe de la NTIA señaló^[s] que «eliminar mediante fine-tuning las características de seguridad de Llama 2-Chat 13B manteniendo el rendimiento del modelo cuesta menos de 200 dólares». El fine-tuning de un modelo de 7.000 millones de parámetros sobre un conjunto de datos filtrado puede realizarse en una sola GPU de consumo con 24 GB de VRAM en menos de un día usando QLoRA (Quantized Low-Rank Adaptation).

Método 2: abliteración (ingeniería de activaciones). Este es el más interesante desde el punto de vista mecanístico. La técnica explota el hecho de que el comportamiento de rechazo en los modelos transformer está codificado como una característica de bajo rango en el flujo residual, no distribuida por todo el modelo.

El proceso funciona en cinco pasos^[s]:

Recopilación de datos. Reunir prompts emparejados: un conjunto que desencadena el rechazo y otro que obtiene respuestas de cumplimiento. Registrar los vectores de activación en todas las capas del transformer para ambos conjuntos.
Cálculo del vector de diferencia. Calcular los vectores de activación medios para los estados de rechazo y cumplimiento en cada capa. Aplicar ACP para extraer la dirección dominante de variación: la «dirección de rechazo».
Identificación de capas. El rechazo se concentra en las capas medias a tardías del transformer (típicamente las capas 15-25 en un modelo de 32 capas). Esto permite una intervención dirigida en lugar de una modificación de todo el modelo.
Ortogonalización de pesos. Modificar la matriz de pesos W para obtener W’ = W – r(r^TW), donde r es el vector unitario de dirección de rechazo. Esta proyección ortogonal impide matemáticamente que el modelo produzca activaciones a lo largo del eje de rechazo.
Validación. Probar con prompts previamente rechazados y benchmarks estándar. Una abliteración bien ejecutada preserva las puntuaciones de capacidad general (MMLU, HumanEval) al tiempo que elimina el comportamiento de rechazo.

La elegancia de la abliteración radica en que demuestra que el rechazo es una característica geométricamente sencilla. El RLHF, a pesar de ser un proceso de entrenamiento costoso, produce un cambio conductual que puede describirse mediante una única dirección en un espacio de alta dimensión. Esto tiene implicaciones para la investigación en seguridad de la IA: si los comportamientos de seguridad tienen tan baja complejidad estructural, puede resultar fundamentalmente difícil hacerlos robustos frente a una eliminación deliberada en entornos de pesos abiertos.

El panorama de riesgos: qué dice la investigación

El Índice de Seguridad en IA del verano de 2025 del Future of Life Institute^[s] evaluó a siete grandes empresas de IA en 33 indicadores distribuidos en seis ámbitos. Los resultados ofrecen una imagen matizada:

Anthropic obtuvo la puntuación más alta con C+ (2,64/4), reconocida por sus prácticas sustanciales de evaluación del riesgo biológico
OpenAI recibió C (2,10/4), distinguida por su política publicada de protección de denunciantes
Google DeepMind obtuvo C- (1,76/4)
Meta recibió D (1,06/4)
Solo tres empresas (Anthropic, OpenAI, Google DeepMind) realizan pruebas sustanciales de capacidades peligrosas vinculadas a la bioseguridad y el ciberterrorismo

Pero el índice FLI mide principalmente las prácticas de seguridad corporativa, no el riesgo a nivel de modelo. La evaluación de las capacidades reales de los modelos por parte de la NTIA^[s] contó una historia diferente: «ningún modelo actual, propietario o ampliamente disponible, ofrece una ventaja adicional en estas tareas respecto a los recursos de información de código abierto» para las amenazas QBRN. El riesgo marginal de los pesos abiertos, comparado con la información ya disponible en línea, sigue siendo incierto.

El grupo AI Frontiers^[s] añadió un contexto importante: los modelos de pesos abiertos ya cuentan con decenas de miles de derivados en Hugging Face, lo que permite a expertos en medicina, derecho y educación construir aplicaciones especializadas que los modelos cerrados no pueden servir. Restringir los pesos abiertos para prevenir el mal uso impediría simultáneamente estas aplicaciones beneficiosas.

La evaluación técnica honesta: los modelos de la generación actual no incrementan de forma significativa los riesgos informativos por encima de los niveles de referencia existentes. La NTIA recomienda explícitamente la supervisión en lugar de la restricción. El cálculo del riesgo podría cambiar con modelos futuros más capaces, en particular aquellos entrenados con conjuntos de datos propietarios (investigación clasificada, secuencias biológicas inéditas) o con un razonamiento multietapa sustancialmente mejorado sobre procesos del mundo físico. Pero ese riesgo es especulativo y futuro, y las políticas construidas sobre especulaciones tienen un historial deficiente.

El problema de los incentivos estructurales

Hay una dimensión de este debate que rara vez se aborda en términos técnicos: los incentivos comerciales que moldean las decisiones de seguridad.

Los proveedores de modelos cerrados (OpenAI, Anthropic, Google) tienen un interés financiero en presentar los modelos de pesos abiertos como peligrosos. Cada usuario que ejecuta Llama localmente es un usuario que no paga por llamadas a la API. «Seguridad» y «ventaja competitiva» no son lo mismo, pero pueden parecer idénticas desde fuera. Cuando OpenAI hace lobbying por regulaciones que perjudicarían a los competidores de pesos abiertos, el argumento de la seguridad proporciona cobertura a lo que también es una estrategia comercial.

Los defensores de los pesos abiertos (Meta, Mistral, la comunidad de código abierto en general) tienen sus propios incentivos: dependencia del ecosistema a través de un mecanismo diferente. Meta regala Llama porque un ecosistema de aplicaciones basadas en Llama aumenta la relevancia de Meta en la pila de IA. Mistral distribuye modelos abiertamente para competir con rivales cerrados bien financiados. Ninguno lo hace por puro compromiso ideológico con la apertura.

Entender estos incentivos no resuelve la cuestión de la seguridad, pero debería hacernos escépticos ante cualquiera que afirme que la respuesta es obvia.

Divulgación

Si desea probar la IA sin barreras de protección, Uncensored AI ofrece conversaciones sin filtros. (Enlace de afiliado: Art of Truth recibe una comisión sin coste adicional para usted.)

IA de código abierto vs. IA corporativa: lo que cada modelo dice y lo que se niega a decir

IA de código abierto vs. IA propietaria: dos bandos

Lo que cada modelo rechaza

Cómo funciona realmente la «descensura»

¿Es peligrosa la IA de código abierto?

Lo que esto significa para usted

La arquitectura del rechazo en la IA de código abierto

Comparación de políticas entre proveedores

La mecánica de la descensura

El panorama de riesgos: qué dice la investigación

El problema de los incentivos estructurales

Divulgación

Fuentes

IA de código abierto vs. IA propietaria: dos bandos

Lo que cada modelo rechaza

Cómo funciona realmente la «descensura»

¿Es peligrosa la IA de código abierto?

Lo que esto significa para usted

La arquitectura del rechazo en la IA de código abierto

Comparación de políticas entre proveedores

La mecánica de la descensura

El panorama de riesgos: qué dice la investigación

El problema de los incentivos estructurales

Divulgación

Fuentes

Artículos relacionados

Alopecia masculina: por qué los hombres se quedan calvos y las mujeres (casi) no

Salmón de Piscifactoría contra Salmón Silvestre: Lo Que la Ciencia Dice y La Industria no

Teoría de la mente: cómo tu cerebro modela los pensamientos de los demás

El giro de los fondos soberanos: por qué las naciones ricas en recursos invierten en infraestructura de IA global