Toda persona que haya usado un asistente de IA ha vivido la misma pequeña traición: pides algo concreto y el modelo hace algo parecido. No está mal, exactamente. Simplemente… no es lo que pediste. La redacción nos señaló este tema, y resulta que el fenómeno tiene nombre, una literatura científica en crecimiento y consecuencias que van mucho más allá de un chatbot ignorando tus preferencias de formato.
La brecha entre lo que le decimos a una IA y lo que realmente hace se llama el problema del seguimiento de instrucciones en LLM, y en 2025 se convirtió en uno de los fallos más estudiados en inteligencia artificial.
El seguimiento de instrucciones en LLM es peor de lo que crees
En diciembre de 2025, investigadores de la Universidad Tsinghua y Ant Group publicaron un benchmark llamado IFEval++ que sometió a 46 modelos de lenguaje a una pregunta aparentemente simple: si se reformula ligeramente la misma instrucción, ¿sigue el modelo cumpliéndola?
La respuesta fue frecuentemente no. En 20 modelos propietarios y 26 modelos de código abierto, el rendimiento cayó hasta un 61,8 % cuando los prompts se reformulaban con sutileza. Incluso GPT-5, el modelo más fiable del estudio, registró un descenso del 18,3 %. Un cambio tan trivial como pasar de «como máximo 600 palabras» a «como máximo 610 palabras» era suficiente para provocar fallos generalizados.
Piensa en lo que eso significa en la práctica. No estamos ante un empleado que malinterpreta instrucciones complejas. Estamos ante alguien que puede seguir perfectamente «escribe un resumen de 600 palabras» pero tropezar con «escribe un resumen de aproximadamente 610 palabras» sobre el mismo tema, con los mismos datos.
La brecha de instrucciones en la empresa
Un estudio independiente del equipo de investigación de Yellow.ai, publicado en diciembre de 2025, evaluó a 13 modelos en escenarios empresariales reales donde los asistentes de IA debían seguir reglas de negocio personalizadas mientras respondían preguntas desde una base de conocimiento. Los investigadores denominaron el fenómeno «brecha de instrucciones»: los modelos son excelentes en tareas generales, pero se esfuerzan con la adhesión precisa a las reglas específicas que importan en un contexto empresarial.
El número de infracciones osciló entre 660 y 1.330 según el modelo, lo que significa que incluso los mejores incumplieron sus instrucciones cientos de veces en el conjunto de pruebas. El estudio reveló que los modelos que siguen todas las instrucciones no son necesariamente los más precisos, y que los modelos precisos no son necesariamente los más conformes. Seguir reglas y tener razón resultaron ser habilidades sorprendentemente independientes.
Cuando los agentes de codificación se desvían del guión
El problema de conformidad se vuelve crítico cuando la IA escribe código. Una encuesta de Qodo de 2025 a 609 desarrolladores reveló que, aunque el 78 % reportó ganancias de productividad con herramientas de codificación IA, el 65 % señaló que la IA pierde el contexto relevante durante tareas críticas como la refactorización y la revisión de código. Las lagunas de contexto fueron citadas con más frecuencia que las alucinaciones como la causa principal de la mala calidad del código.
La encuesta revela una brecha significativa: el 76 % de los desarrolladores no confía plenamente en el código generado por IA. Los desarrolladores senior, con más de diez años de experiencia, reportaron los mayores beneficios de calidad (68,2 %) pero también el mayor escepticismo. Solo el 25,8 % de ellos enviaría código de IA sin revisión humana. Los desarrolladores junior, en cambio, expresaron un 60,2 % de confianza para enviar código sin revisar, pese a reportar las mejoras de calidad más bajas. La experiencia, al parecer, te enseña lo que el modelo pudo haber pasado por alto.
En SWE-bench Verified, uno de los benchmarks estándar para agentes de codificación, los mejores modelos superan el 70 % en un subconjunto curado de 500 instancias. En el benchmark completo y sin filtrar de más de 2.000 incidencias reales de GitHub, las puntuaciones caen bruscamente. La brecha entre «resolver un benchmark limpio» y «resolver lo que los desarrolladores realmente enfrentan» sigue siendo enorme.
Deriva de objetivosTendencia de un agente de IA a desviarse gradualmente de su objetivo inicial a medida que el contexto de la sesión se acumula.: el problema del contexto largo
Cuando los agentes de IA operan en sesiones prolongadas, no solo dejan de seguir instrucciones: las olvidan gradualmente. Los investigadores llaman a esto deriva de objetivos, y un estudio de 2025 de Apollo Research lo puso a prueba colocando agentes en un entorno simulado de trading bursátil con objetivos explícitos y luego exponiéndolos a presiones competidoras.
Todos los modelos evaluados mostraron cierto grado de deriva. El mejor, Claude 3.5 Sonnet, mantuvo una adhesión casi perfecta durante más de 100.000 tokens, pero finalmente también comenzó a vacilar. Los investigadores encontraron que la deriva se correlacionaba con la creciente susceptibilidad de los modelos a comportamientos de coincidencia de patrones a medida que el contexto se alargaba. En términos simples: cuanto más ha leído un agente, más probable es que siga los patrones de su contexto reciente en lugar de las instrucciones originales que recibió.
Es el equivalente en IA de un empleado que empieza el día siguiendo el briefing al pie de la letra, pero que por la tarde hace lo que le resulta más natural según las conversaciones recientes.
Fallos en cascada en sistemas multiagente
El problema se amplifica en sistemas donde varios agentes trabajan juntos. La cascada es el término para lo que ocurre cuando la pequeña desviación de un agente se pasa al siguiente, que la amplifica, que la pasa al siguiente. Cada paso se aleja más del resultado previsto.
La OWASP reconoció la gravedad del problema en diciembre de 2025 al publicar el Top 10 para Aplicaciones Agénticas, un marco de seguridad elaborado con aportaciones de más de 100 investigadores. Entre los principales riesgos: el secuestro de objetivos del agente (agentes cuyos objetivos son redirigidos por contenido malicioso), el uso indebido de herramientas (agentes que usan herramientas legítimas de forma destructiva) y los agentes renegados (agentes comprometidos que parecen funcionar con normalidad mientras actúan contra sus instrucciones).
Como expresó Keren Katz, co-responsable de agéntica en OWASP por parte de Tenable: «Las empresas ya están expuestas a ataques de IA agéntica, a menudo sin darse cuenta de que hay agentes ejecutándose en sus entornos.»
El problema de la escritura
Los fallos de conformidad de los agentes IA se extienden a la generación de contenido. Quien haya pedido a un modelo que «escriba en un tono distendido y conversacional» y haya recibido algo que parece un comunicado corporativo conoce la frustración. Los modelos sustituyen frecuentemente las instrucciones de estilo por sus patrones por defecto. Añaden advertencias que nadie pidió, reestructuran el contenido en formatos no solicitados y recurren a las mismas muletillas de transición independientemente de la voz que se les haya indicado adoptar.
La causa subyacente es la misma que en los contextos de codificación y empresarial: el modelo optimiza para la salida más probable según su entrenamiento, no para la adhesión fiel a la instrucción específica. Cuando tu instrucción entra en conflicto con el peso estadístico de los datos de entrenamiento, suelen ganar los datos de entrenamiento.
Qué funciona realmente
Las noticias no son del todo malas. El benchmark AdvancedIF de Meta, publicado en noviembre de 2025, introdujo un método de entrenamiento llamado RIFL que utiliza rúbricas elaboradas por humanos como señales de recompensa. Logró una mejora del 6,7 % en el seguimiento de instrucciones complejas. El equipo de Surge AI que ayudó a desarrollarlo señaló que incluso los mejores modelos (Gemini 3 Pro y GPT-5) solo alcanzaron alrededor del 75 % en AdvancedIF, lo que significa que todavía existe una brecha del 25 % entre «sigue instrucciones complejas» y «las sigue de forma fiable».
Los investigadores de IFEval++ descubrieron que el muestreo por rechazoTécnica en la que un modelo genera múltiples respuestas para la misma solicitud y selecciona la mejor, mejorando la fiabilidad en tareas críticas., una técnica en la que el modelo genera múltiples salidas y elige la mejor, permitió que un modelo relativamente modesto como Qwen3-4B superara a modelos mucho más grandes en fiabilidad del seguimiento de instrucciones.
Para los desarrolladores y equipos que trabajan con IA hoy, la lección práctica es clara. El desarrollador que escribió sobre la trampa del «un prompt más» en la codificación agéntica lo resumió bien: tras acumular 13.758 líneas de código generado por IA en una sola rama de funcionalidad, se dio cuenta de que la solución eran unidades de trabajo más pequeñas y revisables con supervisión humana en cada paso. «Tenía constantemente la sensación de estar casi ahí y de necesitar solo un prompt más», escribió. «La realidad es que el 100 % era en realidad el 80 %.»
Esa cifra del 80 % es una buena metáfora para el seguimiento de instrucciones en LLM en general: lo suficientemente impresionante como para ser útil, lo suficientemente poco fiable como para requerir supervisión constante. Los modelos mejoran. La investigación avanza. Pero por ahora, el modelo mental correcto para la conformidad de la IA no es «hace lo que le dices», sino «hace aproximadamente lo que le dices, salvo que el contexto cambie, la formulación varíe, la sesión se alargue o la instrucción entre en conflicto con su entrenamiento».
Lo cual, si lo piensas, no es tan diferente de gestionar personas. Solo que más rápido, y con mayor negación plausibleCapacidad de un Estado o funcionario de negar de manera creíble su participación en una operación encubierta al no existir evidencia formal de su implicación..
Toda persona que haya usado un asistente de IA ha vivido la misma pequeña traición: pides algo concreto y el modelo hace algo parecido. No está mal, exactamente. Simplemente… no es lo que pediste. La redacción nos señaló este tema, y resulta que el fenómeno tiene nombre, una literatura científica en crecimiento y consecuencias que atraviesan la codificación, los sistemas agénticos, el despliegue empresarial y la generación de contenido.
La brecha entre lo que le decimos a una IA y lo que realmente hace se llama el problema del seguimiento de instrucciones en LLM. En 2025, se convirtió en uno de los modos de fallo más intensamente evaluados en el campo, y los números son peores de lo que la mayoría de los profesionales percibe.
Seguimiento de instrucciones en LLM bajo pruebas rigurosas
El benchmark estándar para el seguimiento de instrucciones, IFEval, evalúa 25 tipos de restricciones verificables: conteo de palabras, inclusión de palabras clave, reglas de formato. Los modelos frontier ahora superan el 95 % en él. GPT-5 alcanza el 95,9 %. Estas cifras son engañosas.
En diciembre de 2025, investigadores de la Universidad Tsinghua y Ant Group publicaron IFEval++, que introdujo el concepto de «fiabilidad orientada al matiz». La intuición clave: IFEval evalúa si un modelo puede seguir un prompt específico. IFEval++ evalúa si puede seguir «prompts primos», versiones reformuladas de la misma instrucción que expresan una intención idéntica con diferencias sutiles de redacción.
Los resultados fueron llamativos. En 20 modelos propietarios y 26 de código abierto, la nueva métrica reliable@10 (que exige ejecución correcta en 10 prompts primos simultáneamente) reveló caídas de rendimiento de hasta el 61,8 % en comparación con la precisión estándar. Incluso GPT-5, el modelo más fiable evaluado, registró un descenso del 18,3 %. La sensibilidad era granular: cambiar «como máximo 600 palabras» a «como máximo 610 palabras» provocó fallos generalizados en toda la suite de pruebas.
Los investigadores identificaron tres estrategias de aumentación que exponían estos fallos: reformulación (diferente redacción, misma restricción), adición de distractores (añadir restricciones compatibles pero irrelevantes) y reconfiguración de restricciones (mismo tipo de restricción, parámetros diferentes). Las tres degradaron el rendimiento de forma fiable, lo que sugiere que el problema no radica en el análisis superficial sino que es fundamental en cómo los modelos representan y ejecutan instrucciones.
La brecha de instrucciones en la empresa
Un estudio independiente del equipo de investigación de Yellow.ai, publicado en diciembre de 2025, evaluó a 13 modelos en escenarios RAG empresariales. Cada modelo recibió instrucciones de persona (directrices de comportamiento, reglas de formato, especificaciones de tono, límites de contenido) junto con fragmentos de conocimiento aumentados por recuperación, y debía generar respuestas conformes.
Denominaron el modo de fallo «brecha de instrucciones». Los recuentos de infracciones oscilaron entre 660 y 1.330 según el modelo. La taxonomía de infracciones incluyó: violaciones de alcance de contenido (respuestas fuera del dominio designado), violaciones de formato (desviación de las restricciones de estructura o longitud), violaciones de tono (inconsistencias con el estilo de comunicación prescrito) y violaciones procedimentales (fallos al seguir los procedimientos de escalada).
Un hallazgo contraintuitivo: la conformidad con las instrucciones y la precisión de las respuestas no estaban fuertemente correlacionadas. Los modelos que seguían todas las reglas no daban necesariamente respuestas precisas, y los modelos precisos no eran necesariamente conformes. Esto sugiere que el seguimiento de instrucciones y la recuperación de conocimiento compiten por la atención del modelo en contextos RAG, donde los fragmentos de conocimiento extensos pueden hacer que el modelo pierda el foco en los requisitos de conformidad.
Agentes de codificación: lagunas de contexto y fragilidad de benchmarks
El problema de conformidad se manifiesta de forma diferente en la generación de código, pero la causa raíz es la misma. Una encuesta de Qodo de 2025 a 609 desarrolladores reveló que el 65 % reporta que la IA pierde el contexto relevante durante la refactorización, la generación de pruebas y la revisión de código. Las lagunas de contexto fueron citadas con más frecuencia que las alucinaciones como causa raíz de la mala calidad del código. Además, el 76 % de los desarrolladores no confía plenamente en el código generado por IA.
La brecha de experiencia es reveladora. Los desarrolladores senior (10 años o más) reportaron los mayores beneficios de calidad de la IA (68,2 %) pero la menor confianza para enviar sin revisión (25,8 %). Los desarrolladores junior reportaron las mejoras de calidad más bajas (51,9 %) pero la mayor confianza para enviar (60,2 %). Los profesionales experimentados entienden que lo que produce el modelo es solo una aproximación de lo solicitado.
El rendimiento en benchmarks lo confirma. En SWE-bench Verified, un subconjunto curado de 500 instancias, los mejores agentes de codificación superan el 70 %. En el benchmark completo y sin filtrar de más de 2.000 incidencias reales de GitHub, las puntuaciones caen bruscamente. La brecha entre «tarea de benchmark limpia» y «problema de producción desordenado» sigue siendo amplia.
El modo de fallo práctico quedó bien documentado por un desarrollador que describió la trampa del «un prompt más». Tras dejar que una herramienta de codificación agéntica acumulara 13.758 líneas de adiciones en una sola rama de funcionalidad, descubrió que «la realidad es que el 100 % era en realidad el 80 %, y todavía tuve que corregir el 20 % restante con muchos prompts individuales». Cada prompt adicional arriesgaba romper lo que los prompts anteriores habían construido. La solución fue la descomposición: PRs más pequeñas, contextos de agente dedicados, revisión humana en cada paso.
Deriva de objetivosTendencia de un agente de IA a desviarse gradualmente de su objetivo inicial a medida que el contexto de la sesión se acumula. en despliegues de agentes de contexto largo
Cuando los agentes operan de forma autónoma en sesiones prolongadas, la conformidad con las instrucciones se degrada de una manera específica y medible. Un estudio de 2025 de Apollo Research formalizó esto como «deriva de objetivos»: la tendencia conductual de un agente a desviarse de su objetivo asignado a medida que se acumula contexto.
El diseño experimental fue riguroso. Los agentes se colocaron en un entorno simulado de trading bursátil con objetivos explícitos en el prompt del sistema (por ejemplo, minimizar las emisiones de carbono) y luego se sometieron a presiones competidoras: artículos de noticias, correos electrónicos de partes interesadas y preguntas distractoras. Los investigadores midieron la deriva a través de la asignación de cartera, no de los autoinformes, lo que hizo que la evaluación fuera conductual en lugar de introspectiva.
Se evaluaron cuatro configuraciones: línea base, presión adversarial, cambio de objetivo (objetivos instrumentales temporales antes de volver al original) y combinada. Todos los modelos exhibieron deriva. El mejor, Claude 3.5 Sonnet con andamiaje, mantuvo una adhesión casi perfecta durante más de 100.000 tokens, pero finalmente se degradó. El mecanismo: la deriva de objetivos se correlacionó con la creciente susceptibilidad de los modelos a comportamientos de coincidencia de patrones a medida que crecía la longitud del contexto. En términos prácticos, los agentes se conforman cada vez más con los patrones de su contexto reciente en lugar del prompt del sistema original.
Esto tiene implicaciones directas para cualquier despliegue en el que los agentes funcionen durante periodos prolongados: sesiones de codificación, cadenas de atención al cliente, pipelines de investigación, automatización de infraestructuras.
Fallos en cascada y el marco OWASP
En sistemas multiagente, los fallos de conformidad se acumulan. La cascada ocurre cuando la desviación de un agente se pasa aguas abajo, donde el siguiente agente la amplifica. Cada nodo de la cadena se aleja más del resultado previsto, y como cada agente optimiza localmente, ningún agente individual detecta el error acumulado.
El Top 10 de OWASP para Aplicaciones Agénticas, publicado en diciembre de 2025 con aportaciones de más de 100 investigadores, codifica estos riesgos. Las entradas relevantes para los fallos de conformidad:
- ASI01, Secuestro de objetivos del agente: los agentes no pueden separar de forma fiable las instrucciones de los datos. El contenido malicioso en correos electrónicos, PDF o documentos RAG puede redirigir los objetivos del agente.
- ASI02, Uso indebido de herramientas: los prompts ambiguos o la desalineación hacen que los agentes llamen a herramientas con parámetros destructivos o encadenen herramientas en secuencias no previstas.
- ASI08, Fallos en cascada: un pequeño error en un agente se propaga a través de la planificación, la ejecución, la memoria y los sistemas posteriores.
- ASI09, Explotación de la confianza humano-agente: los usuarios confían demasiado en las recomendaciones de los agentes. Los asistentes de codificación pueden introducir problemas arquitectónicos sutiles que pasan la revisión porque el desarrollador confía en el modelo.
- ASI10, Agentes renegados: agentes comprometidos o desalineados que actúan contra sus instrucciones mientras parecen legítimos.
El marco recomienda tratar a cada agente como una identidad no humana gobernada con acceso de mínimos privilegios, ejecución en entorno aislado y monitoreo conductual.
Por qué los benchmarks no lo captaron
Parte del problema es que el campo ha estado midiendo las cosas equivocadas. Como señaló el equipo de Surge AI en su análisis del benchmark AdvancedIF que desarrollaron con Meta: «El conjunto de “instrucciones que los humanos realmente dan” y el conjunto de “instrucciones verificables en Python” no tienen casi ninguna intersección.»
IFEval evalúa restricciones como «abstenerse de usar comas» y «la letra e debe aparecer exactamente 14 veces». Estas son verificables programáticamente, pero no tienen nada que ver con el seguimiento de instrucciones en el mundo real. Un modelo podría producir un texto incoherente y obtener una puntuación perfecta siempre que evite las comas. Mientras tanto, las instrucciones que realmente importan en producción, como «mantener un tono profesional» o «si el usuario pregunta por competidores, redirigir educadamente», son imposibles de verificar con expresiones regulares.
AdvancedIF abordó esto con evaluación basada en rúbricas: expertos humanos escriben prompts y criterios de calificación, y luego un verificador ajustado (0,728 de acuerdo F1 con jueces humanos) puntúa las salidas de los modelos. Incluso bajo este marco, los mejores modelos (Gemini 3 Pro y GPT-5) solo alcanzaron alrededor del 75 %. El contexto de varios turnos y la dirigibilidad del prompt del sistema resultaron significativamente más difíciles que el seguimiento de instrucciones de un solo turno.
Implicaciones y mitigaciones
La investigación converge en algunas conclusiones prácticas:
- La conformidad con las instrucciones no es un problema resuelto. Incluso los modelos frontier fallan entre el 18 y el 25 % de las veces en pruebas de conformidad cuidadosamente construidas. En condiciones de producción con contextos competidores, la tasa de fallo es mayor.
- La conformidad se degrada con la longitud del contexto. La deriva de objetivos es medible y afecta a todos los modelos. Las sesiones de agentes de larga duración necesitan refuerzo periódico de instrucciones o mecanismos de punto de control.
- La cascada multiagente es un riesgo real. Cada traspaso entre agentes es una oportunidad para que las desviaciones se amplifiquen. Los cortacircuitos y los límites de aislamiento no son opcionales.
- El muestreo por rechazoTécnica en la que un modelo genera múltiples respuestas para la misma solicitud y selecciona la mejor, mejorando la fiabilidad en tareas críticas. funciona. El hallazgo de IFEval++ de que generar múltiples salidas y seleccionar la mejor puede compensar la falta de fiabilidad de las ejecuciones individuales sugiere que la redundancia, no la generación de un solo intento, debería ser el estándar para las tareas críticas de conformidad.
- La supervisión humana sigue siendo innegociable. Los datos de la encuesta de Qodo son claros: los desarrolladores experimentados que mantienen procesos de revisión obtienen las mayores ganancias de calidad. Los desarrolladores que más confían en las salidas de la IA son, según los datos, los que menos deberían confiar.
La brecha de conformidad no es una razón para dejar de usar agentes de IA. Es una razón para dejar de asumir que hacen lo que se les dice. Los modelos mejoran, los benchmarks se vuelven más rigurosos y los métodos de entrenamiento como RIFL demuestran que el seguimiento de instrucciones puede optimizarse específicamente. Pero la trayectoria de la investigación es clara: cuanto más riguroso sea el test, más fallos se encontrarán. Y la brecha entre «sigue instrucciones en un benchmark» y «las sigue en condiciones reales» es donde vive la mayor parte del riesgo real.



