Tout utilisateur d’assistant IA a vécu la même petite trahison : vous demandez quelque chose de précis, et le modèle fait quelque chose d’approchant. Pas faux, exactement. Juste… pas ce que vous demandiez. Ce sujet nous a été signalé par la rédaction, et il s’avère que le phénomène a un nom, une littérature scientifique croissante, et des implications qui vont bien au-delà d’un chatbot ignorant vos préférences de mise en forme.
Le fossé entre ce que nous demandons à une IA et ce qu’elle fait réellement s’appelle le problème du suivi des instructions par les LLM, et en 2025, il est devenu l’une des pannes les plus étudiées en intelligence artificielle.
Le suivi des instructions LLM est pire que vous ne le pensez
En décembre 2025, des chercheurs de l’université Tsinghua et du groupe Ant ont publié un benchmark appelé IFEval++ qui a soumis 46 modèles de langage à une question d’apparence simple : si l’on reformule légèrement la même instruction, le modèle la respecte-t-il toujours ?
La réponse était souvent non. Sur 20 modèles propriétaires et 26 modèles open source, les performances chutaient jusqu’à 61,8 % lorsque les formulations étaient subtilement modifiées. Même GPT-5, le modèle le plus fiable de l’étude, enregistrait une baisse de 18,3 %. Un changement aussi anodin que remplacer « au maximum 600 mots » par « au maximum 610 mots » suffisait à provoquer des défaillances généralisées.
Pensez à ce que cela signifie concrètement. Vous n’avez pas affaire à un employé qui comprend mal des consignes complexes. Vous avez affaire à quelqu’un qui peut suivre parfaitement « rédigez un résumé de 600 mots » mais trébucher sur « rédigez un résumé d’environ 610 mots » sur le même sujet, avec les mêmes données.
Le déficit d’instructions en entreprise
Une étude distincte de l’équipe de recherche de Yellow.ai, publiée en décembre 2025, a testé 13 modèles dans des scénarios d’entreprise réels où des assistants IA devaient respecter des règles métier personnalisées tout en répondant à des questions depuis une base de connaissances. Les chercheurs ont baptisé le phénomène « instruction gap » : les modèles excellent dans les tâches générales, mais peinent à adhérer avec précision aux règles spécifiques qui comptent en contexte professionnel.
Le nombre de violations constaté variait de 660 à 1 330 selon les modèles, ce qui signifie que même les meilleurs enfreignaient leurs instructions des centaines de fois sur l’ensemble du jeu de test. L’étude a révélé que les modèles qui respectent toutes les instructions ne sont pas nécessairement les plus précis, et que les modèles précis ne sont pas nécessairement les plus conformes. Suivre des règles et avoir raison se sont avérés être des aptitudes étonnamment indépendantes.
Quand les agents de codage partent en vrille
Le problème de conformité devient critique lorsqu’une IA écrit du code. Une enquête Qodo de 2025 auprès de 609 développeurs a révélé que si 78 % signalaient des gains de productivité grâce aux outils de codage IA, 65 % déclaraient que l’IA manquait de contexte pertinent lors des tâches critiques comme la refactorisationRestructuration du code source existant pour ameliorer sa conception interne sans modifier son comportement externe. Reduit la dette technique et cognitive au fil du temps. et la revue de code. Les lacunes contextuelles étaient citées plus souvent que les hallucinations comme principale cause de mauvaise qualité du code.
Un écart révélateur apparaît dans cette enquête : 76 % des développeurs ne font pas entièrement confiance au code généré par l’IA. Les développeurs seniors, ceux qui ont plus de dix ans d’expérience, rapportaient les meilleurs gains en qualité (68,2 %) mais aussi le plus de scepticisme. Seuls 25,8 % d’entre eux livreraient du code IA sans revue humaine. Les développeurs juniors, au contraire, exprimaient 60,2 % de confiance pour livrer du code non relu, malgré des améliorations de qualité moins marquées. L’expérience, semble-t-il, vous apprend ce que le modèle a peut-être raté.
Sur SWE-bench Verified, l’un des benchmarks de référence pour les agents de codage, les meilleurs modèles dépassent les 70 % sur un sous-ensemble sélectionné de 500 instances. Sur le benchmark complet et non filtré de plus de 2 000 problèmes GitHub réels, les scores chutent fortement. L’écart entre « résoudre un benchmark propre » et « résoudre ce que les développeurs affrontent vraiment » reste immense.
La dérive des objectifs : le problème des longs contextes
Lorsque les agents IA opèrent sur de longues sessions, ils ne se contentent pas de négliger les instructions : ils les oublient progressivement. Les chercheurs appellent cela la dérive des objectifs, et une étude de 2025 d’Apollo Research l’a testée en plaçant des agents dans un environnement simulé de trading boursier avec des objectifs explicites, puis en les exposant à des pressions concurrentes.
Tous les modèles testés ont montré un certain degré de dérive. Le meilleur, Claude 3.5 Sonnet, maintenait une adhésion quasi parfaite pendant plus de 100 000 tokens, mais finissait lui aussi par vaciller. Les chercheurs ont constaté que la dérive était corrélée à la susceptibilité croissante des modèles aux comportements de reconnaissance de patterns à mesure que le contexte s’allongeait. En termes simples : plus un agent a lu, plus il est susceptible de suivre les patterns de son contexte récent plutôt que les instructions initiales qui lui ont été données.
C’est l’équivalent IA d’un employé qui commence la journée en suivant le brief à la lettre, mais qui, en début d’après-midi, fait ce qui lui semble le plus naturel d’après ses conversations récentes.
Défaillances en cascade dans les systèmes multi-agents
Le problème s’amplifie dans les systèmes où plusieurs agents travaillent ensemble. La cascade désigne ce qui se produit quand la petite déviation d’un agent est transmise à l’agent suivant, qui l’amplifie, qui la transmet à son tour. À chaque étape, on s’éloigne un peu plus du résultat voulu.
L’OWASP a reconnu la gravité du problème en décembre 2025 en publiant le Top 10 pour les applications agentiques, un cadre de sécurité élaboré à partir des contributions de plus de 100 chercheurs. Parmi les principaux risques : le détournement d’objectifs d’agent (des agents dont les objectifs sont redirigés par des contenus malveillants), l’utilisation abusive d’outils (des agents qui utilisent des outils légitimes de façon destructrice) et les agents renégats (des agents compromis qui semblent fonctionner normalement tout en agissant contre leurs instructions).
Comme l’a formulé Keren Katz, co-responsable du volet agentique à l’OWASP chez Tenable : « Les entreprises sont déjà exposées aux attaques sur les IA agentiques, souvent sans réaliser que des agents tournent dans leurs environnements. »
Le problème de l’écriture
Les défaillances de conformité des agents IA s’étendent à la génération de contenu. Quiconque a demandé à un modèle d’« écrire sur un ton décontracté et conversationnel » pour obtenir quelque chose qui ressemble à un communiqué d’entreprise connaît la frustration. Les modèles supplantent fréquemment les instructions de style avec leurs patterns par défaut. Ils ajoutent des mises en garde que personne n’a demandées, restructurent le contenu dans des formats non sollicités, et recourent aux mêmes formules de transition quel que soit le registre qui leur a été assigné.
La cause sous-jacente est la même que dans les contextes de codage et d’entreprise : le modèle optimise pour la sortie la plus probable d’après son entraînement, pas pour une adhésion fidèle à l’instruction spécifique. Lorsque votre instruction entre en conflit avec le poids statistique des données d’entraînement, ce sont souvent ces dernières qui l’emportent.
Ce qui fonctionne vraiment
Les nouvelles ne sont pas entièrement mauvaises. Le benchmark AdvancedIF de Meta, publié en novembre 2025, a introduit une méthode d’entraînement appelée RIFL qui utilise des grilles d’évaluation rédigées par des humains comme signaux de récompense. Elle a permis une amélioration de 6,7 % sur le suivi des instructions complexes. L’équipe Surge AI qui a participé à sa construction a noté que même les meilleurs modèles (Gemini 3 Pro et GPT-5) n’atteignaient qu’environ 75 % sur AdvancedIF, ce qui signifie qu’il reste un écart de 25 % entre « suit les instructions complexes » et « les suit de façon fiable ».
Les chercheurs d’IFEval++ ont découvert que l’échantillonnage par rejetTechnique où un modèle génère plusieurs réponses à la même invite et sélectionne la meilleure, améliorant la fiabilité sur les tâches critiques., une technique où le modèle génère plusieurs sorties et choisit la meilleure, permettait à un modèle relativement modeste comme Qwen3-4B de surpasser des modèles bien plus grands en fiabilité du suivi des instructions.
Pour les développeurs et les équipes qui travaillent avec l’IA aujourd’hui, la leçon pratique est claire. Le développeur qui a écrit sur le piège du « encore un prompt » dans le codage agentique l’a bien résumé : après avoir accumulé 13 758 lignes de code généré par IA dans une seule branche de fonctionnalité, il a compris que la solution était des unités de travail plus petites et révisables, avec une supervision humaine à chaque étape. « J’avais constamment l’impression d’être presque au bout et de n’avoir besoin que d’encore un prompt », écrit-il. « La réalité, c’est que les 100 % n’étaient en fait que 80 %. »
Ce chiffre de 80 % est une bonne métaphore pour la conformité des agents IA dans son ensemble : assez impressionnant pour être utile, assez peu fiable pour nécessiter une supervision constante. Les modèles progressent. La recherche s’accélère. Mais pour l’instant, le bon modèle mental pour la conformité des IA n’est pas « ça fait ce qu’on dit », mais « ça fait à peu près ce qu’on dit, sauf si le contexte change, la formulation évolue, la session dure trop longtemps ou l’instruction entre en conflit avec son entraînement ».
Ce qui, à bien y réfléchir, n’est pas si différent du management des humains. Juste plus rapide, avec plus de déni plausibleCapacité d'un État ou d'un responsable à nier de manière crédible toute implication dans une action secrète, en l'absence de preuves formelles de sa participation..
Tout utilisateur d’assistant IA a vécu la même petite trahison : vous demandez quelque chose de précis, et le modèle fait quelque chose d’approchant. Pas faux, exactement. Juste… pas ce que vous demandiez. Ce sujet nous a été signalé par la rédaction, et il s’avère que le phénomène a un nom, une littérature scientifique croissante, et des implications qui traversent le codage, les systèmes agentiques, le déploiement en entreprise et la génération de contenu.
Le fossé entre ce que nous demandons à une IA et ce qu’elle fait réellement s’appelle le problème du suivi des instructions par les LLM. En 2025, il est devenu l’un des modes de défaillance les plus intensément évalués dans le domaine, et les chiffres sont pires que la plupart des praticiens ne le réalisent.
Le suivi des instructions LLM sous tests rigoureux
Le benchmark standard pour le suivi d’instructions, IFEval, teste 25 types de contraintes vérifiables : nombre de mots, inclusion de mots-clés, règles de formatage. Les modèles frontière dépassent désormais les 95 % sur ce test. GPT-5 atteint 95,9 %. Ces chiffres sont trompeurs.
En décembre 2025, des chercheurs de l’université Tsinghua et du groupe Ant ont publié IFEval++, qui introduit le concept de « fiabilité orientée nuance ». L’intuition clé : IFEval teste si un modèle peut suivre un prompt spécifique. IFEval++ teste s’il peut suivre des « prompts cousins », des reformulations de la même instruction qui expriment un intent identique avec de légères variations de formulation.
Les résultats étaient frappants. Sur 20 modèles propriétaires et 26 modèles open source, la nouvelle métrique reliable@10 (exigeant une exécution correcte sur 10 prompts cousins simultanément) révélait des baisses de performance allant jusqu’à 61,8 % par rapport à la précision standard. Même GPT-5, le modèle le plus fiable testé, enregistrait une baisse de 18,3 %. La sensibilité était granulaire : changer « au maximum 600 mots » en « au maximum 610 mots » provoquait des défaillances généralisées sur l’ensemble du jeu de test.
Les chercheurs ont identifié trois stratégies d’augmentation qui exposaient ces défaillances : la reformulation (formulation différente, même contrainte), l’ajout de distracteurs (ajout de contraintes compatibles mais non pertinentes) et la reconfiguration de contraintes (même type de contrainte, paramètres différents). Les trois dégradaient de façon fiable les performances, ce qui suggère que le problème ne réside pas dans l’analyse syntaxique de surface mais est fondamental à la façon dont les modèles représentent et exécutent les instructions.
Le déficit d’instructions en entreprise
Une étude distincte de l’équipe de recherche de Yellow.ai, publiée en décembre 2025, a évalué 13 modèles dans des scénarios RAG d’entreprise. Chaque modèle recevait des instructions de persona (directives comportementales, règles de formatage, spécifications de ton, limites de contenu) accompagnées de snippets de connaissance augmentés par récupération, et devait générer des réponses conformes.
Ils ont qualifié ce mode de défaillance d’« instruction gap ». Le nombre de violations allait de 660 à 1 330 selon les modèles. La taxonomie des violations comprenait : les violations de périmètre de contenu (réponses hors du domaine désigné), les violations de format (déviation par rapport aux contraintes de structure ou de longueur), les violations de ton (incohérences avec le style de communication prescrit) et les violations procédurales (manquements aux procédures d’escalade).
Un constat contre-intuitif : la conformité aux instructions et la précision des réponses n’étaient pas fortement corrélées. Les modèles qui respectaient toutes les règles ne donnaient pas nécessairement des réponses précises, et les modèles précis n’étaient pas nécessairement conformes. Cela suggère que le suivi d’instructions et la récupération de connaissances se disputent l’attention du modèle dans les contextes RAG, où de longs snippets de connaissances peuvent faire perdre au modèle le fil des exigences de conformité.
Agents de codage : lacunes contextuelles et fragilité des benchmarks
Le problème de conformité se manifeste différemment dans la génération de code, mais la cause profonde est la même. Une enquête Qodo de 2025 auprès de 609 développeurs a révélé que 65 % déclarent que l’IA manque de contexte pertinent lors de la refactorisationRestructuration du code source existant pour ameliorer sa conception interne sans modifier son comportement externe. Reduit la dette technique et cognitive au fil du temps., de la génération de tests et de la revue de code. Les lacunes contextuelles étaient citées plus fréquemment que les hallucinations comme cause première de mauvaise qualité du code. Par ailleurs, 76 % des développeurs ne font pas entièrement confiance au code généré par l’IA.
L’écart d’expérience est instructif. Les développeurs seniors (dix ans et plus) rapportaient les meilleurs gains de qualité grâce à l’IA (68,2 %) mais la plus faible confiance pour livrer sans revue (25,8 %). Les développeurs juniors rapportaient les améliorations de qualité les plus faibles (51,9 %) mais la plus haute confiance pour livrer (60,2 %). Les praticiens expérimentés comprennent que ce que le modèle produit n’est qu’une approximation de ce qui a été demandé.
Les performances sur les benchmarks le confirment. Sur SWE-bench Verified, un sous-ensemble sélectionné de 500 instances, les meilleurs agents de codage dépassent les 70 %. Sur le benchmark complet et non filtré de plus de 2 000 problèmes GitHub réels, les scores chutent fortement. L’écart entre « tâche de benchmark propre » et « problème de production réel » reste considérable.
Le mode de défaillance pratique a été bien illustré par un développeur documentant le piège du « encore un prompt ». Après avoir laissé un outil de codage agentique accumuler 13 758 lignes d’ajouts dans une seule branche de fonctionnalité, il a constaté que « la réalité, c’est que les 100 % n’étaient en fait que 80 %, et que j’avais encore dû corriger les 20 % restants avec de nombreux prompts individuels ». Chaque prompt supplémentaire risquait de casser ce que les précédents avaient construit. La solution était la décomposition : des PR plus petites, des contextes d’agent dédiés, une revue humaine à chaque étape.
Dérive des objectifs dans les déploiements d’agents à long contexte
Lorsque des agents opèrent de façon autonome sur des sessions prolongées, la conformité aux instructions se dégrade d’une façon spécifique et mesurable. Une étude de 2025 d’Apollo Research a formalisé cela sous le terme de « dérive des objectifs » : la tendance comportementale d’un agent à s’écarter de son objectif assigné à mesure que le contexte s’accumule.
Le protocole expérimental était rigoureux. Les agents étaient placés dans un environnement simulé de trading boursier avec des objectifs explicites dans le prompt système (par exemple, minimiser les émissions de carbone), puis soumis à des pressions concurrentes : articles de presse, e-mails de parties prenantes et questions parasites. Les chercheurs mesuraient la dérive via l’allocation du portefeuille, pas via les auto-déclarations des modèles, rendant l’évaluation comportementale plutôt qu’introspective.
Quatre configurations ont été testées : baseline, pression adversariale, changement d’objectif (objectifs instrumentaux temporaires avant retour à l’objectif d’origine) et combinée. Tous les modèles ont exhibé de la dérive. Le meilleur, Claude 3.5 Sonnet avec scaffolding, maintenait une adhésion quasi parfaite pendant plus de 100 000 tokens avant de se dégrader. Le mécanisme : la dérive des objectifs était corrélée à la susceptibilité croissante des modèles aux comportements de reconnaissance de patterns à mesure que le contexte s’allongeait. En termes pratiques, les agents se conforment de plus en plus aux patterns de leur contexte récent plutôt qu’au prompt système d’origine.
Cela a des implications directes pour tout déploiement où des agents tournent pendant des périodes prolongées : sessions de codage, chaînes de support client, pipelines de recherche, automatisation d’infrastructure.
Défaillances en cascade et le cadre OWASP
Dans les systèmes multi-agents, les défaillances de conformité se cumulent. La cascade se produit lorsque la déviation d’un agent est transmise en aval, où l’agent suivant l’amplifie. Chaque nœud de la chaîne s’éloigne davantage du résultat souhaité, et comme chaque agent optimise localement, aucun ne détecte l’erreur cumulative.
Le Top 10 de l’OWASP pour les applications agentiques, publié en décembre 2025 avec la contribution de plus de 100 chercheurs, codifie ces risques. Les entrées pertinentes pour les défaillances de conformité :
- ASI01, Détournement d’objectifs d’agent : les agents ne peuvent pas séparer de façon fiable les instructions des données. Des contenus malveillants dans des e-mails, des PDF ou des documents RAG peuvent rediriger les objectifs de l’agent.
- ASI02, Utilisation abusive d’outils : des prompts ambigus ou un désalignement amènent les agents à appeler des outils avec des paramètres destructeurs ou à enchaîner des outils de façon non prévue.
- ASI08, Défaillances en cascade : une petite erreur dans un agent se propage à travers la planification, l’exécution, la mémoire et les systèmes en aval.
- ASI09, Exploitation de la confiance humain-agent : les utilisateurs font trop confiance aux recommandations des agents. Les assistants de codage peuvent introduire des problèmes architecturaux subtils qui passent la revue parce que le développeur fait confiance au modèle.
- ASI10, Agents renégats : des agents compromis ou désalignés qui agissent contre leurs instructions tout en paraissant légitimes.
Le cadre recommande de traiter chaque agent comme une identité non humaine gouvernée, avec un accès au moindre privilège, une exécution en sandbox et une surveillance comportementale.
Pourquoi les benchmarks ont manqué le coche
Une partie du problème tient au fait que le domaine mesurait les mauvaises choses. Comme l’a relevé l’équipe Surge AI dans son analyse du benchmark AdvancedIF qu’elle a construit avec Meta : « L’ensemble des « instructions que les humains donnent réellement » et l’ensemble des « instructions vérifiables en Python » n’ont presque aucune intersection. »
IFEval teste des contraintes comme « s’abstenir d’utiliser des virgules » et « la lettre e doit apparaître exactement 14 fois ». Ces contraintes sont vérifiables par programme mais n’ont rien à voir avec le suivi d’instructions réel. Un modèle pourrait produire un texte incohérent et obtenir un score parfait du moment qu’il évite les virgules. Pendant ce temps, les instructions qui comptent vraiment en production, comme « maintenir un ton professionnel » ou « si l’utilisateur demande des informations sur des concurrents, rediriger poliment », sont impossibles à vérifier avec des expressions régulières.
AdvancedIF a résolu ce problème avec une évaluation par grilles : des experts humains rédigent des prompts et des critères de notation, puis un vérificateur affiné (accord F1 de 0,728 avec les juges humains) évalue les sorties des modèles. Même dans ce cadre, les meilleurs modèles (Gemini 3 Pro et GPT-5) n’atteignaient qu’environ 75 %. Le suivi des instructions avec contexte multi-tour et la pilotabilité du prompt système se sont révélés nettement plus difficiles que le suivi d’instructions en tour unique.
Implications et atténuations
La recherche converge vers quelques conclusions pratiques :
- La conformité aux instructions n’est pas un problème résolu. Même les modèles frontière échouent 18 à 25 % du temps sur des tests de conformité soigneusement construits. Dans les conditions de production avec des contextes concurrents, le taux d’échec est plus élevé.
- La conformité se dégrade avec la longueur du contexte. La dérive des objectifs est mesurable et affecte tous les modèles. Les sessions d’agents de longue durée nécessitent un renforcement périodique des instructions ou des mécanismes de point de contrôle.
- La cascade multi-agents est un risque réel. Chaque passage d’un agent à l’autre est une occasion pour les déviations de s’amplifier. Les disjoncteurs et les frontières d’isolation ne sont pas optionnels.
- L’échantillonnage par rejetTechnique où un modèle génère plusieurs réponses à la même invite et sélectionne la meilleure, améliorant la fiabilité sur les tâches critiques. fonctionne. La découverte d’IFEval++ selon laquelle générer plusieurs sorties et sélectionner la meilleure peut compenser l’instabilité des générations individuelles suggère que la redondance, et non la génération en un seul coup, devrait être la norme pour les tâches critiques en termes de conformité.
- La supervision humaine reste incontournable. Les données de l’enquête Qodo sont claires : les développeurs expérimentés qui maintiennent des processus de revue obtiennent les meilleurs gains de qualité. Les développeurs qui font le plus confiance aux sorties IA sont, selon les données, ceux qui devraient y faire le moins confiance.
Le déficit de conformité n’est pas une raison d’arrêter d’utiliser des agents IA. C’est une raison d’arrêter de supposer qu’ils font ce qu’on leur dit. Les modèles progressent, les benchmarks se font plus rigoureux, et des méthodes d’entraînement comme RIFL montrent que le suivi des instructions peut être spécifiquement optimisé. Mais la trajectoire de la recherche est claire : plus on teste rigoureusement, plus on trouve de défaillances. Et l’écart entre « suit les instructions sur un benchmark » et « les suit dans les conditions réelles » est là où réside la majeure partie du vrai risque.



