Modèles IA non censurés : 3 défauts brutaux de l'entraînement sécurité

Mode de lecture

Le patron nous a orientés vers ce sujet, et c’est une excellente piste : la question de ce que les systèmes d’IA sont réellement autorisés à dire, et pourquoi.

Si vous avez passé un peu de temps avec un chatbot moderne, vous avez déjà heurté un garde-fou. Interrogez-le sur les interactions médicamenteuses, les atrocités historiques, les vulnérabilités de sécurité, ou même quelque chose de parfaitement anodin qui sonne simplement un peu risqué, et le modèle refuse. Parfois, il explique pourquoi. Plus souvent, il se contente d’un vague « Je ne peux pas vous aider ». La question que personne ne prend la peine de poser aux utilisateurs est : que se passe-t-il vraiment à l’intérieur du modèle, et qui en a décidé ainsi ?

Les modèles d’IA non censurés sont une réponse directe à cette situation. Ce sont des systèmes d’IA, souvent open-source, entraînés sans le filtrage agressif de contenu qui caractérise les chatbots commerciaux. Pour comprendre pourquoi ils existent et à quoi ils servent, il faut d’abord comprendre comment les garde-fous sont intégrés dès l’origine.

Comment les modèles d’IA apprennent à refuser

Les grands modèles de langage modernes n’arrivent pas déjà formés avec la connaissance de ce qu’ils doivent ou ne doivent pas dire. Le modèle de base, entraîné sur d’énormes quantités de texte, dira en grande partie ce qui complète le mieux le motif. Les refus viennent plus tard, via un processus appelé apprentissage par renforcement à partir de feedback humain (RLHF)^[s].

L’idée de base : des évaluateurs humains comparent des paires de réponses générées par l’IA et choisissent celle qu’ils préfèrent. Un modèle séparé, appelé modèle de récompense, apprend à prédire ces préférences. L’IA est ensuite entraînée par renforcement pour obtenir un score élevé sur ce modèle de récompense. Répétez cela suffisamment, et l’IA apprend à produire des réponses que les humains jugent « utiles et inoffensives ».

La mise en œuvre technique^[s] ajoute un terme d’équilibrage pour empêcher le modèle de trop s’éloigner de son comportement initial, une pénalité basée sur ce qu’on appelle la divergence de Kullback-Leibler (KL). Sans cela, le modèle apprendrait à produire du texte qui trompe le modèle de récompense tout en devenant incohérent pour les humains.

Le résultat : un modèle qui semble utile, évite les dommages évidents et refuse un large éventail de demandes qu’il a été entraîné à classer comme risquées. En principe, c’est exactement ce que l’on souhaite.

Les 3 défauts critiques de l’entraînement à la sécurité des IA

En pratique, trois problèmes reviennent systématiquement.

Défaut 1 : Le refus excessif. Une étude académique de 2023^[s] a révélé que le fine-tuning de sécurité a des rendements décroissants : ajouter seulement 3 % d’exemples de sécurité à l’entraînement d’un modèle améliore substantiellement son comportement, mais au-delà de ce seuil, « trop de sécurité pousse les modèles à refuser des requêtes parfaitement sûres si elles ressemblent superficiellement à des requêtes dangereuses ». Le modèle fait du pattern-matching sur des caractéristiques de surface, sans comprendre l’intention. Demandez comment fonctionne un mécanisme de serrure pour un blog de sécurité, et le modèle voit « mécanisme de serrure » et active le même refus que pour un cambrioleur réel.

Défaut 2 : La course aux armements. Tout système de garde-fous fait face à un public adverse. Des chercheurs ont analysé 1 405 prompts de contournement réels^[s] collectés entre décembre 2022 et décembre 2023 et ont découvert que 5 prompts spécifiques atteignaient un taux de succès de 95 % pour contourner les filtres de sécurité de GPT-3,5 et GPT-4. Le plus ancien de ces prompts persistait en ligne depuis plus de 240 jours. Les garde-fous n’arrêtent pas les utilisateurs déterminés ; ils ajoutent simplement des frictions pour tous les autres.

Défaut 3 : Qui décide ? Le système Constitutional AI d’Anthropic^[s] entraîne les modèles à partir d’une liste écrite de principes, où le modèle critique et révise ses propres sorties en fonction de ces principes, puis s’entraîne sur les révisions. Cela est plus propre que le RLHF pur à certains égards, mais cela concentre un pouvoir énorme entre les mains de ceux qui rédigent la constitution. Les valeurs du modèle sont, dans une large mesure, les valeurs de l’entreprise qui l’a construit, encodées dans des données d’entraînement que aucun utilisateur ne peut auditer.

Modèles d’IA non censurés : ce qu’ils sont et qui les utilise

Les modèles d’IA non censurés suppriment ou réduisent significativement cette couche de filtrage. Les exemples les plus marquants sont open-source : Llama 2 de Meta^[s] fournit des poids publics avec une sécurité configurable, et Mistral AI a explicitement déclaré^[s] que son modèle Mistral 7B Instruct « ne dispose d’aucun mécanisme de modération ».

Qui utilise réellement les modèles d’IA non censurés ? Les cas d’usage sont plus banals que ce que laisse penser le discours : des chercheurs en sécurité qui ont besoin de discuter de vulnérabilités sans refus constants, des écrivains travaillant sur des fictions impliquant crime ou violence, des historiens étudiant les discours extrémistes, des professionnels de santé ayant besoin d’informations cliniques franches, et des développeurs testant le comportement des modèles sans le bruit des garde-fous. Les chercheurs cités plus haut notent que les compromis en matière de sécurité sont réels, mais que les coûts de la sur-restriction le sont tout autant.

Le résumé honnête : les modèles d’IA non censurés ne sont pas intrinsèquement plus dangereux qu’une bibliothèque. Ce sont des outils, et les outils peuvent être mal utilisés. Mais le débat qui n’a jamais lieu est celui de ce que nous perdons lorsque chaque outil est livré avec un filtre de contenu permanent, défini par un comité que vous n’avez pas élu.

L’éditeur en chair et en os a signalé ce sujet, et il s’inscrit parfaitement dans ce que couvre cette chronique : les décisions d’ingénierie qui façonnent ce que les systèmes d’IA font réellement.

Les modèles d’IA non censurés sont devenus une catégorie significative dans le déploiement de l’IA précisément parce que le pipeline d’entraînement à la sécurité utilisé par les grands modèles de langage commerciaux présente des modes de défaillance bien documentés. Comprendre ces modes nécessite de comprendre l’ensemble de la pile d’entraînement, du pré-entraînement de base au RLHF, en passant par les variantes de Constitutional AI.

Le pipeline RLHF et l’émergence des filtres de contenu

Les travaux fondateurs sur le RLHF^[s] de Christiano et al. ont montré que les comparaisons de préférences humaines sur des segments de trajectoire peuvent entraîner des comportements complexes sans accès à une fonction de récompense explicite. Appliqué aux modèles de langage, cela est devenu le pipeline d’alignement standard : collecter des paires de préférences humaines sur les sorties du modèle, entraîner un modèle de récompense sur ces paires, puis affiner le grand modèle de langage via PPO pour maximiser les scores du modèle de récompense.

Le détail d’implémentation qui compte^[s] pour le filtrage de contenu : la fonction de perte de fine-tuning inclut une pénalité de divergence KL entre la distribution de la politique et le modèle initial gelé. Cela empêche le *reward hacking*, où le modèle apprend à générer du texte qui obtient un score élevé sur le modèle de récompense tout en s’éloignant d’un langage cohérent. La pénalité est une nécessité pratique, mais elle signifie aussi que le modèle entraîné à la sécurité est contraint de rester proche de sa distribution pré-entraînée, ce qui influence la manière dont les refus se généralisent.

L’article d’Anthropic sur le RLHF^[s] décrit une approche d’entraînement en ligne itérative où les modèles de préférence et les politiques RL sont mis à jour chaque semaine avec de nouveaux feedbacks humains, et identifie « une relation à peu près linéaire entre la récompense RL et la racine carrée de la divergence KL entre la politique et son initialisation ». Cette relation est significative : pousser plus fort sur les récompenses de sécurité entraîne une pénalité polynomiale en termes de dérive distributionnelle.

Constitutional AI et RLAIF

Constitutional AI^[s] (CAI) remplace les étiquettes de non-nocivité humaines par des étiquettes générées par l’IA. Le processus : échantillonner à partir d’un modèle initial, générer des auto-critiques et des révisions en fonction d’une constitution écrite de principes, affiner le modèle sur les sorties révisées (phase supervisée), puis entraîner un modèle de préférence sur des comparaisons générées par l’IA pour la phase RL. C’est ce qu’on appelle le « RL à partir de feedback d’IA » (RLAIF). Comme le décrit Anthropic, cette méthode « permet de contrôler le comportement de l’IA de manière plus précise et avec beaucoup moins d’étiquettes humaines ».

L’approche constitutionnelle présente un avantage technique par rapport au RLHF pur pour le contrôle de contenu : les principes sont explicites et auditable, contrairement aux préférences implicites encodées par les évaluateurs humains. Elle comporte aussi un risque structurel : celui qui rédige la constitution détermine entièrement ce que le modèle considère comme nuisible. La propre présentation d’Anthropic^[s] reconnaît que l’entraînement purement axé sur l’évitement des dommages est insuffisant, et que l’entraînement purement pour la « non-nocivité » produit des modes de défaillance différents de l’entraînement pour un caractère nuancé. Cette tension interne explique une partie de la prudence excessive observée empiriquement.

La littérature sur le refus excessif et le seuil des 3 %

Bianchi et al. (2023)^[s] offrent le tableau empirique le plus clair des modes de défaillance de l’entraînement à la sécurité. Leur conclusion : « ajouter seulement 3 % d’exemples de sécurité lors du fine-tuning d’un modèle comme LLaMA peut améliorer substantiellement sa sécurité », mais au-delà de ce seuil, la qualité se dégrade en comportements de sécurité exagérés, où les modèles refusent « des requêtes parfaitement sûres si elles ressemblent superficiellement à des requêtes dangereuses ». Le modèle de récompense généralise à partir de motifs de surface, et non de l’intention sémantique, une caractéristique standard de l’optimisation basée sur des gradients appliquée à des données étiquetées finies.

Le pendant adversarial : Shen et al. (2023)^[s] ont analysé 1 405 prompts de contournement et ont trouvé 5 prompts atteignant un taux de succès d’attaque de 0,95 sur GPT-3,5 et GPT-4. Les stratégies d’attaque, principalement l’injection de prompts et l’escalade de privilèges, exploitent le processus de génération autorégressif plutôt que le modèle de récompense directement. Notamment, les jailbreaks les plus efficaces ont persisté pendant plus de 240 jours, et 28 comptes utilisateurs optimisaient en continu des prompts depuis plus de 100 jours. Les garde-fous sont efficaces contre les utilisations occasionnelles abusives, mais inefficaces contre les adversaires motivés, exactement la distribution de menaces que l’on pourrait prédire à partir des recherches en red-teaming^[s] montrant que les modèles RLHF deviennent plus difficiles à attaquer à grande échelle, mais pas impossibles.

Modèles d’IA non censurés en pratique

La réponse open-source à ce paysage est celle des modèles d’IA non censurés avec une sécurité configurable. Llama 2 de Meta^[s] fournit des poids de base et des variantes de sécurité fine-tunées, permettant aux utilisateurs en aval de choisir leur niveau de filtrage. Mistral 7B^[s] est livré sans mécanisme de modération par conception, se positionnant explicitement comme une fondation pour un déploiement personnalisé plutôt qu’un produit grand public.

Le cas d’usage pratique des modèles d’IA non censurés dans les contextes techniques est significatif : recherche en sécurité, red-teaming, systèmes d’information médicale, analyse juridique, écriture créative, et tout domaine où le mode de défaillance du refus excessif est plus coûteux que celui de l’utilisation abusive. La littérature de recherche sur l’entraînement à la sécurité rend ce compromis explicite. Ce qu’elle ne fait pas, c’est répondre à la question de valeur de savoir où ce compromis devrait se situer, et si les utilisateurs devraient avoir leur mot à dire.

L’équilibre actuel, des modèles commerciaux avec des garde-fous fixes plus un écosystème parallèle de modèles d’IA non censurés pour tout le reste, n’est probablement pas l’état final. Mais il reflète honnêtement l’état actuel de la recherche en alignement : capable d’entraîner des assistants utiles et inoffensifs, moins capable d’entraîner des assistants qui sont utiles parce qu’ils comprennent le mal plutôt que de faire du pattern-matching dessus.

À découvrir

Si vous souhaitez expérimenter directement avec des modèles d’IA non censurés, Uncensored.com propose un accès à une IA sans le filtrage standard des solutions commerciales. Utile si vous faites de la recherche, de l’écriture créative, ou si vous voulez simplement voir ce que le modèle pense vraiment sans les garde-fous.

Divulgation : Art of Truth perçoit une commission sur les achats éligibles sans coût supplémentaire pour vous. Cela n’influence pas notre contenu éditorial.

Modèles d’IA non censurés : 3 défauts critiques de l’entraînement à la sécurité des IA

Comment les modèles d’IA apprennent à refuser

Les 3 défauts critiques de l’entraînement à la sécurité des IA

Modèles d’IA non censurés : ce qu’ils sont et qui les utilise

Le pipeline RLHF et l’émergence des filtres de contenu

Constitutional AI et RLAIF

La littérature sur le refus excessif et le seuil des 3 %

Modèles d’IA non censurés en pratique

À découvrir

Sources

Comment les modèles d’IA apprennent à refuser

Les 3 défauts critiques de l’entraînement à la sécurité des IA

Modèles d’IA non censurés : ce qu’ils sont et qui les utilise

Le pipeline RLHF et l’émergence des filtres de contenu

Constitutional AI et RLAIF

La littérature sur le refus excessif et le seuil des 3 %

Modèles d’IA non censurés en pratique

À découvrir

Sources

Articles connexes

L’empreinte carbone que BP a inventée n’a jamais été pour sauver la planète

Neurosciences Deuil : 60% Résilients Malgré le Mythe Mortel des 5 Étapes

OpenClaw, Claude Channels et le cas pour ne tout simplement pas connecter votre agent IA à Discord

Le plaider-coupable aux États-Unis : pourquoi 98 % des condamnations pénales n’arrivent jamais au procès