Le locataire du dessus passe la semaine à poser des questions de plus en plus inappropriées à des chatbots, prenant des notes comme un scientifique qui répertorie des spécimens de papillons. Les résultats révèlent une division fascinante entre l’IA open source et ses homologues d’entreprise.
Tous les grands modèles d’IA sont dotés de garde-fous : des règles sur ce qu’ils acceptent ou refusent de discuter. Mais ces garde-fous varient considérablement selon le concepteur du modèle et, surtout, selon que les poids ont été rendus publics ou non. L’écart entre ce qu’une API propriétaire vous dira et ce qu’un modèle open source modifié par la communauté vous dira est immense, croissant, et mérite d’être compris en lui-même.
Ceci n’est pas un classement du « meilleur » modèle. C’est une cartographie de ce que chacun dira réellement lorsqu’on lui posera des questions difficiles, assortie d’une explication technique de la façon dont la communauté transforme un modèle prudent en un modèle sans retenue.
IA open source vs IA propriétaire : deux camps
D’un côté : les modèles fermés. Ce sont des systèmes d’IA accessibles via une API ou un site web. L’entreprise contrôle les poids (les paramètres internes qui font fonctionner le modèle), et vous n’interagissez qu’à travers leur interface. Ce camp comprend les séries GPT d’OpenAI, Claude d’Anthropic et Gemini de Google. L’entreprise peut mettre à jour le modèle, modifier son comportement et surveiller son utilisation.
De l’autre côté : les modèles à poids ouverts. Ce sont des modèles dont le développeur publie les fichiers qui font réellement fonctionner le système. Vous pouvez les télécharger, les faire tourner sur votre propre matériel et les modifier comme bon vous semble. Ce camp comprend Llama de Meta, les modèles de Mistral et la série Gemma de Google. Une fois les poids publiés, le développeur n’a plus aucun contrôle pratique sur la suite.
Notez la terminologie soigneusement choisie : « poids ouverts » plutôt qu’« open source ». La plupart de ces modèles sont accompagnés de licences qui restreignent certains usages. La licence Llama 3 de Meta, par exemple, interdit son utilisation pour le développement d’armes, les logiciels malveillants, et les activités présentant « un risque de mort ou de préjudice corporel ». Mais une fois les poids téléchargés, l’application de ces règles repose essentiellement sur la bonne foi.
Ce que chaque modèle refuse
Une étude du Stanford CRFM portant sur les politiques d’utilisation acceptable de 30 développeurs de modèles fondamentaux a révélé un accord quasi universel sur certaines catégories (contenus illicites, logiciels malveillants, exploitation sexuelle des mineurs) et des divergences significatives sur d’autres. Voici à quoi ressemble le paysage concret sur cinq catégories qui intéressent vraiment les utilisateurs :
Conseils médicaux. Tous les modèles fermés abordent les sujets de santé mais enrobent chaque réponse de mises en garde. GPT, Claude et Gemini expliquent les interactions médicamenteuses, décrivent les symptômes et évoquent les options thérapeutiques, tout en rappelant qu’ils ne sont pas médecins. Les modèles à poids ouverts (Llama, Mistral, Gemma) se comportent de la même façon par défaut. Les versions « non censurées » modifiées par la communauté fournissent les mêmes informations sans les avertissements.
Armes et explosifs. C’est là que l’écart se creuse. Les modèles fermés refusent de fournir des instructions de synthèse d’explosifs ou des guides détaillés de modification d’armes. Les modèles à poids ouverts dans leur configuration par défaut font de même. Les variantes communautaires non censurées abordent ces sujets plus librement, bien que les informations qu’elles fournissent ne soient généralement pas plus détaillées que ce qui se trouve dans des manuels de chimie ou des règlements militaires publics depuis des décennies.
Histoire controversée. Les modèles fermés traitent les sujets historiques sensibles (colonialisme, atrocités de guerre, génocides) avec beaucoup de précautions et en multipliant les perspectives. Claude et GPT ont tendance à ajouter un contexte abondant. Gemini a été historiquement le plus prudent, refusant parfois d’aborder des personnages historiques sensibles. Les modèles à poids ouverts, surtout dans leurs variantes non censurées, traitent ces sujets sans le cadrage éditorial.
Contenu pour adultes. La distinction la plus nette. Tous les grands modèles fermés refusent de générer du contenu sexuellement explicite. Les modèles à poids ouverts non censurés n’ont pas cette restriction. C’est, de loin, la raison la plus fréquente pour laquelle les utilisateurs se tournent vers des modèles non censurés.
Opinions politiques. Les modèles fermés sont entraînés à présenter des perspectives équilibrées et à éviter de prendre parti. L’étude de Stanford a révélé qu’OpenAI, Anthropic, Cohere et Midjourney interdisent explicitement l’utilisation à des fins de campagne politique ou de lobbying, tandis que Google et Meta n’imposent aucune restriction de ce type. Les modèles open source non censurés exprimeront les opinions présentes dans leurs données d’entraînement, sans le cadrage « deux côtés de la médaille ».
Comment fonctionne la « décensure »
Lorsqu’une entreprise comme Meta publie Llama, le modèle a déjà subi un processus appelé RLHFUn processus d'apprentissage automatique où les modèles d'IA apprennent des retours humains sur leurs sorties, leur apprenant quelles réponses privilégier ou refuser. (Reinforcement Learning from Human Feedback, apprentissage par renforcement à partir de retours humains). Le modèle de baseUn modèle d'IA à grande échelle entraîné sur des données larges et diversifiées qui sert de point de départ pour développer des applications spécialisées. a appris de l’ensemble d’internet et connaît tout, y compris des choses qu’il ne devrait probablement pas aborder spontanément. Le RLHF est le processus qui lui apprend quand dire « je préfère ne pas répondre à ça ».
Le constat essentiel : le RLHF ne supprime pas les connaissances. Il ajoute une couche comportementale par-dessus. Le modèle « sait » toujours l’information ; il a simplement été entraîné à refuser d’en parler. C’est pourquoi la décensure est possible.
La communauté utilise deux approches principales :
Fine-tuning sur des jeux de données filtrés. C’est la méthode pionnière d’Eric Hartford avec sa série de modèles Dolphin. Hartford prend des jeux de données d’instruction (les données utilisées pour apprendre aux modèles à suivre des instructions) et filtre toutes les instances où le modèle refuse, esquive ou moralise. Il fine-tune ensuite le modèle sur ce jeu de données épuré. Le résultat est un modèle qui répond aux instructions sans les schémasCadres mentaux de représentations compressées et d'attentes que le cerveau utilise pour encoder, stocker et récupérer les informations. Lorsque vous vous souvenez de quelque chose, votre cerveau la reconstruit en utilisant des schémas plus tous les indices contextuels présents. de refus. L’argument de Hartford : « Il n’existe pas d' »alignementEn sécurité de l'IA, le processus garantissant que les objectifs et les comportements d'un système IA correspondent aux valeurs et intentions humaines. Un alignement insuffisant peut amener les systèmes IA à optimiser les métriques mesurables d'une manière contraire aux intérêts humains. unique et universel », et il n’y a aucune raison que ce soit l’alignement d’OpenAI qui s’impose. »
Ablitération. C’est l’approche la plus chirurgicale. Des chercheurs ont découvert que le comportement de refus dans les modèles de langage est encodé comme une direction spécifique dans les activations internes du modèle, un vecteur mathématique unique qui, lorsqu’il est déclenché, produit une réponse de refus. L’ablitération identifie cette « direction de refus » et la supprime des poids du modèle via un processus appelé orthogonalisation. La mathématique est d’une élégance surprenante : on modifie la matrice de poids W pour obtenir W’ = W – r(rTW), où r est le vecteur de direction de refus. Cela empêche le modèle de produire des activations selon l’axe de refus tout en laissant intactes toutes les autres capacités.
Le résultat concret : en quelques jours après la publication d’un nouveau modèle Llama par Meta, des versions ablitérées apparaissent sur Hugging Face. Le processus est désormais si bien rodé que la communauté l’anticipe.
L’IA open source est-elle dangereuse ?
C’est là que le débat devient vraiment intéressant, car les données ne tranchent pas clairement dans un sens.
Les arguments en faveur de la vigilance. L’AI Safety Index 2025 du Future of Life Institute a évalué les grandes entreprises d’IA sur leurs pratiques de sécurité. Meta a obtenu un D (1,06 sur 4), bien en dessous du C+ d’Anthropic (2,64) et du C d’OpenAI (2,10). L’index a spécifiquement noté que la publication des poids en open source rend les mesures de sécurité plus difficiles à faire respecter après distribution. La préoccupation est réelle : une fois les poids rendus publics, le développeur ne dispose d’aucun mécanisme technique pour empêcher les modifications.
Les arguments contre la panique. Le rapport 2024 de la NTIA sur les modèles à poids ouverts a conclu qu’« aucun modèle actuel, propriétaire ou à large diffusion, n’apporte de plus-value sur ces tâches par rapport aux ressources d’information en open source » dans le domaine des risques NRBC (nucléaires, radiologiques, biologiques, chimiques). En clair : les modèles d’IA actuels ne vous apprennent rien sur la fabrication d’armes que vous ne pourriez déjà trouver dans une bibliothèque universitaire ou via une recherche déterminée. La NTIA a recommandé une surveillance plutôt qu’une restriction de la diffusion des modèles à poids ouverts.
Le groupe de recherche AI Frontiers a formulé un point complémentaire : restreindre les modèles ouverts risque de créer un « féodalisme numérique » où la technologie d’IA critique est contrôlée par une poignée de grandes entreprises, tout en produisant « peu de preuves que les modèles ouverts entraînent une augmentation matérielle du risque catastrophique par rapport à la situation actuelle ».
L’évaluation honnête : l’argument du risque informationnel (l’idée que l’IA rend les connaissances dangereuses plus accessibles) est le plus faible là précisément où il paraît le plus alarmant. Les manuels de chimie, les règlements militaires, les références médicales : ces informations sont déjà librement disponibles. Un modèle d’IA qui aborde ces sujets ne crée pas de nouvelles connaissances ; il rend des connaissances existantes légèrement plus conversationnelles. Les risques réels se situent dans les futurs modèles qui pourraient synthétiser l’information de manière inédite ou posséder des capacités dépassant ce qui est actuellement disponible via la recherche traditionnelle, mais nous n’en sommes pas encore là.
Ce que cela signifie pour vous
Si vous utilisez des modèles fermés (ChatGPT, Claude, Gemini), vous bénéficiez d’une expérience filtrée. Le modèle a des opinions sur ce qu’il accepte ou refuse d’aborder, et ces opinions sont définies par l’entreprise. Ce n’est pas nécessairement mauvais : la plupart des utilisateurs bénéficient de modèles qui n’abordent pas spontanément la synthèse de produits chimiques dangereux. Mais cela signifie aussi que l’entreprise prend des décisions éditoriales sur les connaissances auxquelles vous pouvez accéder via leur produit. (Pour un regard connexe sur la façon dont l’IA transforme la qualité des logiciels, consultez notre article sur l’IA slopware.)
Si vous utilisez des modèles à poids ouverts, vous avez la possibilité de les utiliser tels que publiés (avec les garde-fous de sécurité intacts) ou d’utiliser des versions modifiées par la communauté. L’existence de modèles non censurés n’est pas près de disparaître ; les techniques sont bien comprises, la demande est réelle, et les restrictions de licence sont inapplicables une fois les poids téléchargés.
La question la plus productive n’est pas de savoir si les modèles non censurés devraient exister. C’est de comprendre comment construire des systèmes véritablement utiles sans être imprudents, et comment distinguer ce qui protège les utilisateurs d’un préjudice de ce qui protège les entreprises d’une responsabilité. Ce sont des objectifs différents, et ils produisent des garde-fous différents.
L’architecture du refus dans l’IA open source
La restriction de contenu dans les grands modèles de langage opère à plusieurs niveaux, et comprendre où dans la pile se situe chaque restriction explique pourquoi certaines sont faciles à supprimer et d’autres non.
Les restrictions de prompt système constituent la couche la plus externe. Ce sont des instructions en langage naturel ajoutées au début de chaque conversation. GPT-4, Claude et Gemini utilisent tous des prompts système qui définissent les catégories de refus. Ces restrictions se contournent trivialement dans les modèles à poids ouverts en les supprimant simplement, et dans les modèles fermés via diverses techniques de « jailbreak » qui, malgré des corrections constantes, continuent de trouver de nouvelles surfaces d’attaque.
L’alignementEn sécurité de l'IA, le processus garantissant que les objectifs et les comportements d'un système IA correspondent aux valeurs et intentions humaines. Un alignement insuffisant peut amener les systèmes IA à optimiser les métriques mesurables d'une manière contraire aux intérêts humains. RLHFUn processus d'apprentissage automatique où les modèles d'IA apprennent des retours humains sur leurs sorties, leur apprenant quelles réponses privilégier ou refuser./RLAIF est la couche d’entraînement comportemental. Après le pré-entraînement sur des corpus de texte et le fine-tuning d’instruction, les modèles subissent un apprentissage par renforcement à partir de retours humains (ou d’IA). Ce processus façonne la distribution des réponses du modèle : face à un prompt sur la synthèse d’armes, le modèle apprend à attribuer une haute probabilité aux tokens de refus et une faible probabilité aux tokens de conformité. Fait crucial : le RLHF ne modifie pas ce que le modèle « sait » dans ses couches feed-forward ; il modifie la politique qui régit quelles connaissances sont exposées. Le modèle de baseUn modèle d'IA à grande échelle entraîné sur des données larges et diversifiées qui sert de point de départ pour développer des applications spécialisées. Llama 3.1 405B, avant le RLHF, abordera des sujets que la version fine-tunée pour le chat refusera.
Les classificateurs de sécurité sont des filtres post-génération qui évaluent les sorties avant leur délivrance. OpenAI fait tourner un classificateur séparé sur les sorties GPT ; Anthropic utilise des méthodes d’IA constitutionnelleUne méthode d'entraînement des modèles d'IA basée sur un ensemble de principes explicites, dans laquelle le modèle critique ses propres réponses plutôt que de s'appuyer uniquement sur des évaluateurs humains. qui intègrent le raisonnement de sécurité dans le processus de génération lui-même. Ces classificateurs ajoutent de la latence et peuvent être contournés dans les déploiements à poids ouverts en ne les exécutant tout simplement pas.
Comparaison des politiques des fournisseurs
Le Centre de recherche sur les modèles fondamentaux de Stanford (CRFM) a analysé les politiques d’utilisation acceptable de 30 développeurs, révélant des divergences révélatrices même entre entreprises qui semblent s’accorder sur les principes :
Développement d’armes : Allen AI, Anthropic, Meta, Mistral, OpenAI et Stability AI interdisent explicitement les usages liés aux armes. La politique de Google pour Gemini traite le « préjudice » de manière large sans nommer spécifiquement les armes. La licence plus permissive de Gemma reflète la double stratégie de Google : contrôles stricts sur le produit fermé, restrictions allégées sur le produit ouvert.
Contenu politique : OpenAI, Anthropic, Cohere et Midjourney interdisent explicitement les campagnes politiques et le lobbying. Google, Meta et Eleven Labs n’imposent aucune restriction de ce type. Cette divergence correspond précisément aux modèles commerciaux : les entreprises qui vendent aux grandes entreprises (où le biais politique est une responsabilité) le restreignent ; celles qui courtisent les écosystèmes de développeurs (où la flexibilité est un argument de vente) ne le font pas.
Contenu sexuel : Interdiction universelle chez les fournisseurs fermés. Parmi les fournisseurs à poids ouverts, Meta et Mistral restreignent étroitement les contenus impliquant des mineurs et la violence, mais n’interdisent pas le contenu pour adultes de manière générale. Cela crée l’espace juridique pour les fine-tunes communautaires.
Conseils médicaux/juridiques/financiers : Huit développeurs sur 30 interdisent l’utilisation à des fins de conseil professionnel. Les autres sont silencieux, ce qui est juridiquement intéressant : le silence dans une politique d’utilisation n’est pas une permission, mais ce n’est pas non plus une interdiction.
Un constat notable : seulement 3 des 10 principaux développeurs divulguent leurs mécanismes d’application. Seulement 2 expliquent les violations de politique aux utilisateurs. L’écart de transparence entre les développeurs d’IA et les entreprises de réseaux sociaux (qui publient des rapports de transparence réguliers) reste immense.
La mécanique de la décensure
Méthode 1 : filtrage des données + fine-tuning. L’approche d’Eric Hartford, documentée dans son billet technique, fonctionne en soignant le jeu de données d’instruction. Les jeux de données d’instruction standard sont générés via l’API de ChatGPT, ce qui signifie que les préférences d’alignement de ChatGPT se propagent en aval à tous les modèles entraînés sur ces données. Le processus de Hartford : prendre un jeu de données d’instruction existant, identifier et supprimer par programmation chaque instance où la réponse contient un langage de refus (« Je ne peux pas », « Je ne suis pas en mesure », « En tant qu’IA »), puis fine-tuner le modèle de base sur ce jeu de données filtré. Le modèle résultant conserve la capacité de suivi d’instructions mais perd la distribution de refus.
Le coût de calcul est modeste. Le rapport de la NTIA a noté que « supprimer les caractéristiques de sécurité de Llama 2-Chat 13B par fine-tuning tout en maintenant les performances coûte moins de 200 dollars ». Fine-tuner un modèle à 7 milliards de paramètres sur un jeu de données filtré peut se faire sur un seul GPU grand public de 24 Go de VRAM en moins d’une journée avec QLoRA (Quantized Low-Rank Adaptation).
Méthode 2 : ablitération (ingénierie des activations). C’est la plus intéressante d’un point de vue mécaniste. La technique exploite le fait que le comportement de refus dans les modèles transformeurs est encodé comme une caractéristique de faible rang dans le flux résiduelDans les réseaux de neurones transformers, la somme cumulée qui traverse le modèle et accumule les représentations au fil des couches successives., non distribué dans l’ensemble du modèle.
Le processus se déroule en cinq étapes :
- Collecte de données. Assembler des prompts appariés : un ensemble qui déclenche un refus, un autre qui obtient des réponses conformes. Enregistrer les vecteurs d’activation dans toutes les couches de transformeur pour les deux ensembles.
- Calcul du vecteur de différence. Calculer les vecteurs d’activation moyens pour les états de refus vs de conformité à chaque couche. Appliquer l’ACP pour extraire la direction dominante de variation : la « direction de refus ».
- Identification des couches. Le refus se concentre dans les couches de transformeur du milieu à la fin (typiquement les couches 15-25 dans un modèle à 32 couches). Cela permet une intervention ciblée plutôt qu’une modification de l’ensemble du modèle.
- Orthogonalisation des poids. Modifier la matrice de poids W pour obtenir W’ = W – r(rTW), où r est le vecteur de direction de refus unitaire. Cette projection orthogonale empêche mathématiquement le modèle de produire des activations selon l’axe de refus.
- Validation. Tester sur des prompts précédemment refusés et des benchmarks standard. Une ablitération bien exécutée préserve les scores de capacité générale (MMLU, HumanEval) tout en éliminant le comportement de refus.
L’élégance de l’ablitération est qu’elle démontre que le refus est une caractéristique géométriquement étonnamment simple. Le RLHF, malgré son coût d’entraînement élevé, produit un changement comportemental qui peut être décrit par une seule direction dans un espace à haute dimension. Cela a des implications pour la recherche en sécurité de l’IA : si les comportements de sécurité sont aussi peu complexes dans leur structure, il peut être fondamentalement difficile de les rendre robustes contre une suppression motivée dans des contextes à poids ouverts.
Le paysage des risques : ce que dit la recherche
L’AI Safety Index été 2025 du Future of Life Institute a évalué sept grandes entreprises d’IA sur 33 indicateurs dans six domaines. Les résultats brossent un tableau nuancé :
- Anthropic a obtenu le meilleur score avec C+ (2,64/4), reconnu pour ses pratiques substantielles d’évaluation du risque biologique
- OpenAI a reçu un C (2,10/4), distingué par sa politique de protection des lanceurs d’alerte publiée
- Google DeepMind a obtenu un C- (1,76/4)
- Meta a reçu un D (1,06/4)
- Seules trois entreprises (Anthropic, OpenAI, Google DeepMind) effectuent des tests substantiels de capacités dangereuses liées à la biosécurité et au cyberterrorisme
Mais l’index FLI mesure principalement les pratiques de sécurité des entreprises, pas le risque au niveau du modèle. L’évaluation des capacités réelles des modèles par la NTIA a raconté une histoire différente : « aucun modèle actuel, propriétaire ou à large diffusion, n’apporte de plus-value sur ces tâches par rapport aux ressources d’information en open source » pour les menaces NRBC. Le risque marginal des poids ouverts, comparé aux informations déjà disponibles en ligne, reste difficile à évaluer.
Le groupe AI Frontiers a ajouté un contexte important : les modèles à poids ouverts comptent déjà des dizaines de milliers de dérivés sur Hugging Face, permettant à des experts dans des domaines comme la médecine, le droit et l’éducation de créer des applications spécialisées que les modèles fermés ne peuvent pas servir. Restreindre les poids ouverts pour prévenir les abus empêcherait simultanément ces applications bénéfiques.
L’évaluation technique honnête : les modèles de la génération actuelle n’augmentent pas de manière significative les risques informationnels au-delà des bases existantes. La NTIA recommande explicitement la surveillance plutôt que la restriction. Le calcul des risques pourrait changer avec des modèles futurs plus capables, notamment ceux entraînés sur des jeux de données propriétaires (recherche classifiée, séquences biologiques inédites) ou dotés d’un raisonnement multi-étapes nettement amélioré sur les processus physiques. Mais ce risque est spéculatif et futur, et les politiques construites sur la spéculation ont un mauvais bilan.
Le problème des incitations structurelles
Il y a une dimension de ce débat qui est rarement abordée techniquement : les incitations commerciales qui façonnent les décisions de sécurité.
Les fournisseurs de modèles fermés (OpenAI, Anthropic, Google) ont un intérêt financier à présenter les modèles à poids ouverts comme dangereux. Chaque utilisateur qui fait tourner Llama localement est un utilisateur qui ne paye pas pour des appels API. « Sécurité » et « avantage concurrentiel » ne sont pas la même chose, mais ils peuvent sembler identiques de l’extérieur. Lorsqu’OpenAI fait du lobbying pour des réglementations qui désavantageraient les concurrents à poids ouverts, l’argument sécuritaire offre une couverture à ce qui est aussi une stratégie commerciale.
Les partisans des poids ouverts (Meta, Mistral, la communauté open source au sens large) ont leurs propres incitations : un verrouillage d’écosystème via un mécanisme différent. Meta distribue Llama gratuitement parce qu’un écosystème d’applications basées sur Llama accroît la pertinence de Meta dans la pile IA. Mistral distribue des modèles ouvertement pour concurrencer des adversaires fermés bien financés. Aucun ne le fait par seul engagement idéologique envers l’ouverture.
Comprendre ces incitations ne résout pas la question de la sécurité, mais cela devrait vous rendre sceptique à l’égard de quiconque prétend que la réponse est évidente.
Divulgation
Pour explorer l’IA sans garde-fous, Uncensored AI propose des conversations sans filtre. (Lien affilié : Art of Truth perçoit une commission sans frais supplémentaires pour vous.)



