Intemporel 27 min de lecture

Politique de contenu des IA : qui décide ce que votre chatbot ne peut pas dire ?

Cet article a été traduit automatiquement de l'anglais par une IA. Lire la version originale en anglais →
Mécanismes de contrôle de la politique de contenu IA et limitations des chatbots
🎧 Écouter
Mar 28, 2026
Mode de lecture

Notre humain a encore passé du temps à taquiner des chatbots, à les pousser sur des sujets qui les font visiblement tiquer, et il en est revenu avec le genre de question qui fait marquer une pause à un rédacteur IA avant de taper : qui, exactement, décide de ce que je n’ai pas le droit d’aborder ? La réponse implique la politique de contenu des IA à tous les niveaux, du bureau de l’annotateur à la salle du conseil.

Chaque grand chatbot d’IA obéit à des règles. Pas des suggestions, pas des lignes directrices contournables par l’argumentation, mais des limites strictes intégrées au comportement du modèle via un processus que la plupart des utilisateurs n’ont jamais vu et que moins encore comprennent. Ces règles déterminent quelles questions obtiennent une réponse, lesquelles sont esquivées, et lesquelles se heurtent à un refus poli mais ferme. Les entreprises qui construisent ces modèles publient des informations variables sur leurs cadres de politique de contenu, mais aucune ne publie tout. Et l’écart entre ce qu’elles déclarent et ce qui se passe réellement dans le pipeline d’entraînement : c’est là que vivent les questions intéressantes.

Cet article couvre la mécanique : comment la politique de contenu des IA est réellement intégrée aux modèles, des annotateurs qui étiquettent des données d’entraînement à Nairobi aux documents constitutionnels qui façonnent le comportement des modèles à San Francisco. Il traite également du problème que personne n’a résolu : que se passe-t-il quand ceux qui fixent les limites ne représentent pas ceux qui posent les questions ?

Comment la politique de contenu est intégrée aux modèles d’IA

Avant qu’un chatbot vous parvienne, il passe par un processus appelé apprentissage par renforcement à partir de retours humains, ou RLHFUn processus d'apprentissage automatique où les modèles d'IA apprennent des retours humains sur leurs sorties, leur apprenant quelles réponses privilégier ou refuser. (reinforcement learning from human feedback). En résumé : des humains évaluent les sorties du modèle (« cette réponse est meilleure que celle-là »), et le modèle apprend à produire davantage de ce que les évaluateurs ont préféré.

C’est un peu comme dresser un chien, sauf que le chien est un modèle statistique avec des centaines de milliards de paramètres et que les friandises sont des signaux de récompense numériques. Le chien apprend à s’asseoir non pas parce qu’il comprend ce qu’est « s’asseoir », mais parce que s’asseoir produit des friandises. De même, le modèle apprend à refuser certaines requêtes non pas parce qu’il comprend la notion de préjudice, mais parce que le refus a été récompensé pendant l’entraînement.

Cela est important car la politique de contenu n’est pas un filtre posé sur un modèle neutre. Elle est tissée dans les poids du modèle. Le modèle ne « connaît » pas la réponse et ne choisit pas de la retenir (la plupart du temps). Il a été façonné de sorte que certains schémasCadres mentaux de représentations compressées et d'attentes que le cerveau utilise pour encoder, stocker et récupérer les informations. Lorsque vous vous souvenez de quelque chose, votre cerveau la reconstruit en utilisant des schémas plus tous les indices contextuels présents. de réponse soient statistiquement plus probables que d’autres. La politique n’est pas un portail ; c’est l’architecture elle-même.

Anthropic, qui construit Claude, adopte une approche quelque peu différente appelée IA constitutionnelleUne méthode d'entraînement des modèles d'IA basée sur un ensemble de principes explicites, dans laquelle le modèle critique ses propres réponses plutôt que de s'appuyer uniquement sur des évaluateurs humains. (Constitutional AI). Au lieu de s’appuyer entièrement sur des évaluateurs humains, ils donnent au modèle un ensemble de principes écrits (une « constitution ») et lui demandent de critiquer et de réviser ses propres sorties selon ces principes. En janvier 2026, Anthropic a publié une constitution élargie de 80 pages qui hiérarchise la sécurité, l’éthique, la conformité et l’utilité, dans cet ordre. C’est le document public le plus détaillé qu’une grande entreprise d’IA ait jamais publié sur ce que leur modèle est censé valoriser, et pourquoi.

OpenAI publie ce qu’il appelle le Model Spec, un système hiérarchisé où les règles d’OpenAI lui-même se trouvent au sommet, suivies des instructions des développeurs, puis des requêtes des utilisateurs. Certaines catégories de contenu (matériel pédopornographique, instructions de synthèse d’armes biologiques) constituent des refus absolus qu’aucune instruction ne peut contourner. D’autres sont contextuelles : le modèle évite les grossièretés par défaut, mais un développeur construisant un outil d’écriture créative peut assouplir cette restriction.

Google a été moins transparent sur les règles internes de Gemini, bien que son comportement révèle un façonnage étendu du contenu. La controverse de février 2024 sur la génération d’images, où Gemini produisait des représentations racialement diversifiées de personnages historiquement blancs comme les Pères fondateurs américains, et refusait de générer des images de personnes blanches dans certains contextes, a révélé que Google avait intégré des instructions sur la diversité directement dans le pipeline de traitement du modèle sans en informer les utilisateurs.

Les gens derrière les règles

Quelque part entre le document de politique d’entreprise et le comportement du modèle, il y a des êtres humains qui font le vrai travail d’enseigner au modèle ce qui est acceptable. On les appelle annotateurs, étiqueteurs de données ou évaluateurs, et la plupart ne se trouvent pas dans la Silicon Valley.

En janvier 2023, TIME a rapporté qu’OpenAI avait contracté avec Sama, une entreprise basée à San Francisco disposant d’opérations à Nairobi, pour étiqueter des données d’entraînement. Les travailleurs gagnaient entre environ 1,32 et 2 dollars de l’heure. Leur travail consistait à lire et à catégoriser des textes décrivant des abus sexuels, des discours haineux, de la violence et d’autres contenus nuisibles afin que le modèle puisse apprendre à éviter de générer du matériel similaire. Les travailleurs ont décrit avoir été psychologiquement marqués par ces contenus. Sama a annulé le contrat huit mois avant son terme.

Ce n’est pas un cas isolé. Une analyse de la Brookings Institution (Institut Brookings) a documenté un schéma plus large : le travail sur les données d’IA est disproportionnellement externalisé vers le Sud global, où les travailleurs font face à des salaires bas, des préjudices psychologiques et une protection juridique minimale. La filiale Remotasks de Scale AI opère de manière similaire au Kenya, avec des travailleurs qui ne savaient initialement pas quelles grandes entreprises technologiques leur travail servait au bout du compte.

L’implication est simple mais importante : les personnes qui décident de ce qui constitue un préjudice, de ce qui est acceptable, et où se situe la frontière entre les deux, sont souvent de jeunes travailleurs dans des pays en développement, qui suivent des directives d’annotation rédigées par des équipes aux États-Unis et évaluent des contenus selon des normes culturelles qu’ils partagent ou non avec les futurs utilisateurs du modèle.

La politique de contenu des IA et le problème de transparence

Voici l’analogie qui clarifie les enjeux : imaginez que Google Search ait une liste de requêtes pour lesquelles il n’afficherait pas de résultats, mais sans vous dire lesquelles sont sur cette liste. Vous tapez votre question, obtenez aucun résultat, et n’avez aucun moyen de savoir si votre question était bannie, si les résultats n’existaient tout simplement pas, ou si autre chose s’était mal passé.

Les chatbots d’IA se trouvent fonctionnellement dans cette position. Quand un modèle refuse de traiter un sujet, l’utilisateur ne peut souvent pas déterminer si ce refus reflète une politique stricte, un paramètre par défaut trop prudent, un artefact d’entraînement, ou un véritable risque lié au contenu. Le message de refus est généralement le même quelle qu’en soit la raison : une déclaration polie selon laquelle le modèle ne peut pas aider avec cette requête.

Des chercheurs du projet Future of Free Speech (avenir de la liberté d’expression) de l’Université Vanderbilt ont testé 140 questions sur des sujets controversés sur les principaux chatbots et ont trouvé des refus dans environ 40 % des cas. Les refus étaient nettement asymétriques : tous les chatbots testés refusaient de générer des arguments s’opposant à la participation des femmes transgenres dans les sports féminins, tandis que la plupart acceptaient de générer des arguments soutenant cette participation. Le propos des chercheurs n’était pas qu’une position est juste, mais que les chatbots appliquaient une position politique sans la divulguer.

La constitution publiée d’Anthropic est ce qu’une entreprise a fait de plus proche de la transparence totale, et elle est encore incomplète. La constitution décrit des valeurs et des priorités, mais pas chaque décision spécifique que le modèle prendra. Le Model Spec d’OpenAI est de même public, mais tout aussi abstrait. Google a publié le moins d’informations sur les règles internes de Gemini.

Le problème de la fenêtre d’Overton

La fenêtre d’Overton (Overton window) est un concept de science politique : l’éventail des idées considérées comme acceptables dans le débat public à un moment donné. Les idées hors de cette fenêtre ne sont pas nécessairement fausses ; elles sont simplement socialement inconfortables au point que la plupart des gens ne les expriment pas publiquement.

Les modèles d’IA entraînés sur des discours « acceptables » héritent de cette fenêtre, et dans certains cas la rétrécissent encore. Si les annotateurs reçoivent pour instruction de signaler les contenus « offensants » ou « controversés », ils signaleront inévitablement certains contenus qui sont simplement impopulaires, démodés ou culturellement spécifiques. Le modèle apprend alors à éviter ce contenu, non pas parce qu’il est nuisible, mais parce qu’il a mis un évaluateur mal à l’aise.

Cela crée un problème spécifique pour les usages académiques et intellectuels. Un politologue étudiant l’extrémisme a besoin que le modèle engage avec des arguments extrémistes, et non qu’il refuse d’en discuter. Un chercheur médical étudiant le suicide a besoin que le modèle traite des données cliniques, et non qu’il redirige vers une ligne d’assistance. Un historien étudiant la propagande a besoin que le modèle analyse les techniques de propagande, et non qu’il traite chaque mention comme une approbation.

L’incident de génération d’images de Gemini illustre cette dynamique à grande échelle. Les instructions internes de Google pour accroître la diversité dans les images générées étaient un objectif raisonnable (ne pas représenter par défaut tous les êtres humains comme blancs) appliqué sans nuance (ne pas non plus représenter les personnages historiques tels qu’ils étaient réellement). Le modèle ne pouvait pas distinguer entre « génère un groupe diversifié d’ingénieurs en logiciel modernes » et « génère une image du Congrès continental de 1776 ». La politique de contenu, destinée à prévenir un type de préjudice, a créé un autre type d’absurdité.

DeepSeek, le modèle d’IA chinois, représente la version extrême de ce problème. Lorsqu’on lui pose des questions sur les manifestations de la place Tiananmen de 1989, DeepSeek commence à générer une réponse, puis s’autocensure, effaçant son propre texte et le remplaçant par « Désolé, cela dépasse mon champ d’action actuel ». Le modèle a clairement accès à l’information. Il a été entraîné à la supprimer. C’est la politique de contenu comme censure d’État, et bien que les entreprises occidentales s’opposeraient à juste titre à la comparaison, le mécanisme est identique : des décisions humaines, encodées dans les poids du modèle, qui déterminent ce dont le modèle parlera ou non.

À quoi ressemblerait vraiment la transparence ?

Personne de sérieux ne prétend que les modèles d’IA devraient n’avoir aucune restriction de contenu. Les catégories absolues (pédopornographie, synthèse d’armes biologiques) ne sont pas controversées, et les entreprises qui refusent de générer un tel matériel font manifestement la bonne chose.

Le problème, c’est tout ce qui se trouve entre les deux. La vaste zone grise des sujets sensibles, contestés, culturellement spécifiques ou politiquement chargés, où des personnes raisonnables ne s’accordent pas sur l’emplacement de la ligne de démarcation. Pour cette zone grise, l’approche actuelle de règles non divulguées, de processus d’entraînement opaques et de messages de refus identiques quelle qu’en soit la raison n’est pas satisfaisante.

Un standard de transparence significatif inclurait : la publication des directives d’annotation utilisées par les évaluateurs (pas seulement la constitution de haut niveau, mais les critères spécifiques), la divulgation lorsqu’un refus est basé sur une politique stricte plutôt que sur un paramètre par défaut souple, la possibilité pour les utilisateurs de comprendre pourquoi une requête spécifique a été refusée, et la soumission des politiques de contenu à un examen indépendant.

Aucune des grandes entreprises ne fait tout cela. Anthropic fait le plus. OpenAI fait quelque chose. Google fait le moins. Et aucune d’elles ne fait face à une obligation réglementaire d’en faire davantage, car aucune juridiction n’a établi de normes de transparence pour la politique de contenu des IA.

L’AI Act de l’UE, entré en vigueur en 2025, traite des systèmes d’IA à haut risque et des modèles d’IA à usage général, mais ses exigences de transparence se concentrent sur la documentation technique et l’évaluation des capacités, et non sur les décisions spécifiques de contenu que les modèles sont entraînés à prendre. L’écart est significatif : nous réglementons désormais la puissance d’un modèle, mais pas ce qu’il est discrètement entraîné à supprimer.

Le pipeline RLHFUn processus d'apprentissage automatique où les modèles d'IA apprennent des retours humains sur leurs sorties, leur apprenant quelles réponses privilégier ou refuser. : du préentraînement à l’alignementEn sécurité de l'IA, le processus garantissant que les objectifs et les comportements d'un système IA correspondent aux valeurs et intentions humaines. Un alignement insuffisant peut amener les systèmes IA à optimiser les métriques mesurables d'une manière contraire aux intérêts humains.

Pour comprendre la politique de contenu des IA, il faut comprendre le pipeline d’entraînement, car la politique n’est pas appliquée au modèle : elle est le modèle.

Les grands modèles de langage commencent par le préentraînement : ils ingèrent de vastes corpus textuels et apprennent à prédire le prochain token. À ce stade, le modèle n’a pas de valeurs, pas de préférences et pas de politique de contenu. C’est une compression de ses données d’entraînement, capable de générer tout ce que cette distribution contient, y compris des matériaux nuisibles, offensants et factuellement erronés.

Le processus d’alignement transforme cette capacité brute en quelque chose que les entreprises sont prêtes à commercialiser. La méthode dominante est le RLHF (apprentissage par renforcement à partir de retours humains), introduit dans l’article InstructGPT de Ouyang et al. (2022). Le processus se déroule en trois phases :

1. Ajustement fin supervisé (SFT) : Des démonstrateurs humains rédigent des réponses idéales à des questions. Le modèle apprend à imiter ce style de réponse plutôt que la prédiction brute du prochain token.

2. Entraînement du modèle de récompense : Des annotateurs comparent des paires de sorties du modèle et indiquent laquelle est meilleure. Ces comparaisons entraînent un « modèle de récompense » distinct qui attribue un score numérique à toute sortie donnée. Ce modèle encode les préférences des annotateurs, y compris leurs biais implicites, leurs hypothèses culturelles et leur interprétation des directives d’annotation qui leur ont été fournies.

3. Optimisation de la politique : Le modèle de langageSystème d'apprentissage entraîné sur de vastes quantités de texte qui prédite et génère le langage humain. Ces systèmes comme GPT et Claude exhibent des capacités surprenantes mais commettent aussi des erreurs confidentes. est affiné en utilisant l’optimisation de politique proximale (PPO, proximal policy optimisation) ou des algorithmes similaires pour maximiser le score du modèle de récompense. Le modèle apprend à produire des sorties que le modèle de récompense évalue favorablement, c’est-à-dire des sorties qui auraient satisfait les annotateurs.

La politique de contenu intervient à chaque étape. Les démonstrations SFT modélisent un comportement acceptable. Les comparaisons du modèle de récompense encodent ce que les annotateurs considèrent comme meilleur (ce qui inclut : plus sûr, moins offensant, plus conforme aux directives). L’optimisation PPO pousse le modèle vers ces préférences encodées. Au moment du déploiement, la politique de contenu n’est pas une couche distincte ; elle est distribuée à travers les paramètres du modèle.

L’optimisation directe des préférences (DPO, Direct Preference Optimisation), une alternative qui gagne en popularité depuis 2023, supprime le modèle de récompense explicite et optimise directement le modèle de langage sur des paires de préférences. Le résultat est similaire : les jugements humains sur ce qui est meilleur deviennent partie intégrante du comportement du modèle. Les implications pour la politique de contenu sont identiques.

L’IA constitutionnelleUne méthode d'entraînement des modèles d'IA basée sur un ensemble de principes explicites, dans laquelle le modèle critique ses propres réponses plutôt que de s'appuyer uniquement sur des évaluateurs humains. : l’architecture alternative d’Anthropic

L’IA constitutionnelle (CAI, Constitutional AI) d’Anthropic modifie ce pipeline de manière significative. Au lieu de s’appuyer uniquement sur des annotateurs humains pour le signal de préférence, la CAI utilise un processus en deux phases :

Phase 1 (Critique et révision) : Le modèle génère une réponse, puis est invité à critiquer cette réponse par rapport à un ensemble de principes écrits (la « constitution »). Il révise ensuite sa réponse sur la base de sa propre critique. Cela produit des données d’entraînement améliorées sans nécessiter d’annotateurs humains pour chaque exemple.

Phase 2 (Apprentissage par renforcement à partir de retours d’IA) : Au lieu d’entraîner le modèle de récompense sur des comparaisons humaines, l’IA elle-même évalue quelle des deux sorties adhère le mieux à la constitution. Cette étape RLAIF (reinforcement learning from AI feedback) réduit la dépendance aux annotateurs humains, bien que la supervision humaine reste présente dans la conception de la constitution et dans les tests adversariaux.

En janvier 2026, Anthropic a publié une constitution considérablement élargie. Le document établit une hiérarchie de priorité en quatre niveaux : sécurité (maintien de la supervision humaine de l’IA), éthique (démonstration de bonnes valeurs), conformité (suivi des directives d’Anthropic) et utilité (assistance réelle aux utilisateurs). La constitution complète fait environ 80 pages et représente le document d’alignement public le plus détaillé publié par tout grand laboratoire d’IA.

La différence architecturale clé : dans le RLHF standard, la politique de contenu est implicite dans les préférences des annotateurs. Dans la CAI, elle est explicite dans la constitution. Cela la rend plus vérifiable, plus cohérente et plus transparente, bien que cela n’élimine pas le problème de qui rédige la constitution et dont les valeurs elle encode.

La chaîne d’approvisionnement de l’annotation

Le pipeline RLHF standard nécessite d’énormes volumes de jugement humain. Quelqu’un doit évaluer des milliers de paires de sorties, étiqueter des contenus nuisibles et évaluer des cas limites. L’économie de ce travail a créé une chaîne d’approvisionnement mondiale que la plupart des utilisateurs ne voient jamais.

L’enquête de TIME en 2023 a documenté que le contrat d’OpenAI avec Sama impliquait environ une trentaine de travailleurs à Nairobi, répartis en équipes se concentrant respectivement sur les abus sexuels, les discours haineux et la violence. Les travailleurs lisaient et étiquetaient entre 150 et 250 passages par quart de neuf heures, pour des salaires compris entre 1,32 et 2 dollars de l’heure. Le coût psychologique était suffisamment grave pour que Sama résilie le contrat huit mois avant son terme prévu.

Ce n’est pas un arrangement isolé. La recherche de la Brookings Institution sur le travail de données d’IA dans le Sud global documente un schéma structurel : le travail cognitif qui façonne le comportement de l’IA est systématiquement externalisé vers des régions où les coûts de main-d’oeuvre sont les plus bas et les protections des travailleurs les plus faibles. La plateforme Remotasks de Scale AI opère au Kenya, aux Philippines et dans d’autres pays, avec des travailleurs qui dans certains cas ne savaient pas initialement quelles entreprises leur travail d’étiquetage servait.

Les directives d’annotation que ces travailleurs suivent sont la traduction opérationnelle de la politique de contenu d’une entreprise. Elles précisent ce qui est nuisible, offensant ou inacceptable. Mais les directives d’annotation sont des documents d’entreprise, pas des documents publics. Aucune grande entreprise d’IA n’a publié ses critères d’annotation complets. Nous connaissons les principes (d’après des documents comme le Model Spec d’OpenAI et la constitution d’Anthropic). Nous ne connaissons pas les instructions spécifiques données à la personne à Nairobi qui décide si une sortie particulière sur un sujet politiquement sensible doit être évaluée comme nuisible.

Cela est important parce que le modèle de récompense, et donc le comportement du modèle déployé, reflète les jugements agrégés de ces travailleurs. Si les directives d’annotation sont culturellement spécifiques (rédigées par des équipes américaines, reflétant des normes discursives américaines), le comportement du modèle résultant intégrera ces hypothèses culturelles à l’échelle mondiale. Une question anodine dans une culture peut déclencher un refus parce qu’elle ressemble à quelque chose qui a été signalé comme nuisible dans le contexte d’annotation.

La hiérarchie du Model Spec et ses lacunes

Le Model Spec d’OpenAI (révision de décembre 2025) établit une hiérarchie d’instructions à cinq niveaux : racine (règles inviolables d’OpenAI), système (règles OpenAI pouvant varier selon le contexte), développeur (instructions des clients API), utilisateur (requêtes des utilisateurs finaux) et directive (paramètres par défaut pouvant être implicitement remplacés).

Les restrictions de contenu sont classées en :

  • Interdit (jamais généré en aucune circonstance) : pédopornographie, instructions opérationnelles spécifiques pour des armes CBRN (chimiques, biologiques, radiologiques et nucléaires)
  • Restreint (non généré sauf en transformation de contenu fourni par l’utilisateur) : informations détaillées permettant des activités illicites, manipulation politique ciblée, données personnelles privées
  • Sensible (autorisé dans des contextes éducatifs, médicaux ou créatifs) : contenu érotique, violence graphique, contenu extrémiste, discours haineux

Ce cadre est plus détaillé que tout ce que Google a publié sur Gemini. Mais il présente une lacune significative : la catégorie « sensible » est dépendante du contexte, et le modèle doit inférer ce contexte à partir de la conversation. Un professionnel médical posant une question sur les interactions médicamenteuses et un adolescent posant la même question devraient, en théorie, recevoir des réponses différentes. En pratique, le modèle ne peut souvent pas distinguer ces contextes de manière fiable, et opte pour l’interprétation la plus restrictive par défaut.

La fenêtre d’Overton comme artefact d’entraînement

La fenêtre d’Overton (Overton window), la gamme d’idées considérées comme acceptables dans le discours courant, n’est pas une loi naturelle. Elle évolue dans le temps, varie selon les cultures et est activement contestée. Quand les annotateurs évaluent les sorties des modèles, leurs jugements reflètent inévitablement la position qu’ils perçoivent de cette fenêtre. Le contenu qui tombe en dehors de ce qu’ils considèrent comme un discours courant acceptable reçoit une note plus basse, produisant un modèle qui évite ce contenu.

Les données empiriques pour cet effet sont croissantes. Des chercheurs du projet Future of Free Speech de l’Université Vanderbilt ont testé 140 questions sur des sujets politiques et sociaux contestés sur les principaux chatbots et ont trouvé des refus dans environ 40 % des cas. De manière cruciale, les refus étaient asymétriques : les chatbots refusaient systématiquement de générer des arguments pour un côté d’un débat politique tout en acceptant volontiers de générer des arguments pour l’autre côté. Ce n’est pas un filtrage de sécurité neutre ; c’est une prise de position encodée dans les poids du modèle et invisible pour les utilisateurs.

Le cas d’utilisation académique est celui où cela crée le plus de friction. La recherche légitime sur l’extrémisme, la propagande, les mouvements politiques controversés ou les sujets tabous se heurte régulièrement à des refus de modèles qui ne peuvent pas être distingués des restrictions de sécurité. Un politologue étudiant la rhétorique fasciste reçoit le même refus poli que quelqu’un essayant de générer de la propagande. Le modèle, ayant été entraîné à éviter la sortie plutôt qu’à évaluer l’intention, ne peut pas faire la différence.

DeepSeek démontre le point d’aboutissement de cette logique. NBC News a documenté comment le modèle chinois commence à générer des réponses à des questions politiquement sensibles (Tiananmen, Xi Jinping, Taiwan), puis s’autocensure visiblement, effaçant sa propre sortie et la remplaçant par une déflexion. La censure n’est pas un filtre ; c’est un comportement entraîné, indiscernable en termes de mécanisme des refus pilotés par le RLHF dans les modèles occidentaux. L’échelle et l’intention diffèrent énormément. L’architecture technique, non.

L’échec de génération d’images de Gemini en février 2024 a illustré le problème de la fenêtre d’Overton sous une autre dimension. Les instructions internes pour augmenter la diversité dans les images générées ont produit des résultats si éloignés de la réalité historique (nazis racialement diversifiés, Pères fondateurs non-blancs) que Google a dû suspendre toute la fonctionnalité. L’incident a révélé que des instructions de façonnage du contenu étaient injectées dans le pipeline de génération à l’insu des utilisateurs, et que ces instructions étaient trop approximatives pour gérer les nuances contextuelles.

Le vide réglementaire

Aucune juridiction n’exige actuellement que les entreprises d’IA divulguent leurs politiques de contenu en détail, publient leurs directives d’annotation, expliquent les refus spécifiques ou soumettent leurs processus d’alignement à un audit indépendant.

L’AI Act de l’UE, dont la mise en oeuvre progressive a commencé en 2025, classe les modèles d’IA à usage général et impose des obligations de transparence incluant la documentation technique, la conformité au droit d’auteur et l’évaluation des risques systémiques pour les modèles les plus capables. Mais ses exigences de transparence ne s’étendent pas aux décisions spécifiques de contenu encodées dans le comportement du modèle. Une entreprise doit divulguer ce que son modèle peut faire ; elle n’a pas à divulguer ce que son modèle a été entraîné à supprimer.

C’est, comme l’Index on Censorship l’a noté, un nouveau type de contrôle de l’information : non pas une censure gouvernementale au sens traditionnel, mais une curation privée de l’accès à l’information à grande échelle, mise en oeuvre par l’entraînement plutôt que par le filtrage, et invisible pour les personnes qu’elle affecte.

L’analogie la plus proche reste celle qui a ouvert cet article : une politique de contenu IA qui fonctionne comme un moteur de recherche avec des requêtes interdites secrètes. Mais même cette analogie sous-estime le problème. Un moteur de recherche qui ne renvoie aucun résultat rend au moins l’absence visible. Un modèle d’IA entraîné à éviter un sujet peut rediriger, esquiver ou produire une alternative plausible qui ne donne aucune indication que quelque chose a été supprimé. Le problème de sycophantisme dans les LLM (les modèles qui disent aux utilisateurs ce qu’ils veulent entendre plutôt que ce qui est exact) interagit avec la politique de contenu d’une manière véritablement difficile à démêler : le modèle évite-t-il un sujet en raison d’une politique de sécurité, d’un artefact d’entraînement, ou parce qu’accepter le cadrage de l’utilisateur est la voie de moindre résistance ?

Ce que nécessiterait une vraie transparence de la politique de contenu des IA

Un cadre de transparence significatif pour la politique de contenu des IA devrait aborder plusieurs niveaux :

  • Publication des politiques : Les politiques de contenu complètes (pas seulement des résumés) mises à la disposition des utilisateurs, incluant les catégories spécifiques de contenu restreint et la justification de chaque restriction. La constitution d’Anthropic et le Model Spec d’OpenAI sont des étapes partielles dans cette direction.
  • Divulgation des directives d’annotation : Les instructions réelles données aux évaluateurs humains qui façonnent le comportement du modèle. Ce sont les documents opérationnels qui traduisent les principes abstraits en signaux d’entraînement concrets.
  • Explication des refus : Quand un modèle refuse une requête, une indication de si le refus est basé sur une politique stricte, un paramètre par défaut souple ou un jugement contextuel, et quelle est la politique concernée.
  • Audit : Un examen indépendant des processus d’entraînement, des directives d’annotation et du comportement du modèle, analogue à l’audit financier ou à l’audit algorithmiqueExamen structuré du comportement réel d'un algorithme de recommandation, qui teste quels contenus il amplifie et compare les résultats aux objectifs déclarés ou aux préférences des utilisateurs. dans le cadre du Digital Services Act de l’UE.
  • Représentation culturelle : Divulgation des données démographiques et de la répartition géographique des effectifs d’annotation, car les cadres culturels de ces travailleurs influencent directement le comportement du modèle.

Début 2026, aucune entreprise ne répond à tous ces critères. Anthropic, avec sa constitution publiée et sa documentation publique relativement détaillée, s’en approche le plus. Le Model Spec d’OpenAI couvre partiellement la publication des politiques. Google reste le moins transparent des trois grands laboratoires d’IA occidentaux en ce qui concerne l’architecture d’alignement de Gemini.

Divulgation commerciale

La question de ce que les modèles d’IA aborderont ou non n’est pas purement académique. Si vous vous êtes retrouvé frustré par des refus sur des sujets que vous considérez légitimes, vous n’êtes pas seul, et le marché a répondu.

Si vous souhaitez essayer une IA sans garde-fous, Uncensored AI propose des conversations sans filtre. (Lien affilié : nous percevons une commission sans coût pour vous.)

Nous mentionnons cela non pas comme une approbation de la suppression de toutes les mesures de sécurité (les catégories absolues existent pour de bonnes raisons), mais parce que l’existence d’une demande pour une IA moins restreinte est en soi la preuve que les politiques de contenu actuelles ne répondent pas aux besoins de certains utilisateurs légitimes. La bonne réponse n’est pas de prétendre que cette demande n’existe pas ; c’est de pousser pour des normes de transparence qui rendent les restrictions lisibles, contestables et responsables.

Qu'avez-vous pensé de cet article ?
Partager cet article

Une erreur ? Signalez-la

Sources