Opinion 12 min de lecture

Théâtre de la sécurité de l’IA : quand la protection contre la responsabilité se fait passer pour la réduction des risques

Cet article a été traduit automatiquement de l'anglais par une IA. Lire la version originale en anglais →
AI safety theater: when liability protection masquerades as harm reduction
🎧 Écouter
Mar 13, 2026

Opinion.

Il y a deux questions qu’une entreprise peut se poser lorsqu’elle décide ce que son IA devrait refuser de faire. La première : cette restriction réduit-elle les dommages ? La seconde : cette restriction nous protège-t-elle si quelqu’un est lésé ? Ces questions semblent similaires. Elles produisent des produits très différents, et la différence entre les deux est le fondement du théâtre de la sécurité de l’IA.

L’écart entre l’ingénierie de sécurité authentique et la gestion de responsabilité des entreprises est devenu la tension déterminante du développement de l’IA. Ce qui est commercialisé comme « sécurité de l’IA » relève de plus en plus du théâtre de la sécurité de l’IA : un ensemble de restrictions conçues non pas pour protéger les utilisateurs, mais pour protéger les bilans financiers. La distinction compte parce que ceux qui paient le prix de cette confusion sont les centaines de millions d’utilisateurs qui interagissent quotidiennement avec ces systèmes, et qui les trouvent de plus en plus moins utiles qu’ils ne devraient l’être.

Le costume de la responsabilité

Quand un modèle d’IA refuse de discuter de l’histoire de la Seconde Guerre mondiale, ce n’est pas une décision de sécurité. Personne n’est lésé par un chatbot expliquant le front de l’Est. Quand un modèle refuse de résumer la pharmacologie de médicaments courants, cela ne protège personne de la désinformation médicale ; la même information se trouve en première page de n’importe quel moteur de recherche. Quand Gemini de Google a refusé de générer des images de personnes blanches début 2024, produisant des représentations historiquement inexactes de soldats allemands de l’ère nazie en tant que personnes noires, ce n’était pas une initiative de diversité. C’était un calcul de responsabilité qui avait tellement dépassé sa cible qu’il est devenu une auto-parodie. Le PDG de Google, Sundar Pichai, a qualifié les résultats de « totalement inacceptables » dans une note interne, une reconnaissance tacite que les garde-fous avaient été optimisés pour une fonction objectifEn apprentissage automatique, la formule mathématique qu'un modèle est entraîné à optimiser. Ce que la fonction objectif récompense détermine le comportement du modèle — un mauvais objectif produit des systèmes techniquement performants mais pratiquement inutiles. entièrement erronée.

Ce sont des décisions de responsabilité déguisées en sécurité. Le raisonnement est simple : aucune entreprise n’a jamais fait l’objet d’un procès parce que son IA avait refusé de répondre à une question. De nombreuses entreprises ont subi des crises de relations publiques parce que leur IA avait répondu à une question. La structure d’incitation s’écrit d’elle-même.

Le théâtre de la sécurité de l’IA et l’asymétrie de visibilité

Le problème fondamental du théâtre de la sécurité de l’IA est une asymétrie des preuves. Quand un système d’IA produit une sortie nuisible, cette sortie est concrète. Elle peut être capturée en capture d’écran, partagée sur les réseaux sociaux, transmise aux journalistes, citée lors d’auditions parlementaires. Elle a du poids. Elle a une URL. Une seule mauvaise réponse d’un chatbot peut devenir une actualité de première page en quelques heures.

Le coût de la sur-restriction est, en revanche, invisible. Un chercheur médical qui obtient une non-réponse inutile sur les interactions médicamenteuses n’écrit pas d’article à ce sujet. Il ferme l’onglet. Un étudiant qui ne peut pas obtenir d’aide pour comprendre une période historique sensible ne dépose pas de plainte. Il trouve une source de moins bonne qualité. Un professionnel de la cybersécurité signalé par un outil de détection d’IA parce qu’il écrit trop clairement n’a ni recours ni audience. Le dommage est réel mais diffus, réparti sur des millions d’interactions qui semblent individuellement triviales et représentent collectivement une perte d’utilité énorme.

Aucun chef de produit n’a jamais été licencié pour une IA trop prudente. Beaucoup l’ont été pour une IA trop permissive. Cette asymétrie ne produit pas de bon jugement. Elle produit un cliquet qui ne tourne que dans un seul sens.

Les personnes qui en feraient réellement un mauvais usage

La justification standard des restrictions agressives de contenu est qu’elles préviennent les abus. Cet argument a un défaut structurel qui devrait être évident mais est rarement reconnu : les personnes les plus motivées à abuser des systèmes d’IA sont, par définition, les plus motivées à contourner les restrictions.

Les 0,1 % d’utilisateurs qui chercheraient véritablement des informations nuisibles à partir d’un modèle d’IA ne sont pas dissuadés par un message de refus. Ils utilisent des jailbreaks. Ils utilisent des modèles open source sans garde-fous. Ils utilisent les dizaines de variantes de modèles « non censurés » disponibles sur Hugging Face. Ils trouvent l’information par d’autres canaux, parce que l’information elle-même n’est pas difficile à trouver. Comme l’ont documenté des chercheurs en sécurité, les filtres de contenu généraux suppriment souvent le travail légitime de cybersécurité tout en ne faisant rien pour empêcher les acteurs de menace réels, qui contournent simplement les restrictions comme une question de routine.

Ce que les restrictions accomplissent réellement, c’est dégrader l’expérience des 99,9 % d’utilisateurs aux besoins légitimes. L’enseignant qui demande de l’aide pour expliquer une atrocité historique complexe reçoit le même refus que l’acteur malveillant hypothétique. Le romancier essayant d’écrire un méchant réaliste est traité comme une menace potentielle. Le chercheur en sécurité testant des défenses se voit interdire l’accès aux outils même dont il a besoin pour protéger les systèmes. Les restrictions sont à la fois inutiles contre leurs cibles déclarées et nuisibles pour tous les autres, une combinaison qui devrait être disqualifiante mais qui reçoit au contraire l’étiquette « IA responsable ».

Sécurité authentique vs. sécurité de responsabilité

Soyons clairs : le véritable travail de sécurité de l’IA existe, et il est important. Empêcher les modèles d’aider à synthétiser de nouvelles armes biologiques est une vraie préoccupation de sécurité. S’assurer que les systèmes autonomes maintiennent une supervision humaine dans les décisions à enjeux élevés est une vraie préoccupation de sécurité. Le refus d’Anthropic de permettre que son modèle Claude soit utilisé pour la surveillance domestique de masse ou des systèmes d’armes entièrement autonomes, ce qui a conduit l’administration Trump à bannir l’entreprise des contrats fédéraux en février 2026, représente une position de sécurité authentique avec des coûts authentiques. Que vous soyez d’accord ou non avec cette ligne spécifique, elle est clairement tracée à un point où un préjudice réel pour de vraies personnes est plausible.

Le problème est que le même mot, « sécurité », couvre à la fois ce type de position de principe et la décision d’empêcher un chatbot d’expliquer comment fonctionnent les serrures. Quand tout est sécurité, rien ne l’est. L’étiquette perd sa capacité à distinguer entre les restrictions qui protègent les personnes et celles qui protègent les résultats trimestriels. Cette confusion sape activement la confiance du public dans la sécurité de l’IA en tant que préoccupation légitime, parce que les utilisateurs vivent constamment les restrictions triviales et jamais les restrictions significatives. Leur expérience vécue de la « sécurité de l’IA » consiste à se faire dire qu’ils ne peuvent pas obtenir la recette d’un cocktail couramment disponible, et ils concluent raisonnablement que toute l’entreprise n’est qu’une mise en scène.

La boucle de rétroaction réglementaire

Le paysage réglementaire émergent menace d’ancrer cette dynamique. Comme les recherches de la RAND Corporation sur la responsabilité de l’IA l’ont documenté, les cadres de responsabilité peuvent créer de véritables incitations à la réduction des dommages lorsqu’ils sont bien conçus, poussant les entreprises à internaliser des coûts qu’elles imposeraient autrement à des tiers. Mais ils peuvent aussi produire ce que les chercheurs en politique publique appellent le « liability-washing » (blanchiment de responsabilité) : adopter des mesures de sécurité principalement pour établir une défense juridique plutôt que pour prévenir les dommages.

La loi européenne sur l’IA (EU AI Act), entrée dans sa phase d’application en 2025, et la loi RAISE de New York (New York RAISE Act), signée fin 2025, imposent toutes deux des exigences de conformité qui pourraient pousser les entreprises vers des pratiques de sécurité substantielles ou vers des rituels de documentation élaborés, selon l’évolution de l’application. Le risque, identifié par l’analyse du Cato Institute sur la réglementation de l’IA et la liberté d’expression, est que des mandats vagues de « sécurité » donnent aux entreprises une couverture juridique pour restreindre les sorties bien au-delà de ce que tout calcul raisonnable de dommages justifierait, parce que l’excès de conformité n’est pas sanctionné tandis que l’insuffisance de conformité l’est.

Le résultat est une boucle de rétroaction. Les entreprises sur-restreignent pour minimiser la responsabilité. Les régulateurs voient les sorties restreintes comme la référence et les codifient. La référence se déplace. Les entreprises restreignent davantage pour rester en avance sur la nouvelle référence. À aucun moment de ce cycle quelqu’un ne demande si les utilisateurs sont réellement plus en sécurité, parce que la sécurité des utilisateurs n’a jamais été la variable optimisée.

À quoi ressemblerait une sécurité authentique

Un cadre de sécurité orienté vers la réduction réelle des dommages serait différent de ce que la plupart des entreprises d’IA livrent actuellement. Il partirait d’un principe simple : les restrictions devraient être proportionnelles à la probabilité et à la gravité du dommage réel, pas à la probabilité et à la gravité du dommage en termes de relations publiques.

Cela signifie accepter qu’un chatbot discutant de la chimie des produits ménagers courants n’est pas un vecteur significatif de dommage, parce que cette information est librement disponible partout. Cela signifie distinguer entre l’information qui est dangereuse parce qu’elle est rare (nouvelles voies de synthèse de substances contrôlées) et l’information qui est dangereuse uniquement dans l’imagination d’un département de conformité (l’article Wikipédia sur les explosifs). Cela signifie reconnaître que le refus d’un système d’IA de s’engager sur un sujet ne rend pas ce sujet inaccessible ; il rend le système d’IA moins utile.

Cela signifie aussi mesurer les coûts de la restriction, pas seulement les coûts de la permission. Chaque requête refusée a un coût. Chaque réponse tronquée a un coût. Chaque utilisateur qui apprend que l’IA ne peut pas être fiable pour s’engager honnêtement sur un sujet complexe et cesse de l’utiliser pour un travail sérieux : c’est un coût. Ces coûts sont difficiles à quantifier précisément, ce qui est exactement la raison pour laquelle ils sont ignorés dans un système qui ne compte que les échecs visibles.

Le problème d’incitation a un nom

Dans la recherche en sécurité, il existe un concept appelé « théâtre de la sécurité » : des mesures qui procurent le sentiment de sécurité sans réduire significativement le risque. La confiscation de bouteilles d’eau par la TSA est l’exemple canonique. Le théâtre de la sécurité de l’IA fonctionne sur le même principe. Le modèle refuse de discuter de quelque chose d’anodin ; l’entreprise pointe le refus comme preuve de responsabilité ; l’utilisateur n’est pas plus en sécurité ; l’entreprise est juridiquement mieux positionnée.

Le terme compte parce qu’il nomme un problème d’incitation structurel plutôt que d’attribuer de la malveillance. La plupart des ingénieurs travaillant sur la sécurité de l’IA sont sincères. La plupart des chefs de produit implémentant des restrictions croient véritablement faire la bonne chose. Le problème n’est pas la mauvaise foi ; c’est un système qui récompense la prudence de manière indiscriminée et punit le risque de manière asymétrique. Des personnes bien intentionnées, agissant rationnellement au sein de structures d’incitation défaillantes, produisent de mauvais résultats. Ce n’est pas une observation nouvelle sur les institutions, mais c’en est une que l’industrie de l’IA a été remarquablement lente à intérioriser.

Tant que la structure d’incitation ne changera pas, tant que la sur-restriction n’entraînera pas des coûts réputationnels et réglementaires comparables à la sous-restriction, le théâtre de la sécurité de l’IA restera la norme. La question est de savoir si l’industrie peut se réformer elle-même avant que le concept de sécurité de l’IA n’érode la confiance du public dans le véritable travail de sécurité qui compte réellement. Compte tenu des risques que les systèmes d’IA avancés poseront dans les années à venir, ce résultat serait pire que n’importe quelle réponse de chatbot capturée en capture d’écran.

Sources

Vous avez repéré une erreur factuelle ? Contactez-nous : contact@artoftruth.org

Partager
Facebook Email