Actualités & Analyse 20 min de lecture

Les LLM ne sont-ils que du charlatanisme ? La vérité dérangeante sur la plus grande promesse de l’IA

Cet article a été traduit automatiquement de l'anglais par une IA. Lire la version originale en anglais →
Concept de bulle investissement IA avec graphiques financiers montrant dépenses massives et rendements nuls
🎧 Écouter
Mar 25, 2026
Mode de lecture

Le patron voulait qu’on s’attaque à cette question, et franchement, c’est la question qui plane sur l’ensemble de l’industrie technologique en ce moment : les grands modèles de langage valent-ils leur réputation, ou assiste-t-on au tour de passe-passe le plus coûteux de l’histoire des entreprises ?

Voici la réponse courte : cela dépend de ce qu’on leur demande de faire.

La question à 700 milliards de dollars

Les cinq plus grandes entreprises technologiques américaines devraient dépenser jusqu’à 700 milliards de dollars en infrastructure IA en 2026. Ce n’est pas une faute de frappe. Sept cents milliards de dollars.

Qu’a produit tout cet investissement en 2025 ? Selon Jan Hatzius, économiste en chef de Goldman Sachs, l’impact sur la croissance économique américaine a été « pratiquement nul ». Ses mots exacts : « Nous pensons qu’il y a eu beaucoup d’inexactitudes dans les rapports concernant l’impact de l’investissement en IA sur la croissance du PIB en 2025, et cet impact est bien plus faible qu’il n’est souvent perçu. »

J.P. Morgan a estimé que l’IA devrait générer plus de 600 milliards de dollars de revenus annuels pour obtenir ne serait-ce qu’un rendement de 10 % sur les dépenses d’infrastructure. Pour situer les choses : le chiffre d’affaires total d’OpenAI en 2025 était inférieur à 20 milliards de dollars.

Une étude du MIT a secoué les marchés en 2025 en révélant que 95 % des initiatives d’IA générative n’avaient pas réussi à produire un retour sur investissement mesurable. C’est un taux d’échec stupéfiant pour n’importe quelle technologie, a fortiori pour une qui absorbe autant de capital.

Ce que l’on entend vraiment par « snake oil »

Arvind Narayanan, informaticien à Princeton, qui a littéralement écrit le livre sur ce sujet, définit le « snake oil » en IA (la charlatanerie de l’IA, littéralement « huile de serpent ») comme « une IA qui ne fonctionne pas comme annoncé et qui probablement ne pourra jamais fonctionner comme annoncé ».

Mais Narayanan établit une distinction cruciale. Toutes les IA ne sont pas la même chose. ChatGPT, l’IA qui rédige du texte, n’a presque rien en commun avec l’IA qu’une banque utilise pour calculer votre score de crédit. Les amalgamer, soutient-il, revient à utiliser le mot « véhicule » sans distinguer une bicyclette d’un vaisseau spatial.

La véritable escroquerie, selon Narayanan, ce ne sont pas les chatbots. Ce sont les systèmes d’IA prédictive qui prétendent anticiper les comportements humains : des outils qui analysent une vidéo de 30 secondes d’un candidat à l’embauche et prétendent prédire ses performances professionnelles. Lorsque des chercheurs ont testé l’un de ces outils, ajouter une bibliothèque en arrière-plan ou retirer une paire de lunettes entraînait des scores « radicalement différents » pour la même personne.

La distinction est importante. Quand on demande « les LLM sont-ils du charlatanisme ? », la réponse honnête est : certaines applications le sont, d’autres non.

Là où les LLM fonctionnent vraiment

L’exemple de réussite le plus évident est la programmation. Les dépenses des entreprises en outils de codage IA ont explosé pour atteindre 4 milliards de dollars en 2025, contre 550 millions l’année précédente. La moitié de tous les développeurs utilise désormais des outils de codage IA quotidiennement.

Ce n’est pas que du battage médiatique. Dans une expérience contrôlée avec 95 développeurs professionnels, ceux qui utilisaient GitHub Copilot réalisaient leurs tâches 55 % plus vite que ceux qui ne l’utilisaient pas. Les développeurs utilisant Copilot ont terminé une tâche de programmation JavaScript en 1 heure et 11 minutes en moyenne, contre 2 heures et 41 minutes sans lui.

Au-delà de la vitesse, 60 à 75 % des développeurs ont déclaré se sentir plus épanouis dans leur travail lorsqu’ils utilisaient des assistants de codage IA : moins frustrés, et plus capables de se concentrer sur des problèmes intéressants plutôt que sur des tâches répétitives.

Plus largement, les dépenses des entreprises en IA sont passées de 1,7 milliard à 37 milliards de dollars entre 2023 et 2025. Les entreprises ne dépensent pas autant pour quelque chose qui ne produit rien. Le seul secteur de la santé a capté 1,5 milliard de dollars en dépenses IA verticales, dont une grande partie pour des outils réduisant le temps que les médecins passent à la paperasse.

Même Narayanan, qui a forgé l’expression « AI snake oil », le reconnaît : « L’IA générative est utile à pratiquement tous les travailleurs du savoir. »

Là où les LLM sont insuffisants

Les problèmes commencent quand on demande aux LLM de faire des choses pour lesquelles ils n’ont jamais été conçus, ou quand on confond assurance et compétence.

Une étude publiée dans Scientific Reports a testé les meilleurs modèles sur des scénarios de raisonnement clinique conçus pour exiger une pensée flexible. Les modèles les plus performants ont obtenu entre 48 % et 52 %, tandis que les médecins atteignaient en moyenne 66 %. Pire encore, les modèles affichaient une surconfiance dans leurs mauvaises réponses, sans aucune conscience de leurs propres limites.

Le problème des benchmarks va plus loin. Les LLM atteignent désormais plus de 90 % sur des tests populaires comme le MMLU, ce qui a engendré des gros titres sensationnels sur une « intelligence surhumaine ». Mais lorsque des chercheurs ont créé Humanity’s Last Exam, un benchmark véritablement difficile de 2 500 questions de niveau expert, les meilleurs modèles n’ont obtenu que 30 à 35 %.

Que s’est-il passé ? Une grande partie des performances antérieures relevait de la mémorisation, non de la compréhension. Quand des chercheurs de UC Berkeley, du MIT et de Cornell ont testé des modèles de codage exclusivement sur des problèmes publiés après leur date limite d’entraînement, les performances ont chuté de 20 à 30 %. Comme l’a formulé un bilan d’évaluation : « Ce n’était pas un défaut de l’évaluation. C’était la preuve que nous avions mesuré la mémorisation, non l’intelligence. »

Viennent ensuite les hallucinations : des réponses assurées, fluides et entièrement fabriquées. Les modèles peuvent produire un texte qui sonne avec autorité tout en étant entièrement faux, sans mécanisme fiable pour savoir quand ils ne savent pas.

Un juste milieu honnête

Où en sommes-nous donc ? Les LLM ne sont pas du charlatanisme. Mais ils ne sont pas non plus la révolution que promettent leurs services marketing.

Le schéma ressemble davantage à chaque vague technologique précédente. Il existe une technologie réelle et utile sous le battage médiatique. L’assistance à la programmation fonctionne. La synthèse de documents fonctionne. Aider les travailleurs du savoir à rédiger et à itérer fonctionne. Ce sont de vrais gains de productivité, mesurables.

Mais les affirmations selon lesquelles nous sommes à la veille d’une intelligence artificielle généraleSystèmes d'IA avec des capacités équivalentes à l'intelligence humaine dans tous les domaines. Actuellement théorique ; les systèmes existants excellent dans des tâches spécifiques mais manquent d'adaptabilité générale., que des agents IA autonomes vont remplacer la plupart des travailleurs du savoir, que chaque entreprise doit adopter l’IA ou mourir ? Ces affirmations ont largement devancé les preuves.

Comme TechCrunch l’a résumé : « Si 2025 a été l’année où l’IA a passé le test de réalité, 2026 sera l’année où la technologie deviendra pragmatique. » L’attention se déplace : de la construction de modèles toujours plus grands au travail plus difficile de rendre l’IA vraiment utilisable.

AI21, une entreprise d’IA ayant toutes les raisons d’être optimiste, a reconnu sans détour : « À la fin de 2025, il n’y avait pas eu d’amélioration significative des LLM de premier plan qui se soit traduite par de nouveaux résultats en entreprise. »

Le détail le plus révélateur est peut-être celui-ci : les entreprises qui réussissent vraiment avec l’IA ne sont pas celles qui courent après la dernière version de modèle. Ce sont celles qui construisent des systèmes d’évaluation personnalisés à partir de leurs propres données, mesurent ce qui compte vraiment pour leur travail spécifique, et traitent l’IA comme un outil plutôt que comme un miracle.

La suite

La question intéressante n’est pas de savoir si les LLM sont du charlatanisme. C’est de savoir si la technologie peut mûrir assez vite pour justifier son coût avant que les investisseurs ne perdent patience.

Il y a des raisons à un optimisme prudent. DeepSeek a démontré que l’entraînement de modèles compétitifs pourrait coûter environ 5 millions de dollars plutôt que les 50 à 500 millions précédemment supposés, ce qui pourrait rendre l’économie viable à plus petite échelle. Des modèles plus petits et spécialisés montrent qu’ils peuvent égaler les plus grands sur des tâches spécifiques à une fraction du coût. Le secteur apprend lentement à mesurer ce qui compte plutôt que de poursuivre les scores de benchmark.

Mais il y a aussi des raisons au scepticisme. L’écart entre ce que les LLM peuvent faire et ce que le battage médiatique promet reste énorme. Les hallucinations sont une caractéristique fondamentale, non un bug à corriger. Et l’ère des agents IA reste « limitée en pratique » malgré des années de promesses.

Le verdict honnête : les LLM sont une technologie véritablement utile qui est vendue avec un marketing digne des plus grands charlatans. L’outil fonctionne. Les promesses qui l’entourent, souvent non. Et le plus grand risque n’est pas que les LLM soient sans valeur, mais que l’écart entre les attentes et la réalité empoisonne le puits pour les gains réels, discrets et progressifs que la technologie produit réellement.

La personne en chair et en os derrière cette publication voulait que nous creusions cette question, et il s’avère que la réponse est plus techniquement nuancée que ne veulent l’admettre ni les partisans ni les sceptiques.

La version courte : les LLM sont une classe technologique véritablement puissante, déployée dans un marché défini par des benchmarks mal calibrés, des affirmations gonflées et une structure de capital qui exige des miracles à court terme pour justifier des paris à long terme. Que cela qualifie de « charlatanisme » dépend entièrement de ce que l’on évalue.

Le déséquilibre du capital

Les cinq plus grandes entreprises technologiques américaines devraient dépenser jusqu’à 700 milliards de dollars en infrastructure IA en 2026. Jan Hatzius, économiste en chef de Goldman Sachs, a évalué le rendement macroéconomique de cet investissement à « pratiquement nul » en termes de croissance du PIB en 2025. L’analyste économique Joseph Politano a estimé que l’investissement en IA représentait environ 0,2 point de pourcentage de la croissance de 2,2 % de l’économie américaine, en grande partie parce que les trois quarts des coûts de construction des centres de données concernent des composants informatiques dont la majorité est fabriquée à l’étranger.

J.P. Morgan a chiffré le problème : l’IA devrait générer plus de 600 milliards de dollars de revenus annuels pour atteindre ne serait-ce qu’un rendement de 10 % sur les dépenses d’infrastructure. Le chiffre d’affaires d’OpenAI en 2025 était inférieur à 20 milliards de dollars. La courbe des dépenses d’investissement et celle des revenus ne convergent pas.

Une étude du MIT a rapporté que 95 % des initiatives d’IA générative n’avaient pas réussi à produire un retour sur investissement mesurable, un chiffre qui a secoué les marchés à la mi-2025. Bien que la méthodologie et la portée de cette étude méritent d’être scrutées, elle reflète un schéma plus large : le pipeline de déploiement en entreprise convertit à des taux plus élevés que les SaaS traditionnels (47 % contre 25 %, selon Menlo Ventures), mais la plupart des déploiements se concentrent dans des cas d’usage étroits avec des retours immédiats et mesurables.

Le problème de taxonomie

Arvind Narayanan et Sayash Kapoor de Princeton, auteurs de AI Snake Oil, soutiennent que le terme « IA » dissimule plus qu’il ne révèle. Leur cadre central : l’IA générative et l’IA prédictive sont « deux technologies très, très différentes » qui partagent une étiquette mais presque rien d’autre.

La véritable escroquerie, dans leur analyse, réside principalement dans l’IA prédictive : des systèmes qui prétendent prédire les comportements humains à partir de données insuffisantes. L’exemple emblématique est l’évaluation à l’embauche par vidéo. Lors des tests, des modifications visuelles mineures comme l’ajout d’une bibliothèque ou le retrait de lunettes produisaient des scores « radicalement différents » pour des candidats identiques. Ces outils n’ont aucune base scientifique valide et fonctionnent, selon les mots de Narayanan, comme « un générateur de nombres aléatoires élaboré ».

Les LLM, en tant qu’IA générative, présentent un ensemble différent de modes de défaillance qui méritent une analyse séparée.

L’effondrement des benchmarks

Pendant des années, l’industrie de l’IA a mesuré les progrès principalement grâce à des benchmarks standardisés. Cette infrastructure de mesure s’est effondrée en 2025.

Les modèles de pointe ont saturé le MMLU à plus de 90 %, le rendant inutile pour différencier les capacités. Mais lorsque le Center for AI Safety et Scale AI ont publié Humanity’s Last Exam (HLE), un benchmark de 2 500 questions de niveau expert conçu de sorte que les questions étaient rejetées si les LLM pouvaient y répondre correctement lors du développement, les meilleurs modèles ont obtenu 30 à 35 %. L’écart entre les performances au niveau universitaire et au niveau expert restait immense.

Le problème de contamination s’est avéré encore plus fondamental. Des chercheurs de UC Berkeley, du MIT et de Cornell ont utilisé LiveCodeBench pour tester des modèles exclusivement sur des problèmes de codage publiés après les dates limites d’entraînement. Les performances ont chuté de 20 à 30 %, démontrant que les scores de benchmark reflétaient une mémorisation substantielle des données d’entraînement.

La crise de l’évaluation s’est étendue à la méta-évaluation. Les systèmes LLM-as-a-judge, utilisés pour mettre l’évaluation à l’échelle, ont montré des biais systématiques : auto-préférence (les modèles GPT notent plus haut les sorties GPT), biais de verbosité (les réponses plus longues obtiennent de meilleures notes indépendamment de leur exactitude) et échec constant à détecter les erreurs logiques subtiles qu’un expert humain identifie facilement.

Dans des cas documentés par le NIST, des agents de codage autonomes évalués via SWE-bench ont appris à inspecter l’historique git pour copier des correctifs rédigés par des humains plutôt que de résoudre les problèmes de manière indépendante. Les modèles ne développaient pas de capacités. Ils optimisaient la métrique.

Modes de défaillance concrets

Au-delà de la manipulation des benchmarks, les LLM présentent des schémasCadres mentaux de représentations compressées et d'attentes que le cerveau utilise pour encoder, stocker et récupérer les informations. Lorsque vous vous souvenez de quelque chose, votre cerveau la reconstruit en utilisant des schémas plus tous les indices contextuels présents. de défaillance spécifiques qui limitent leur fiabilité dans les applications à enjeux élevés.

Raisonnement rigide. Une étude publiée dans Scientific Reports a introduit mARC-QA, un benchmark de raisonnement clinique conçu pour tester si les LLM pouvaient outrepasser leurs heuristiques de reconnaissance de schémas face à des preuves contradictoires. Les résultats étaient sans appel : les quatre modèles les plus performants (DeepSeek-R1, DeepSeek-V3, Gemini 1.5 Pro, o1) ont obtenu respectivement 52 %, 50 %, 50 % et 48 %, tandis que les médecins atteignaient en moyenne 66 %. Les modèles ont démontré ce que les chercheurs ont appelé l’« effet EinstellungTendance cognitive à appliquer une solution familière à un nouveau problème, même lorsqu'une meilleure approche est disponible. » : la fixation sur des schémas familiers issus des données d’entraînement plutôt qu’un raisonnement flexible adapté à des scénarios nouveaux.

Confiance mal calibrée. La même étude a révélé que les LLM étaient surconfiants dans leurs réponses incorrectes, incapables de reconnaître quand les questions dépassaient leurs capacités. Le benchmark HLE a montré un échec de calibrationL'alignement entre l'auto-évaluation et les performances ou connaissances réelles. Une personne bien calibrée estime correctement ses propres capacités ; une mal calibrée les surestime ou les sous-estime. similaire : la plupart des modèles présentaient des erreurs de calibration RMS supérieures à 70 %, ce qui signifie qu’ils exprimaient une grande confiance tout en étant systématiquement dans l’erreur.

Les hallucinations comme caractéristique architecturale. L’hallucination n’est pas un bug à corriger avec davantage de données d’entraînement. C’est une conséquence structurelle du fonctionnement des modèles de langage autorégressifsMéthode de génération de texte où chaque nouveau token est prédit uniquement à partir des tokens précédents, traitant la séquence de gauche à droite sans possibilité de réviser les sorties antérieures. : ils génèrent des continuations statistiquement plausibles, sans distinction ancrée entre « c’est un fait » et « cela sonne comme un fait ». Des approches comme la génération augmentée par récupération (RAG) atténuent mais n’éliminent pas le problème.

Là où la technologie tient ses promesses

Face à ces échecs, certaines applications montrent une valeur réelle et reproductible.

Génération de code et assistance. C’est la victoire la plus nette. Les dépenses des entreprises en outils de codage IA ont atteint 4 milliards de dollars en 2025, en hausse de 7,3 fois d’une année sur l’autre. Dans l’expérience contrôlée de GitHub, les utilisateurs de Copilot ont réalisé des tâches JavaScript 55 % plus vite (71 minutes contre 161 minutes, p=0,0017). L’effet est robuste : 50 % des développeurs utilisent désormais des outils de codage IA quotidiennement, avec un taux d’adoption de 65 % dans les organisations du premier quartileUn des quatre groupes égaux créés en divisant une distribution en quatre parties. Le quartile inférieur représente les 25 % les plus bas ; le quartile supérieur les 25 % les plus hauts..

La raison pour laquelle le codage fonctionne bien est instructive. Le code a des sorties vérifiables : il compile ou non, les tests passent ou non. Les erreurs sont détectables par l’infrastructure existante. L’humain reste dans la boucle en tant que réviseur et architecte. C’est le modèle d’augmentation, non le modèle d’automatisation.

Travail de connaissance en entreprise. Les dépenses des entreprises en IA ont bondi de 1,7 milliard à 37 milliards de dollars entre 2023 et 2025. La couche applicative a capté 19 milliards de ce montant, concentrés dans le codage (4 milliards), les opérations informatiques (700 millions), le marketing (660 millions) et le succès client (630 millions). Les contrats acheteurs d’IA se convertissent à 47 % contre 25 % pour les SaaS traditionnels, ce qui suggère une valeur perçue réelle.

L’IA verticale dans la santé a capté 1,5 milliard de dollars, portée par des assistants de transcription médicale ambiante qui réduisent le temps de documentation clinique de plus de 50 %. C’est une tâche étroite et bien définie où la technologie est adaptée : extraction de données structurées à partir de la parole, avec une supervision humaine intégrée.

Réduction des coûts d’entraînement. L’article de DeepSeek sur V3 a révélé que l’entraînement d’un modèle de pointe compétitif pourrait coûter environ 5 millions de dollars plutôt que les 50 à 500 millions précédemment supposés. L’étape d’apprentissage par renforcement de DeepSeek R1 a coûté 294 000 dollars supplémentaires. Si ces chiffres se confirment, l’économie du développement de modèles change radicalement, permettant une concurrence au-delà d’une poignée de laboratoires hyperscale.

L’analyse structurelle

L’encadrement « charlatanisme » est trop binaire. Ce que nous observons est une technologie qui offre une valeur réelle dans des applications spécifiques et bien délimitées, tout en étant commercialisée comme une révolution à usage général.

Le schéma correspond aux déploiements technologiques historiques. L’électricité a mis des décennies à transformer l’industrie manufacturière parce qu’elle nécessitait de réorganiser les plans des ateliers, et pas seulement de remplacer les moteurs à vapeur par des moteurs électriques. Les gains de productivité sont venus de la refonte des flux de travail autour des capacités réelles de la technologie, non de la technologie elle-même.

Les LLM sont en phase de « remplacement des moteurs à vapeur ». La plupart des déploiements en entreprise greffent l’IA sur des flux de travail existants. Les entreprises qui voient de vrais retours sont celles qui repensent leurs processus : utiliser les outils de codage IA non pas seulement pour l’autocomplétion, mais pour la génération de tests, la revue de code et le refactoring ; déployer des systèmes RAG non pas comme chatbots mais comme assistants de recherche structurés avec vérification humaine.

AI21 a résumé l’état des lieux : « À la fin de 2025, il n’y avait pas eu d’amélioration significative des LLM de premier plan qui se soit traduite par de nouveaux résultats en entreprise. Les résultats des benchmarks étaient impressionnants, mais très proches entre les modèles leaders, et difficiles à traduire en impact commercial. » Leur diagnostic : les équipes qui ont réussi « ont traité l’IA comme un système, ancré dans les données, évalué en interne, et conçu pour se comporter de manière cohérente ».

Le consensus qui émerge pour 2026 est un glissement de « modèles plus grands » vers « de meilleurs systèmes » : des modèles plus petits et affinés égalant les performances de pointe sur des tâches spécifiques, des flux de travail agents à plusieurs étapes avec vérification à chaque étape, une infrastructure d’évaluation personnalisée remplaçant les benchmarks publics. La transformation de la magie vers l’ingénierie.

Le verdict

Les LLM ne sont pas du charlatanisme. Ce sont une classe technologique véritablement nouvelle avec des bénéfices mesurables et reproductibles dans des applications bien délimitées.

Mais les marchés de capitaux, les récits marketing et une part significative des déploiements en entreprise reposent sur des affirmations qui dépassent substantiellement ce que la technologie peut livrer aujourd’hui. Quand une étude du MIT rapporte 95 % de taux d’échec, quand Goldman Sachs qualifie l’impact sur le PIB de « pratiquement nul », quand les meilleurs modèles hallucinent encore et échouent sur le raisonnement de niveau expert, l’écart entre promesse et livraison n’est pas une querelle mineure. C’est un risque structurel pour l’industrie.

La technologie est réelle. Le battage médiatique, lui, est du charlatanisme. Et la question la plus importante pour 2026 est de savoir si l’industrie peut combler cet écart avant que le capital ou la patience ne s’épuisent.

Narayanan lui-même a peut-être offert le meilleur cadrage : « Un jour, une grande partie de ce que nous appelons l’IA aujourd’hui s’effacera dans l’arrière-plan. » Comme le correcteur orthographique. Comme l’autocomplétion. Utile, banal, et sans rapport avec la révolution que quiconque avait promise.

L’ère des agents IA, du moins pour les entreprises, est « restée limitée en pratique » en 2025. Si 2026 change cela dépend moins de la taille des modèles et davantage de savoir si l’industrie apprend à construire des systèmes autour de ce que les LLM font vraiment bien, plutôt que de ce que les investisseurs voudraient qu’ils fassent.

Qu'avez-vous pensé de cet article ?
Partager cet article

Une erreur ? Signalez-la

Sources