Plus de 340 sites d’information locaux aux États-Unis limitent désormais la capacité de l’Internet Archive à accéder à leurs articles et à les préserver.[s] Il ne s’agit pas d’un simple différend technique. C’est la préservation des archives journalistiques qui s’effondre en temps réel, portée par une réaction paniquée au scraping par les IA qui risque de causer davantage de dommages à long terme que le scraping lui-même.
Le constat est clair : les organisations de presse qui bloquent l’Internet Archive sacrifient leur propre patrimoine historique pour l’illusion d’une protection contre l’IA. Elles accélèrent l’effacement même qu’elles devraient combattre. Les journalistes indépendants qui comprennent cela bâtissent une infrastructure alternative, et ce sont eux dont le travail survivra à la prochaine décennie.
La crise de préservation des archives journalistiques
En janvier 2026, le Nieman Lab signalait que 241 sites d’information dans neuf pays interdisaient explicitement au moins un robot d’exploration de l’Internet Archive.[s] En mai, l’échantillon actualisé du Nieman Lab était passé à 382 sites bloquants, dont 342 locaux. Nombre de ces sites appartiennent à cinq des sept plus grands éditeurs de presse locale : USA Today Co., McClatchy, Advance Local, MediaNews Group et Tribune Publishing. Ces deux derniers sont des filiales d’Alden Global Capital, le fonds spéculatif tristement connu pour le démantèlement des salles de rédaction.
La justification avancée est le scraping par les IA. Le New York Times a déclaré bloquer le robot de l’Internet Archive au motif que la Wayback Machine offre un accès non autorisé à ses contenus, notamment aux entreprises d’IA.[s]
Ce raisonnement comporte une faille rédhibitoire. Comme l’a formulé l’informaticien Michael Nelson : « Common Crawl et Internet Archive sont généralement considérés comme les « bons » et sont utilisés par les « mauvais » comme OpenAI. Dans l’aversion générale à être contrôlé par les LLM, je pense que les bons font les frais de la situation. »[s]
Ces dommages collatéraux, c’est la préservation des archives journalistiques elle-même. Quand un journal local ferme ou change de système de gestion de contenu, la Wayback Machine constitue souvent l’unique trace survivante. En 2024, des milliers d’articles ont disparu de journaux du Massachusetts occidental lors d’une migration de CMS. Quand The Hook, un hebdomadaire de Charlottesville, a fermé en 2012, son site archivé est passé hors ligne une décennie plus tard, effaçant plus de 22 000 articles.[s]
« Bloquer les robots d’exploration de l’Internet Archive menace l’un des moyens les plus efficaces dont nous disposons pour capturer et conserver les contenus journalistiques sur le long terme », a déclaré Edward McCain, bibliothécaire spécialisé en journalisme à l’Université du Missouri. « Aujourd’hui, nous avons peut-être des solutions de contournement, mais à terme, cela fragilise un maillon essentiel des sources primaires dont nous avons besoin pour comprendre d’où nous venons et où nous voulons aller. »[s]
L’histoire se répète : des archives détruites progressivement par négligence
La dynamique est connue. Comme la Bibliothèque d’Alexandrie, dont les collections ont été détruites progressivement par négligence plutôt que par un incendie dramatique, le patrimoine numérique du journalisme s’érode à travers mille petites décisions. Chaque média qui bloque la Wayback Machine, chaque migration de CMS qui perd des hyperliens, chaque fermeture sans transfert d’archives grignote un peu plus le patrimoine public.
Le fondateur de l’Internet Archive, Brewster Kahle, a prévenu que « si les éditeurs limitent les bibliothèques, comme l’Internet Archive, le public aura moins accès au patrimoine historique ».[s]
La professeure de l’Université de New York Meredith Broussard a pointé le problème plus profond : « Toute organisation de presse, surtout les médias locaux, se lance généralement en pensant : « on va mettre des choses sur internet et elles y resteront pour toujours », mais ce n’est pas vrai. Quiconque vous a dit qu’internet durait éternellement vous a menti. »[s]
La riposte décentralisée
Tandis que les groupes de presse restreignent l’accès aux archives, des journalistes indépendants construisent une infrastructure alternative. Selon les données d’impact 2025 de la FFDW, la Filecoin Foundation for the Decentralized Web s’est associée à Fasila pour préserver un journalisme essentiel en soutenant plus de 20 journalistes et en archivant des reportages importants ainsi que les documents numériques associés. Ces matériaux sont stockés sur le réseau Filecoin et rendus accessibles via IPFS grâce à l’archive Alive-In de Fasila.[s]
Ce n’est pas une expérience marginale. Le projet « présente les articles archivés sur une plateforme dédiée, riche en métadonnées, qui favorise la découverte et l’utilisation par les journalistes, chercheurs, enseignants et cinéastes, démontrant ainsi un modèle reproductible pour préserver la mémoire culturelle grâce au stockage décentralisé ».[s]
Dans ces mêmes données 2025, la FFDW a indiqué que sa collaboration avec la Freedom of the Press Foundation a soutenu l’infrastructure, l’expérience utilisateur et les améliorations de sécurité des outils décentralisés utilisés par les journalistes dans le monde entier.[s] Cette collaboration comprend SecureDrop, le système de soumission open source utilisé par les salles de rédaction pour l’échange sécurisé de documents et la communication entre journalistes et sources.
La logique est simple : si les plateformes peuvent vous exclure, et si les archives peuvent vous ignorer, alors la voie durable pour la préservation des archives journalistiques passe par une infrastructure que vous contrôlez.
L’indépendance des plateformes comme stratégie de survie
« Les salles de rédaction reprendront le contrôle de la technologie », a prédit Ben Werdmuller de ProPublica. « La collaboration et les équipes open source indépendantes, alignées sur une mission, créeront des outils répondant aux besoins essentiels des rédactions, notamment la communication sécurisée, l’analyse respectueuse de la vie privée et la distribution durable. »[s]
LaSharah S. Bunting du média The 19th a soutenu que « les salles de rédaction les plus solides en 2026 ne seront pas celles qui courent après chaque évolution de plateforme ou tendance commerciale, mais celles prêtes à survivre à plusieurs futurs simultanément ».[s]
Pour les journalistes à titre individuel, cela signifie reconsidérer la dépendance aux plateformes. Un praticien a prévenu qu’à mesure que Substack gagnait en popularité, il s’est transformé en plateforme sociale plus complète et a commencé à enfermer ses utilisateurs dans un environnement fermé dont il devient plus difficile de sortir.[s]
L’alternative est une infrastructure open source, maîtrisée par l’utilisateur. Le même critique a cité les avantages de Ghost : logiciel open source, contrôle des données par l’utilisateur et support du Fediverse.[s] WordPress, WriteFreely et d’autres options auto-hébergées offrent une indépendance similaire.
Des enjeux politiques
Il ne s’agit pas seulement d’un problème technique ou commercial. Le contexte est celui d’une consolidation médiatique majeure. La FCC a approuvé la fusion Nexstar-Tegna en dérogeant aux règles qui interdisent à tout groupe d’atteindre plus de 39 % des foyers américains ; l’entité combinée touchera 80 %.[s]
« La fusion, si elle résiste aux contestations juridiques, consoliderait davantage l’information télévisée et câblée entre les mains de propriétaires favorables à Trump aux tendances de droite », a noté Investigative Post.[s]
La journaliste et autrice Nora Benavidez, citée par Investigative Post, a soutenu que les plus grands groupes médiatiques appartenant à des milliardaires cherchent à s’attirer les faveurs de Trump pour protéger des intérêts financiers et commerciaux qui peuvent entrer en conflit avec leurs missions journalistiques.[s]
Quand la captation par les propriétaires et la dépendance aux plateformes se combinent au blocage des archives, le résultat est un journalisme qui peut être effacé, redirigé ou réduit au silence à volonté. Les reporters qui le comprennent, comme les journalistes tués pour leurs reportages dans des pays où la liberté de la presse s’est déjà effondrée, savent que l’infrastructure n’est pas neutre.
L’argument inverse
Les éditeurs qui bloquent l’Internet Archive n’agissent pas sans raison. Les entreprises d’IA ont massivement scrapé des contenus protégés par le droit d’auteur. Le PDG de Gannett, Mike Reed, a indiqué qu’OpenAI avait envoyé environ 70 millions de requêtes de robots aux plateformes locales et USA Today de Gannett en septembre 2025.[s] La pression financière sur les organisations de presse est réelle, et les accords de licence représentent des revenus potentiels.
Le PDG de The Atlantic, Nick Thompson, a expliqué la logique : « En raison des dommages que peut causer le fait de laisser tout son contenu être scrapé, en raison de tout le levier que l’on perd, il y aura des produits de qualité auxquels vous aviez précédemment donné accès à vos données et que vous ne pourrez plus alimenter. »[s]
C’est compréhensible. Mais c’est aussi une vue à court terme. Le levier préservé est un levier dans les négociations de licences avec les IA. Le coût, c’est le patrimoine public lui-même. Les éditeurs optimisent pour un flux de revenus qui pourrait ou non se matérialiser, tout en sapant la préservation des archives journalistiques dont leurs lecteurs dépendent.
Par ailleurs, les fuites de données gouvernementales exposent des millions de citoyens au vol d’identité et à la surveillance, démontrant que l’infrastructure numérique centralisée est intrinsèquement fragile. La leçon s’étend au journalisme : se reposer sur un seul mécanisme de préservation est un risque.
Ce qui doit changer
Premièrement, les organisations de presse devraient séparer les négociations de licences IA de l’accès aux archives. Bloquer l’Internet Archive ne prévient pas le scraping par les IA ; cela compromet la préservation des archives journalistiques. Ce sont des problèmes distincts qui appellent des solutions distinctes.
Deuxièmement, les journalistes indépendants devraient construire une infrastructure qu’ils contrôlent. Cela signifie des sites auto-hébergés, des listes de diffusion qui leur appartiennent, des archives sur stockage décentralisé. Ghost, WordPress, IPFS : les outils existent.
Troisièmement, les financeurs et les fondations devraient soutenir directement la préservation des archives journalistiques. En décembre 2025, l’Internet Archive s’est associé au Poynter Institute et à Investigative Reporters and Editors dans le cadre d’une initiative visant à former 300 salles de rédaction à la préservation numérique et à l’utilisation des services de l’Internet Archive d’ici fin 2027.[s] Ce programme doit changer d’échelle.
Quatrièmement, les salles de rédaction devraient traiter leurs archives comme des actifs institutionnels. Le Reuters Institute a documenté comment The Economist, Charlie Hebdo et Archivi.ng au Nigeria revitalisent leurs archives comme outils éditoriaux. « La première chose que les rédactions peuvent faire, c’est de rendre extraordinairement facile pour leurs propres journalistes la découverte de leurs archives internes », a déclaré Fu’ad Lawal d’Archivi.ng.[s]
Charlie Hebdo utilise ses archives pour intégrer les nouveaux journalistes, les connectant à l’histoire et à l’identité éditoriale du journal. « Beaucoup de nos lecteurs suivent le journal depuis des décennies. Ils connaissent souvent le journal mieux que nous. Alors quand nous recevons des critiques, cela aide de comprendre d’où elles viennent, historiquement. »[s]
L’ouverture
Il existe une opportunité structurelle dans ce chaos. L’effondrement de la crédibilité des réseaux sociaux crée une demande pour un journalisme vérifié et ancré dans les communautés. « En 2026, les plateformes de réseaux sociaux feront face à un problème d’offre significatif : l’offre est de plus en plus fausse, et le faux est de plus en plus indiscernable du réel », a écrit Jonas Kaiser, professeur à l’Université de Suffolk.[s]
Kaiser a soutenu qu’à mesure que les réseaux sociaux embrassent l’inauthenticité, le journalisme centré sur les communautés trouvera à la fois un public et une finalité démocratique renouvelée.[s]
C’est le moment pour la préservation des archives journalistiques de devenir une priorité militante, non un détail secondaire. Les journalistes qui contrôlent leur propre infrastructure, qui maintiennent leurs propres archives, qui tissent des liens directs avec leurs communautés : ce sont eux qui publieront encore quand les plateformes auront tourné la page.
Quand les archives disparaissent, la capacité à demander des comptes au pouvoir disparaît avec elles.
Le choix n’est pas entre protéger son contenu de l’IA et le préserver pour l’histoire. Le choix est de posséder son infrastructure ou de la louer à des entités qui finiront par optimiser contre vos intérêts. Le journalisme indépendant a toujours exigé l’indépendance. Il exige désormais des archives indépendantes.



