Épidémie de liens morts : 38 % des pages de 2013 ont disparu

Mode de lecture

L’épidémie de liens morts n’est pas un simple problème bien délimité de maintenance du web. C’est un problème d’archives : l’article de presse, la note de bas de page d’un tribunal, la page gouvernementale, l’article scientifique ou la référence Wikipédia peuvent encore sembler stables après la disparition des preuves auxquelles ils renvoyaient. Le Pew Research Center a constaté que 25 % des pages web échantillonnées entre 2013 et 2023 n’étaient plus accessibles en octobre 2023, et que 38 % des pages de 2013 avaient disparu dix ans plus tard^[s].

C’est important, car le journalisme porte depuis longtemps la charge du « first rough draft of history » (« premier brouillon de l’histoire »), une formule souvent attribuée à Philip L. Graham, éditeur du Washington Post, même si Slate en a retracé des usages et variantes plus anciens^[s]. À l’époque de l’imprimé, une source pouvait être difficile à atteindre, enfouie dans les rayonnages d’une bibliothèque ou dans une boîte de tribunal. À l’époque du web, une URL morte peut rompre le lien avec la preuve elle-même.

Pourquoi l’épidémie de liens morts compte

Pour les historiens, l’épidémie de liens morts modifie les conditions de survie des preuves. Les chercheurs de Pew ont trouvé des liens cassés sur 23 % des pages d’actualité échantillonnées et 21 % des pages gouvernementales échantillonnées ; ils ont aussi constaté que 54 % des pages Wikipédia en anglais échantillonnées comportaient au moins un lien mort dans la section des références^[s]. Ce ne sont pas des espaces marginaux. Ils constituent l’archive quotidienne des politiques publiques, des guerres, des élections, des alertes sanitaires, des conflits de conseils scolaires, des affaires judiciaires et de la mémoire publique.

La trace sociale, plus mouvante, est encore plus fragile. Pew a suivi un échantillon de tweets publics publiés au printemps 2023 et a constaté que 18 % n’étaient plus visibles publiquement à la fin de sa période d’observation^[s]. Un historien futur qui tenterait de reconstituer une manifestation, une rumeur, un avertissement gouvernemental ou un témoignage direct pourrait retrouver l’article qui mentionnait la publication, mais pas la publication elle-même.

Des liens cassés au contexte perdu

Un lien mort est l’échec le plus simple. L’étude Perma de la Harvard Law Review décrit la dégradation des liens comme une URL qui ne fournit plus le contenu, tandis que la dégradation des références signifie que la page se charge encore mais ne contient plus l’information citée^[s]. Ce second échec est plus discret. Le lecteur voit une page qui fonctionne et peut ne jamais savoir que la preuve a changé.

Les archives juridiques montrent pourquoi ce problème ne concerne pas seulement les rédactions. Les chercheurs de Perma ont signalé une dégradation des références dans plus de 70 % des URL des revues de droit de Harvard échantillonnées et dans 50 % des URL des avis de la Cour suprême des États-Unis^[s]. Quand un avis judiciaire, un article de revue juridique ou une note de politique publique renvoie vers une source web qui change ensuite, les lecteurs ultérieurs héritent d’une citation qui paraît faire autorité mais qui ne prouve peut-être plus ce qu’elle prouvait autrefois.

L’épidémie de liens morts se voit aussi au sein d’une grande institution médiatique américaine. Columbia Journalism Review a décrit un projet de la Harvard Law School qui a examiné les liens du New York Times depuis le lancement du site du Times en 1996 jusqu’au milieu de 2019^[s]. Les chercheurs ont constaté que 25 % des liens profonds étaient totalement inaccessibles, avec un taux de liens morts de 6 % pour 2018, de 43 % pour 2008 et de 72 % pour 1998^[s]. Ils ont également constaté que 13 % des liens accessibles dans un échantillon examiné par des humains avaient nettement dérivé par rapport au contenu auquel le Times renvoyait à l’origine^[s].

La course à l’archivage

L’histoire ne se résume pas à la disparition. Internet Archive a déclaré en avril 2026 que son analyse du jeu de données de Pew montrait que la Wayback Machine avait sauvé environ 15 % des pages qui auraient autrement été mortes, et qu’elle avait archivé environ 72 % de l’ensemble du jeu de données examiné^[s]. Au 22 octobre 2025, Internet Archive a indiqué que la Wayback Machine avait préservé 1 000 milliards de pages web^[s].

Les institutions publiques ont aussi traité le web comme une partie des archives historiques. Les National Archives affirment que la préservation à long terme du contenu des sites web gouvernementaux est essentielle à la compréhension du gouvernement et de l’histoire par le public, et qu’elles ont commencé à capturer les sites du Congrès à la fin de chaque législature en 2006^[s]. L’International Internet Preservation Consortium indique que la Library of Congress a lancé son archive web des élections américaines comme projet pilote en 2000 et gère désormais plus de 100 collections d’archives web thématiques et liées à des événements^[s].

Ce qui survit devient l’histoire

L’épidémie de liens morts n’efface pas le début du XXIe siècle dans un seul effondrement spectaculaire. Elle érode le tissu conjonctif entre affirmation et preuve. Ce type de perte peut biaiser les archives qui survivent. Les grandes institutions, les pages à fort trafic, les documents publics archivés et les contenus que quelqu’un a pensé à préserver peuvent avoir de meilleures chances de survivre. Les petites pages locales, les sites de campagne temporaires, les publications supprimées, les pages gouvernementales révisées et les sites personnels ordinaires peuvent disparaître plus facilement.

La réponse n’est pas la nostalgie du papier. Les archives papier aussi brûlaient, moisissaient et disparaissaient. La leçon est que le web a besoin d’habitudes d’archivage adaptées à sa vitesse. Les citations devraient renvoyer vers des copies préservées quand la page originale fait office de preuve. Les rédactions et les chercheurs devraient considérer la préservation des liens comme une partie de la publication, pas comme un travail de nettoyage après la rupture du lien. L’épidémie de liens morts rappelle que le premier brouillon de l’histoire n’est utile que si les lecteurs futurs peuvent encore examiner les sources sur lesquelles il repose.

L’épidémie de liens morts se comprend mieux comme un échec de provenance que comme un échec de commodité. Une citation web doit identifier une ressource, fournir le contenu cité et préserver assez de contexte pour qu’un lecteur ultérieur puisse tester l’affirmation. Les liens HTTP peuvent remplir les deux premières fonctions pendant un temps. Sans capture, gestion des versions et pratique durable de la citation, ils ne remplissent pas de manière fiable la troisième.

Ce que mesure l’épidémie de liens morts

Les chercheurs utilisent plusieurs angles pour mesurer l’épidémie de liens morts. Le Pew Research Center a échantillonné un peu moins de 1 million de pages web issues de Common Crawl pour son analyse à l’échelle d’une décennie, puis a vérifié si ces pages étaient encore accessibles^[s]. Cette méthode a montré que 25 % des pages de 2013 à 2023 étaient inaccessibles en octobre 2023, la cohorte la plus ancienne affichant la plus forte perte : 38 % des pages de 2013 échantillonnées étaient indisponibles dix ans plus tard^[s].

C’est la dégradation des liens. La dégradation des références est plus large. L’étude Perma de la Harvard Law Review a défini la dégradation des liens comme une URL qui ne fournit plus le contenu, et la dégradation des références comme une URL encore fonctionnelle dont l’information citée a disparu ou changé^[s]. Pour le travail historique, la dégradation des références peut être plus dangereuse qu’une page 404, car elle cache l’échec à l’intérieur d’une page qui paraît saine.

En droit, cette distinction change le diagnostic. Les chercheurs de Perma ont indiqué que plus de 70 % des URL dans trois revues de droit de Harvard échantillonnées et 50 % des URL dans les avis de la Cour suprême des États-Unis souffraient de dégradation des références^[s]. Dans la recherche, une étude de PLOS One portant sur des articles de science, de technologie et de médecine a constaté qu’un article STM sur cinq souffrait de dégradation des références, proportion qui montait à sept sur dix si l’on ne considérait que les articles STM contenant des références web^[s].

La dégradation a une forme

L’épidémie de liens morts n’est pas répartie uniformément. Une étude sur la durée de vie des URL, archivée sur Zenodo, a examiné 27,3 millions d’URL archivées de 1996 à 2021 par Internet Archive et a constaté que seulement 35 % restaient actives en 2023^[s]. La même étude a constaté que les URL racines avaient une demi-vie de neuf ans, contre un an pour les liens profonds^[s]. Cela compte, car les citations pointent rarement vers la seule page d’accueil d’un domaine. Elles pointent vers un rapport, un communiqué de presse, une page de dossier judiciaire, une biographie de membre du personnel, un avis local ou un article disparu.

L’étude du New York Times montre le même schéma dans le journalisme. Columbia Journalism Review a rapporté que l’équipe de Harvard avait examiné les liens dans les articles du Times de 1996 au milieu de 2019, à partir d’un jeu de données fourni par le Times^[s]. Parmi les liens profonds, 25 % étaient totalement inaccessibles. Par année de publication, 6 % des liens de 2018 étaient morts, contre 43 % des liens de 2008 et 72 % des liens de 1998^[s]. Dans un examen humain séparé, 13 % des liens accessibles avaient nettement dérivé par rapport à leur contexte d’origine^[s].

L’archivage change le dénominateur

L’épidémie de liens morts paraît moins absolue lorsque les archives du web sont prises en compte, mais elle ne disparaît pas. Les chercheurs d’Internet Archive ont déclaré que leur examen d’avril 2026 du jeu de données de Pew montrait que la Wayback Machine avait archivé environ 72 % de l’ensemble du jeu, dont 16 % étaient morts sur le web actif mais sauvés par une copie archivée^[s]. Le même article indiquait que Turn All References Blue avait corrigé plus de 30 millions de liens cassés sur des centaines de wikis à l’aide d’InternetArchiveBot, de WaybackMedic et de la Wayback Machine^[s].

L’échelle aide, mais la couverture n’est pas totale. Internet Archive a relevé des limites, notamment les contraintes de ressources, les pages très dépendantes de JavaScript, le blocage des robots, les barrières de connexion, les murs payants, les contenus du web profond et la découverte tardive^[s]. Cela signifie que le web archivé n’est pas un miroir parfait du web actif. C’est une seconde couche historique, façonnée par les règles d’exploration, les autorisations des sites, les obstacles techniques et le hasard.

Comment les historiens doivent lire les archives du web

Pour les historiens, l’épidémie de liens morts fait des citations web des artefacts à part entière. Une citation n’est pas seulement un chemin vers une page. Elle est la preuve de ce qu’un auteur pensait pouvoir mobiliser pour soutenir une affirmation à un moment précis. Quand la page disparaît, la citation devient la trace d’une source manquante. Quand la page change, elle peut devenir plus trompeuse, car la forme extérieure de la preuve demeure.

La préservation du web gouvernemental montre les enjeux. La NARA affirme que la préservation du contenu des sites web gouvernementaux est essentielle à la compréhension du gouvernement et de l’histoire par le public, et qu’elle a commencé à capturer les sites du Congrès à la fin de chaque législature en 2006^[s]. La Library of Congress Web Archive, selon l’International Internet Preservation Consortium, comprend plus de 100 collections thématiques et liées à des événements, et son archive web des élections américaines a commencé comme projet pilote en 2000^[s].

La conclusion pratique est stricte, mais simple. Une citation vers le web actif devrait être considérée comme incomplète si l’état cité n’est pas lui aussi préservé. Perma.cc a été construit sur ce principe, en liant citation et capture afin que les auteurs et les éditeurs puissent préserver la page citée au moment de la publication^[s]. Le web peut encore servir de premier brouillon de l’histoire numérique, mais seulement si les historiens, les bibliothécaires, les journalistes, les tribunaux et les éditeurs préservent ce brouillon avant que la révision, la suppression et la défaillance des domaines ne le transforment en ouï-dire.

Épidémie de liens morts : 38 % des pages web de 2013 ont déjà disparu

Pourquoi l’épidémie de liens morts compte

Des liens cassés au contexte perdu

La course à l’archivage

Ce qui survit devient l’histoire

Ce que mesure l’épidémie de liens morts

La dégradation a une forme

L’archivage change le dénominateur

Comment les historiens doivent lire les archives du web

Sources

Pourquoi l’épidémie de liens morts compte

Des liens cassés au contexte perdu

La course à l’archivage

Ce qui survit devient l’histoire

Ce que mesure l’épidémie de liens morts

La dégradation a une forme

L’archivage change le dénominateur

Comment les historiens doivent lire les archives du web

Sources

Articles connexes

L’Histoire du langage : 135 000 ans de parole et 5 000 ans d’écriture

Élections fascistes de l’entre-deux-guerres : l’effondrement démocratique meurtrier de 1933

L’Architecture Financière de la Traite Négrière : Comment le Système Atlantique a Financé la Révolution Industrielle Britannique

Comment la bibliothèque d’Alexandrie a vraiment disparu : 5 destructions, aucun coupable unique