Biais de collecte de données : 5 épidémies factices choquantes

Reading mode

Le patron nous a demandé d’examiner quelque chose d’apparemment simple : que se passe-t-il quand la façon dont on compte les choses change, mais qu’on fait semblant que rien n’a changé ? La réponse, il s’avère, c’est qu’on se fait une peur bleue.

Le biais de collecte de données est l’une des forces les plus sous-estimées qui façonnent le débat public. Le mécanisme est simple : on change la façon de mesurer quelque chose, puis on compare les nouveaux chiffres aux anciens comme si rien n’avait bougé. Le résultat est une tendance fantôme, un spectre statistique qui ressemble à un vrai changement de réalité, alors qu’il ne s’agit en fait que d’un changement de comptabilité.

Ce n’est pas un problème marginal. Il touche la climatologie, la médecine, les statistiques criminelles et la mesure de la pauvreté. Et il a des conséquences concrètes, car une politique publique construite sur des tendances fantômes est une politique bâtie sur du sable.

Le biais de collecte de données et l’« épidémie » d’autisme

En 2000, le CDC a constaté qu’environ 1 enfant américain de huit ans sur 150 avait un diagnostic d’autisme. Selon les derniers chiffres, ce nombre est de 1 sur 31^[s], soit une multiplication par cinq. Les médias ont parlé d’épidémie. Certains responsables ont parlé de tragédie.

Mais la définition de l’autisme a changé de façon spectaculaire sur la même période. Jusqu’en 1980, le DSM classait ce qu’on appelle aujourd’hui l’autisme sous le terme « schizophrénie de type infantile ». En 1987, les critères ont été élargis. En 1994, le syndrome d’Asperger est apparu comme diagnostic distinct. En 2013, il a été intégré dans le spectre plus large des « troubles du spectre autistique », et pour la première fois, un enfant pouvait recevoir simultanément un diagnostic d’autisme et de TDAH.

Une étude majeure publiée en 2015 dans JAMA Pediatrics^[s] a examiné des enfants danois nés entre 1980 et 1991 et a établi que 60 % de l’augmentation de la prévalence de l’autisme s’expliquait uniquement par des changements dans les critères diagnostiques et les pratiques de déclaration. Une étude distincte de l’université Columbia^[s] a révélé que plus d’un quart de l’augmentation des cas d’autisme en Californie entre 1992 et 2005 était attribuable à des personnes précédemment diagnostiquées avec une déficience intellectuelle et reclassées comme autistes.

Rien de tout cela ne signifie que l’autisme n’est pas réel, ni que sa prévalence n’a pas du tout augmenté. Des facteurs de risque environnementaux comme la pollution atmosphérique et l’âge parental avancé jouent probablement un rôle. Mais les chiffres des gros titres font quelque chose que les données sous-jacentes ne font pas : ils comparent des pommes à des oranges et appellent ça une tendance.

Les températures océaniques et le problème des seaux

Pendant des siècles, les marins mesuraient la température de surface de la mer en plongeant un seau dans l’océan et en y glissant un thermomètre. Le problème, c’est que tous les seaux ne sont pas identiques. Un seau en toile laissé sur le pont trois minutes^[s] se refroidit d’environ 0,5 degré Celsius de plus qu’un seau en bois dans les mêmes conditions. Sachant que le réchauffement climatique total sur l’ensemble du XXe siècle était d’environ 1 degré, une erreur de mesure d’un demi-degré est considérable.

Pour aggraver les choses, différentes nations utilisaient différents types de seaux à différentes époques. Les navires de pêche japonais avant 1932 enregistraient les températures en degrés Fahrenheit entiers, ensuite convertis en Celsius. Quand l’armée de l’air américaine a numérisé les archives navales japonaises de la fin des années 1930, elle a tronqué les données en supprimant les décimales. Il en a résulté un apparent refroidissement rapide dans le Pacifique qui n’a jamais eu lieu.

Une étude publiée en 2024 dans Nature^[s] a établi que les relevés de température de surface de la mer de 1900 à 1930 sont en moyenne sous-estimés d’environ 0,26 degré Celsius. Cela ne change pas notre compréhension du réchauffement climatique global depuis le milieu du XIXe siècle, mais cela modifie la forme de la courbe de réchauffement, rendant la tendance du début du XXe siècle plus progressive et moins mystérieuse qu’elle ne semblait l’être.

La leçon à retenir n’est pas que les données climatiques sont peu fiables. C’est que les scientifiques ont passé des décennies à corriger méticuleusement ces biais, et que quiconque compare des données historiques brutes à des mesures modernes sans comprendre ces corrections commet une erreur de catégorie fondamentale.

Dépistage du cancer et le piège du délai d’avance

Imaginez un homme qui développe un cancer du poumon à 60 ans sans le savoir. À 67 ans, les symptômes apparaissent. Il est diagnostiqué et décède à 70 ans. Sa survie après le diagnostic : trois ans.

Maintenant imaginez qu’un dépistage détecte le cancer à 60 ans. Il décède quand même à 70 ans. Sa survie après le diagnostic : dix ans. La survie à cinq ans passe de 0 % à 100 %^[s], sans qu’un seul jour ait été ajouté à sa vie.

C’est le biais de délai d’avance (ou « lead-time bias »), et c’est l’un des problèmes les plus contre-intuitifs en médecine. Le dépistage améliore les statistiques de survie même quand il ne fait rien, parce qu’il recule la ligne de départ.

Un problème connexe est le surdiagnostic : le dépistage détecte des cancers à croissance lente qui n’auraient jamais causé de symptômes. L’Institut national du cancer estime que 19 % des cancers du sein et 20 à 50 % des cancers de la prostate détectés par dépistage^[s] entrent dans cette catégorie.

La Corée du Sud offre l’exemple le plus spectaculaire. Après que le gouvernement a financé le dépistage du cancer en 1999, les prestataires ont commencé à ajouter des échographies thyroïdiennes. En 2011, les diagnostics de cancer de la thyroïde avaient été multipliés par quinze^[s]. Mais la mortalité par cancer de la thyroïde est restée stable. La quasi-totalité des tumeurs nouvellement détectées étaient des cancers papillaires de petite taille, à croissance lente, de moins de 2 centimètres^[s]. Des dizaines de milliers de personnes ont subi des opérations inutiles pour des cancers qui ne leur auraient jamais nui.

Statistiques criminelles : compter différemment, pas davantage

En 2021, le FBI a abandonné son ancien système de déclaration agrégée (SRS) au profit du Système de déclaration des incidents (NIBRS). Sous l’ancien système, si quelqu’un braquait une banque, volait une voiture et agressait un témoin, seul le crime le plus grave (le braquage) était comptabilisé^[s]. Sous NIBRS, les trois infractions sont enregistrées.

Le résultat prévisible : les chiffres de la criminalité peuvent sembler plus élevés sous NIBRS, non pas parce qu’il y a plus de crimes, mais parce qu’un plus grand nombre sont enregistrés. Le FBI lui-même avait averti que la transition rendrait les comparaisons d’une année sur l’autre peu fiables. Pour aggraver les choses, en 2021, la couverture est tombée d’environ 95 % à 65 % de la population, car de nombreux services n’avaient pas encore effectué la transition.

C’est le même schéma qu’on retrouve partout : un changement de méthodologie crée l’apparence d’un changement de réalité.

Que demander quand les chiffres changent

Le biais de collecte de données n’est pas une conspiration. Dans la plupart des cas, la nouvelle méthode de mesure est réellement meilleure. Les critères modernes d’autisme permettent d’identifier des personnes qui ont toujours été autistes mais qui étaient mal étiquetées ou ignorées. Le NIBRS donne une image plus complète de la criminalité que la règle hiérarchique. Les scientifiques qui corrigent les relevés de température de la mer font le travail de rendre les données plus précises, pas moins.

Le problème n’est pas la mesure. C’est la comparaison. Quand vous voyez une courbe de tendance spectaculaire, trois questions permettent de démêler le vrai du faux :

La définition a-t-elle changé ? (Autisme, seuils de pauvreté, catégories criminelles)
L’instrument a-t-il changé ? (Seaux vers prises d’admission moteur, abris Stevenson vers stations météo automatiques)
L’effort d’observation a-t-il changé ? (Programmes de dépistage du cancer, couverture diagnostique élargie)

Si la réponse à l’une de ces questions est oui, la courbe de tendance vous raconte deux histoires à la fois : l’une sur la réalité, l’autre sur la façon dont on l’observe. Démêler les deux est le travail le plus difficile et le plus important en statistiques.

Le patron nous a orientés vers un sujet qui se situe à l’intersection de l’épistémologie et des politiques publiques : que se passe-t-il avec les données de tendance quand l’appareil de mesure sous-jacent change ? La réponse courte : les biais de collecte de données génèrent des signaux fantômes, et ces signaux orientent des décisions concrètes.

Le biais de collecte de données, parfois appelé biais de mesure ou biais d’ascertainement selon le contexte, survient quand des changements systématiques dans la façon dont les données sont collectées créent l’apparence de changements dans le phénomène mesuré. Il se distingue de l’erreur aléatoire, qui disperse les points de données de façon imprévisible. Le biais systématique les pousse de façon constante dans une direction, et il tend à s’amplifier au fil du temps.

Ce qui suit est un panorama inter-domaines de la façon dont ce phénomène se manifeste en pratique, à partir de la climatologie, de l’épidémiologie, de l’oncologie et de la justice pénale.

Le biais de collecte de données dans la prévalence de l’autisme : substitution et accrétion diagnostiques

Le réseau de surveillance de l’autisme et des handicaps du développement du CDC suit la prévalence de l’autisme depuis 2000, date à laquelle le taux était d’environ 1 enfant de huit ans sur 150. Les données les plus récentes indiquent 1 sur 31^[s], soit une multiplication par cinq de la prévalence en deux décennies.

Le paysage diagnostique a changé tout aussi radicalement. Le DSM-III (1980) a introduit l’« autisme infantile » comme catégorie distincte de la schizophrénie de l’enfance. Le DSM-III-R (1987) a élargi les critères dans trois domaines : interaction sociale, communication et activités restreintes. Le DSM-IV (1994) a ajouté le syndrome d’Asperger. Le DSM-5 (2013) a tout regroupé sous « trouble du spectre autistique » et, fait crucial, a supprimé le critère d’exclusion qui empêchait le co-diagnostic autisme-TDAH^[s].

Deux études rigoureuses ont tenté de quantifier la contribution de ces changements. Hansen et al. (2015)^[s], publiée dans JAMA Pediatrics, a utilisé une cohorte de population de 677 915 enfants danois nés entre 1980 et 1991. En utilisant un modèle de Cox stratifié à risques proportionnels avec des changements diagnostiques modélisés comme covariables dépendantes du temps, ils ont établi que 60 % de l’augmentation de la prévalence des TSA (IC 95 % : 33 %-87 %) étaient attribuables à deux changements de déclaration : un changement de critères diagnostiques en 1994 et l’inclusion des consultations ambulatoires en 1995.

King et Bearman (2009)^[s], travaillant avec 7 003 dossiers de patients du DDS californien, ont introduit une distinction utile entre substitution diagnostique (le patient passe du diagnostic X au diagnostic Y) et accrétion diagnostique (le patient conserve le diagnostic X et acquiert Y comme comorbidité). Ils ont établi que 26,4 % de l’augmentation des cas d’autisme entre 1992 et 2005 était uniquement attribuable à des personnes précédemment diagnostiquées avec une déficience intellectuelle qui avaient ensuite acquis un diagnostic d’autisme, les probabilités de changement diagnostique étant de 1,55 à 1,82 fois plus élevées pendant les périodes où les pratiques diagnostiques évoluaient.

Un élément supplémentaire : la prévalence de l’autisme varie considérablement selon les États, de 53,1 pour 1 000 en Californie à 9,7 pour 1 000 au Texas. Le propre rapport du CDC attribue cela principalement aux différences d’intensité du dépistage, et non à de vraies différences de prévalence sous-jacente.

Cela n’exclut pas une augmentation réelle. L’âge parental avancé, l’exposition à la pollution atmosphérique pendant la grossesse^[s] et l’amélioration de la survie néonatale des prématurés sont tous des facteurs plausibles. Mais le signal est inséparable du bruit du changement diagnostique sans une décomposition statistique rigoureuse.

Température de surface de la mer : seaux, prises d’admission et troncature de données

Le relevé mondial de la température de surface de la mer (SST), maintenu par la NOAA sous le nom de jeu de données ERSST (Extended Reconstructed SST)^[s], remonte à 1854 et s’appuie sur plus de 155 millions d’observations provenant de navires de toutes sortes. Le défi est que les méthodes de mesure ont radicalement changé au cours de cette période, et chaque méthode porte son propre biais systématique.

Avant la Seconde Guerre mondiale, la plupart des mesures SST utilisaient l’échantillonnage par seau. Le passage des seaux en bois aux seaux en toile vers la fin du XIXe siècle a introduit un biais froid, car les seaux en toile perdent de la chaleur par évaporation plus rapidement. Des chercheurs de Harvard ont quantifié ce phénomène^[s] : un seau en toile laissé sur le pont trois minutes dans des conditions normales affiche environ 0,5 degré Celsius de moins qu’un seau en bois. Après la guerre, les mesures via les prises d’admission des salles des machines sont devenues dominantes, introduisant un biais chaud de 0,1 à 0,5 degré Celsius dû à la chaleur des moteurs.

Un cas particulièrement révélateur vient du Pacifique. Chan et al. (2019)^[s], publiée dans Nature, ont établi que les relevés des navires de pêche japonais avant 1932 étaient enregistrés en degrés Fahrenheit entiers, convertis en Celsius puis arrondis. Quand les archives navales japonaises de la fin des années 1930 ont été numérisées par l’armée de l’air américaine, les décimales Celsius ont été entièrement tronquées. Cela a créé un apparent refroidissement rapide dans le Pacifique entre 1935 et 1941, qui était purement un artefact de traitement de données.

Dans l’Atlantique Nord, les navires allemands dominaient la collecte de données à la fin des années 1920. Leurs mesures, concentrées dans un seul « deck » de données, étaient systématiquement plus chaudes que celles des navires voisins, créant un apparent réchauffement régional qui était en partie un biais de mesure.

Une étude publiée en 2024 dans Nature par Dobrynin et al.^[s] a confirmé un schéma plus large : les relevés SST de 1900 à 1930 portent un biais froid moyen d’environ 0,26 degré Celsius par rapport aux températures terrestres reconstruites indépendamment. La correction de ce biais ne modifie pas les estimations du réchauffement total depuis le milieu du XIXe siècle, mais altère significativement la forme de la courbe de réchauffement : le réchauffement du début du XXe siècle devient plus progressif, la variabilité décennale diminue, et la concordance entre les simulations de modèles et les observations s’améliore.

Par ailleurs, un audit du GAO en 2011^[s] a établi que 42 % des stations actives du réseau de climatologie historique américain ne respectaient pas les propres normes d’implantation de la NOAA, qui exigent une distance minimale par rapport aux surfaces pavées et aux obstacles. Cela dit, les analyses de la NOAA ont montré que les stations mal implantées ne biaisent pas significativement les tendances de température à long terme après ajustements, ce qui mérite d’être mentionné pour être intellectuellement honnête.

Épidémiologie du cancer : biais de délai d’avance, surdiagnostic et phénomène Will Rogers

Le dépistage médical introduit simultanément plusieurs couches de biais de collecte de données, ce qui explique pourquoi l’oncologie a produit certains des exemples les plus clairs d’artefacts de mesure confondus avec de vraies tendances.

Le biais de délai d’avance survient quand le dépistage avance la date du diagnostic sans changer la date du décès. Comme l’explique l’Institut national du cancer^[s] : un homme diagnostiqué avec un cancer du poumon à 67 ans et décédé à 70 ans a un taux de survie à cinq ans de 0 %. Dépistez le même homme à 60 ans : il décède quand même à 70 ans, mais la survie à cinq ans est désormais de 100 %. Aucune vie n’a été prolongée ; seule la fenêtre d’observation a été décalée.

Le surdiagnostic est le cas extrême : le dépistage détecte des cancers si lents qu’ils n’auraient jamais causé de symptômes pendant la vie du patient. Dunn et al. (2022)^[s], dans le Journal of the National Cancer Center, passent en revue les données sur plusieurs types de cancers. Les études estiment que 19 % des cancers du sein et 20 à 50 % des cancers de la prostate détectés par dépistage sont surdiagnostiqués. Le programme de dépistage du neuroblastome au Japon a détecté des tumeurs qui ont régressé spontanément, conduisant à son arrêt après que le dépistage à grande échelle n’a pas réussi à réduire la mortalité.

La Corée du Sud fournit l’étude de cas la plus frappante. Après le lancement d’un programme national de dépistage du cancer en 1999, des prestataires à l’acte ont ajouté l’échographie thyroïdienne. En 2011, les diagnostics de cancer de la thyroïde avaient été multipliés par quinze par rapport aux niveaux de 1993^[s]. La mortalité est restée inchangée. Une étude nationale a établi que 94,4 % de l’augmentation consistait en tumeurs de moins de 2 centimètres^[s], et 97,1 % étaient des cancers locaux ou régionaux. Après des campagnes de sensibilisation du public, les opérations thyroïdiennes ont chuté de 35 % en une seule année.

Le phénomène Will Rogers^[s], décrit par Feinstein et al. en 1985, ajoute une autre couche : quand un diagnostic amélioré reclassifie des patients de stades inférieurs vers des stades supérieurs, les statistiques de survie des deux stades semblent s’améliorer, même si aucun patient ne va réellement mieux. Le nom vient d’une boutade de Will Rogers selon laquelle quand les Okies quittaient l’Oklahoma pour la Californie, ils faisaient monter le niveau d’intelligence moyen des deux États.

Biais de collecte de données dans les statistiques criminelles : la transition vers le NIBRS

La transition du FBI en 2021 du système de déclaration agrégée (SRS) vers le système de déclaration des incidents (NIBRS) illustre un cas d’école de discontinuité méthodologique.

Sous le SRS, un incident unique était classé selon son infraction la plus grave (la « règle hiérarchique »)^[s]. Un incident impliquant vol à main armée, agression et vol de voiture ne comptait que comme un braquage. Sous le NIBRS, toutes les infractions d’un incident sont enregistrées, jusqu’à dix par événement. Le NIBRS capture aussi des types d’infractions que le SRS ne suivait pas, notamment l’intimidation, la traite d’êtres humains et l’enlèvement.

La conséquence statistique immédiate est que les chiffres de criminalité déclarés sous NIBRS peuvent être plus élevés que sous SRS pour des niveaux identiques d’activité criminelle. Le propre rapport du FBI de 2015 reconnaissait que les agences craignaient que « le public, les médias et les responsables gouvernementaux interprètent mal le changement apparent de la criminalité et attribuent l’augmentation des chiffres à une administration policière défaillante plutôt qu’à un changement dans la façon dont les données sont déclarées ».

Le problème s’est aggravé du fait que la transition de 2021 était incomplète. La couverture de population est tombée d’environ 95 % à 65 %, car de nombreux services n’avaient pas encore effectué la conversion. Cela a créé un changement simultané de méthodologie et de cadre d’échantillonnage, rendant les comparaisons 2020-2021 pratiquement sans valeur pour tout usage rigoureux.

Le schéma commun à tous les domaines

Le fil conducteur est simple : quand la mesure change, les données de tendance se cassent. Les mécanismes spécifiques varient :

Expansion diagnostique : des critères plus larges captent des cas qui ont toujours existé (autisme, TDAH)
Substitution d’instrument : de nouveaux outils portent des biais systématiques différents (seaux vers prises d’admission, abris Stevenson vers stations météo automatisées)
Intensité du dépistage : chercher davantage trouve plus de ce qui a toujours été là (cancer de la thyroïde, neuroblastome)
Méthodologie de déclaration : les règles de comptage changent ce qui est visible dans les données agrégées (SRS vers NIBRS, mesure officielle de la pauvreté vers SPM)
Artefacts de traitement de données : la numérisation, l’arrondi et la troncature introduisent des erreurs invisibles sans analyse forensique (relevés SST japonais)

Dans chaque cas, le remède est le même : comparer ce qui est comparable. Les scientifiques qui corrigent les relevés SST le font en analysant les croisements entre navires. Les épidémiologistes le font en modélisant les changements diagnostiques comme covariables dépendantes du temps. Le grand public, face à un gros titre sur une tendance spectaculaire, peut poser trois questions :

La définition de ce qu’on mesure a-t-elle changé ?
L’instrument ou la méthode de mesure a-t-il changé ?
L’intensité ou la portée de la mesure a-t-elle changé ?

Si la réponse à l’une de ces questions est oui, la courbe de tendance contient deux signaux : l’un venant de la réalité, l’autre de l’appareil de mesure. Les séparer est un travail statistique minutieux. Ignorer cette distinction, c’est ainsi que naissent les épidémies fantômes.

Quand les chiffres mentent : comment les biais de collecte de données créent des épidémies fantômes

Le biais de collecte de données et l’« épidémie » d’autisme

Les températures océaniques et le problème des seaux

Dépistage du cancer et le piège du délai d’avance

Statistiques criminelles : compter différemment, pas davantage

Que demander quand les chiffres changent

Le biais de collecte de données dans la prévalence de l’autisme : substitution et accrétion diagnostiques

Température de surface de la mer : seaux, prises d’admission et troncature de données

Épidémiologie du cancer : biais de délai d’avance, surdiagnostic et phénomène Will Rogers

Biais de collecte de données dans les statistiques criminelles : la transition vers le NIBRS

Le schéma commun à tous les domaines

Sources

Le biais de collecte de données et l’« épidémie » d’autisme

Les températures océaniques et le problème des seaux

Dépistage du cancer et le piège du délai d’avance

Statistiques criminelles : compter différemment, pas davantage

Que demander quand les chiffres changent

Le biais de collecte de données dans la prévalence de l’autisme : substitution et accrétion diagnostiques

Température de surface de la mer : seaux, prises d’admission et troncature de données

Épidémiologie du cancer : biais de délai d’avance, surdiagnostic et phénomène Will Rogers

Biais de collecte de données dans les statistiques criminelles : la transition vers le NIBRS

Le schéma commun à tous les domaines

Sources

Articles connexes

Qwen 3.6 27B : une efficacité dévastatrice, 14 fois supérieure à un géant de 397 milliards de paramètres

Crime de guerre contre l’eau civile : 5 règles de Genève que la menace de Trump contre l’Iran viole

24 Régimes, 30 Milliards de Coupes : La Crise des Paiements Medi-Cal

Pourquoi avons-nous encore des poils aux aisselles ? La science surprenante derrière le trait le plus tenace de l’évolution