Crime Réel 16 min de lecture

Stylométrie judiciaire : 5 affaires choquantes qui ont révélé des auteurs anonymes

Cet article a été traduit automatiquement de l'anglais par une IA. Lire la version originale en anglais →
Les racines de la stylométrie judiciaire dans l'affaire Unabomber, montrée à travers le portrait anthropométrique de Ted Kaczynski
🎧 Écouter
Apr 13, 2026
Mode de lecture

En septembre 1995, The Washington Post publia un manifeste de 35 000 mots intitulé « Industrial Society and Its Future ». L’auteur était inconnu. Le FBI avait passé 17 années et dépensé des millions de dollars à traquer la personne qui l’avait écrit, un poseur de bombes en série qui avait tué trois personnes et blessé près de deux dizaines d’autres. Les preuves judiciaires traditionnelles n’avaient rien donné : aucune empreinte digitale, aucun ADN, aucun matériau traçable.[s] Ce qui finit par résoudre l’affaire ne fut ni un cheveu ni un résidu chimique. C’était une phrase : « manger ton gâteau et l’avoir aussi ».

Le domaine qui rendit cette percée possible est la stylométrie judiciaireL'analyse quantitative du style d'écriture pour déterminer la paternité d'un texte, utilisant des méthodes statistiques et computationnelles pour identifier des motifs linguistiques distinctifs., l’étude quantitative du style d’écriture appliquée aux questions d’attribution d’auteur.[s] Chaque personne utilise le langage de manières subtilement distinctives : choix de mots spécifiques, habitudes de ponctuation, structures de phrases et préférences inconscientes pour certaines prépositions plutôt que d’autres. Les linguistes appellent cela un idiolecteLa façon unique dont un individu utilise la langue, incluant des choix de mots distinctifs, des motifs grammaticaux et des préférences linguistiques inconscientes., une version personnelle d’une langue partagée.[s] La stylométrie judiciaire traite ces motifs comme des preuves, les mesurant avec des outils statistiques et informatiques pour déterminer qui a écrit un texte contesté.

Les mots de l’Unabomber

La décision du FBI de publier le manifeste était un pari calculé. Les agents espéraient que quelqu’un reconnaîtrait l’écriture.[s] À Schenectady, New York, une femme nommée Linda Patrik lut l’essai et pensa qu’il ressemblait à l’écriture de son beau-frère, Ted Kaczynski. Elle le montra à son mari, David Kaczynski, qui reconnut des expressions inhabituelles que favorisait son frère en froid avec lui, notamment « logiciens de sang-froid ».[s] David contacta le FBI avec ses soupçons.

L’agent spécial superviseur du FBI James Fitzgerald mena alors une comparaison linguistique systématique entre les écrits connus de Kaczynski et le manifeste. Les similitudes étaient frappantes. Les deux textes utilisaient « analyse » au lieu d’« analyze », « licence » au lieu de « license », et « willfully » au lieu de « willfully ». Tous deux inversaient l’idiome commun en « vous ne pouvez pas manger votre gâteau et l’avoir aussi ».[s]

Le sociolinguiste Roger Shuy identifia un autre détail révélateur : les orthographes inhabituelles du manifeste, comme « clew » pour « clue », correspondaient aux réformes orthographiques promues par The Chicago Tribune pendant les années 1940 et 1950. Ces réformes ne furent jamais largement adoptées, mais quelqu’un qui avait grandi en lisant ce journal les aurait absorbées. Kaczynski était né à Chicago en 1942.[s]

L’analyse linguistique du FBI, combinée aux faits biographiques, fournit la base d’un mandat de perquisition.[s] Le 3 avril 1996, les agents arrêtèrent Kaczynski dans sa cabane du Montana, où ils trouvèrent du matériel de fabrication de bombes et une copie carbone du manifeste. Le travail de Fitzgerald marqua la première fois que la stylométrie judiciaire fut utilisée dans une affaire fédérale pour obtenir un mandat de perquisition.[s]

La stylométrie judiciaire devient numérique

L’affaire Unabomber prouva que le style d’écriture pouvait fonctionner comme preuve. Dans les décennies qui suivirent, les ordinateurs transformèrent la stylométrie judiciaire d’un processus manuel laborieux en une discipline rapide et évolutive. Le travail fondateur remonte à 1964, lorsque les statisticiens Frederick Mosteller et David Wallace passèrent trois années à analyser manuellement les mots-outilsMots grammaticaux comme les articles, prépositions et conjonctions qui servent des fins structurelles plutôt que sémantiques dans la langue. dans les Federalist Papers, attribuant finalement douze essais disputés à James Madison.[s] Les logiciels modernes peuvent effectuer des analyses équivalentes en quelques secondes.

La démonstration la plus publique survint en 2013, lorsque Patrick Juola, informaticien à l’Université Duquesne, utilisa son programme Java Graphical Authorship Attribution Program (JGAAP) pour analyser un roman policier appelé The Cuckoo’s Calling, crédité à l’auteur débutant Robert Galbraith. Un journaliste du Sunday Times avait reçu un tuyau selon lequel J.K. Rowling était la vraie auteure. Le programme de Juola compara le roman aux œuvres de Rowling et de trois autres romancières britanniques de crime, suivant les distributions de longueur des mots, les 100 mots les plus communs, les quatre-grammes de caractères, et les bigrammes de mots.[s]

Rowling fut la seule auteure qui correspondait systématiquement à travers les quatre tests. Comme l’expliqua Juola, « chacun a une façon particulière d’écrire qui est presque impossible à cacher ».[s] Confrontée aux preuves, Rowling admit que le pseudonyme était le sien.

Quand l’anonymat est une question de vie ou de mort

Le démasquage de Rowling fut embarrassant mais inoffensif. Pour les lanceurs d’alerte, les dissidents et les sources anonymes, la même technologie pose une menace bien plus grave. Si la stylométrie judiciaire peut identifier une romancière à succès à partir de ses prépositions, elle peut identifier un employé gouvernemental qui divulgue des documents classifiés, ou un activiste qui publie des critiques d’un régime autoritaire.

Des chercheurs de l’Université Drexel ont exploré les deux côtés de ce problème. Leur laboratoire Privacy, Security and Automation développa deux outils concurrents : JStylo, qui identifie les auteurs, et Anonymouth, qui aide les écrivains à déguiser leur style. JStylo peut sélectionner le bon auteur parmi un groupe de 40 candidats avec une précision de 80 à 85 pour cent, étant donné un échantillon d’écriture d’environ 6 500 mots.[s]

« Lorsque les gens veulent parler de manière anonyme, que ce soit pour rapporter des questions de droits humains, lancer des alertes ou simplement exprimer des opinions impopulaires, ils doivent savoir comment être en sécurité et si la stylométrie peut révéler leur identité », déclara Rachel Greenstadt, directrice du laboratoire.[s]

Anonymouth fonctionne en exécutant les mêmes analyses que JStylo, puis en suggérant des changements que l’auteur peut apporter pour masquer son empreinte d’écriture. L’outil n’encode pas le texte, il entraîne les écrivains sur quelles habitudes modifier. L’approche reflète un sous-domaine croissant appelé stylométrie adversarielle, la pratique de modifier délibérément l’écriture pour échapper à la détection d’auteur.

Le code a aussi une empreinte

La stylométrie judiciaire ne s’applique plus seulement à la prose. Des chercheurs ont démontré que les programmeurs laissent des signatures stylistiques dans le code source, des conventions de nommage des variables à la structure de leurs arbres syntaxiques abstraits. Une étude de 2024 de l’Université de Bologne assembla un jeu de données de 114 400 extraits de code de 104 développeurs open source et atteignit une précision de 69 à 71 pour cent pour attribuer le code au bon auteur, même pour des programmeurs non vus pendant l’entraînement.[s]

Cela importe car les contributions de code anonymes sont courantes dans les projets open source, les dépôts de fuites et les enquêtes cybercriminelles. Si la stylométrie judiciaire peut attribuer un morceau de logiciel malveillant ou une base de code divulguée à un programmeur spécifique, les implications pour l’application de la loi et les libertés civiles sont significatives.

Les limites des preuves linguistiques

La stylométrie judiciaire est puissante, mais ce n’est pas une empreinte digitale au sens médico-légal. Juola lui-même prit soin de noter que son analyse du roman de Rowling ne prouvait pas la paternité ; elle montrait que Rowling « ou quelqu’un qui écrit étonnamment comme Rowling » était le candidat le plus probable.[s] La technique fonctionne mieux comme preuve corroborante aux côtés d’autres méthodes d’enquête.

L’attribution d’auteur nécessite aussi un corpus de comparaisonUne collection de textes d'auteurs connus utilisée comme matériel de référence dans l'analyse stylométrique pour identifier des motifs d'écriture.. Lorsque Miles Taylor se révéla comme le « résistant » anonyme qui écrivit l’éditorial 2018 du New York Times critiquant l’administration Trump de l’intérieur, la stylométrie judiciaire avait été incapable de l’identifier parce qu’il n’avait jamais rien publié d’autre pour comparer.[s]

Les tribunaux traitent l’admissibilité des preuves de stylométrie judiciaire avec prudence. Comme l’ont noté les linguistes, beaucoup de juges et d’avocats américains ont peu d’expérience avec l’expertise linguistique, et le passage de la coïncidence linguistique à la preuve admissible reste une détermination cas par cas.[s]

La tension au cœur de la stylométrie judiciaire ne se résoudra probablement pas. La même science qui amena un poseur de bombes en série devant la justice peut retirer la protection à ceux qui disent la vérité au pouvoir. Chaque avancée dans la détection génère de nouvelles recherches dans l’évasion, et chaque outil construit pour protéger l’anonymat peut aussi protéger les criminels. L’ombre de l’Unabomber tombe dans les deux directions.

Le 19 septembre 1995, The Washington Post imprima un manifeste de 35 000 mots intitulé « Industrial Society and Its Future » à la demande d’un poseur de bombes en série inconnu. Le FBI avait passé 17 années à poursuivre l’affaire, désignée UNABOMDésignation du FBI pour l'enquête sur les colis piégés envoyés à des universités et des compagnies aériennes. Signifie UNiversity And Airline BOMbing. pour ses cibles de bombardements universitaires et aériens, sans identifier de suspect. Le poseur de bombes avait tué trois personnes, blessé 23, et laissé délibérément de fausses indices judiciaires. Il arrachait les peaux des batteries pour empêcher le traçage. Il fabriquait sa propre époxy à partir de sabots de cerfs fondus au lieu d’utiliser de la colle commerciale.[s] Aucune empreinte digitale, aucun ADN, aucun matériau traçable ne demeurait sur aucun dispositif.[s]

Ce que le poseur de bombes ne pouvait pas effacer était son style d’écriture. La décision de publier son manifeste remit aux enquêteurs la seule forme de preuve qu’il ne pouvait pas nettoyer : son idiolecteLa façon unique dont un individu utilise la langue, incluant des choix de mots distinctifs, des motifs grammaticaux et des préférences linguistiques inconscientes., la constellation unique de vocabulaire, de syntaxe et d’habitudes linguistiques inconscientes qui constitue une empreinte personnelle dans le langage.[s] Le domaine qui exploita cette preuve est la stylométrie judiciaireL'analyse quantitative du style d'écriture pour déterminer la paternité d'un texte, utilisant des méthodes statistiques et computationnelles pour identifier des motifs linguistiques distinctifs., l’analyse quantitative du style d’écriture pour l’attribution d’auteur.[s]

La stylométrie judiciaire dans l’enquête Unabomber

La publication du manifeste produisit des milliers de tuyaux. Le décisif vint de David Kaczynski, dont la femme Linda Patrik reconnut l’écriture comme rappelant celle de son beau-frère, Ted. David identifia des phrases distinctives, notamment « logiciens de sang-froid », un terme que favorisait son frère.[s]

L’agent spécial superviseur du FBI James Fitzgerald, qui devint plus tard le premier linguiste judiciaire formé du Bureau, mena une comparaison systématique. Il catalogua les parallèles lexicaux, orthographiques et syntaxiques entre le manifeste et la correspondance connue de Kaczynski. Les deux textes utilisaient des orthographes influencées par le britannique : « analyse » pour « analyze », « licence » pour « license », « wilfully » pour « willfully », « instalment » pour « installment ». Tous deux inversaient l’idiome américain standard en « vous ne pouvez pas manger votre gâteau et l’avoir aussi ». Tous deux employaient un vocabulaire inhabituel incluant « chimérique » et « vacuité bourgeoise ».[s]

Le sociolinguiste Roger Shuy contribua une inférence géographique. Les orthographes du manifeste, comme « clew » pour « clue », correspondaient aux réformes que The Chicago Tribune avait promues des années 1940 aux années 1950. Ces réformes ne gagnèrent jamais d’adoption répandue, signifiant que l’écrivain les avait probablement absorbées pendant ses années formatrices dans ou près de Chicago. Kaczynski y était né en 1942. Le manifeste utilisait aussi « élever des enfants » plutôt que « lever des enfants », un marqueur dialectal cohérent avec le nord des États-Unis, et des termes d’argot comme « broad » et « chick » qui suggéraient un homme qui avait atteint l’âge adulte dans les années 1960.[s]

L’affidavit de mandat de perquisition du FBI incluait des comparaisons textuelles détaillées côte à côte. Le FBI déclara que « notre analyse linguistique détermina que l’auteur de ces papiers et du manifeste étaient presque certainement la même personne ».[s] Cette analyse fournit la base légale d’un mandat de perquisition, la première fois que la stylométrie judiciaire fut utilisée dans une affaire criminelle fédérale à cette fin.[s] Le 3 avril 1996, les agents arrêtèrent Kaczynski dans sa cabane du Montana. À l’intérieur ils trouvèrent du matériel de fabrication de bombes, 40 000 pages de journal manuscrites, et une copie carbone du manifeste.

Une réserve notable : selon l’affidavit de mandat de perquisition, aucun des experts académiques externes consultés n’avait indépendamment nommé Kaczynski comme suspect. L’identification dépendait de la connaissance familiale de David Kaczynski combinée à l’analyse linguistique de Fitzgerald.[s]

Stylométrie judiciaire computationnelle

L’affaire Unabomber reposait sur une comparaison linguistique manuelle. Les racines computationnelles de la discipline remontent à 1964, lorsque Frederick Mosteller et David Wallace publièrent une étude statistique de trois ans des Federalist Papers. Ils mesurèrent la fréquence des mots-outilsMots grammaticaux comme les articles, prépositions et conjonctions qui servent des fins structurelles plutôt que sémantiques dans la langue., articles, prépositions et conjonctions dans les essais disputés, attribuant finalement douze papiers à James Madison basé sur l’inférence bayésienne.[s]

La stylométrie judiciaire moderne automatise et fait évoluer cette approche. Le JGAAP (Java Graphical Authorship Attribution Program) de Patrick Juola analyse « littéralement des millions de caractéristiques différentes », selon Juola, suivant les distributions de longueur des mots, la fréquence des 100 mots les plus communs, les quatre-grammes de caractères (groupes de quatre caractères adjacents, capturant les tiges de mots et les motifs trans-mots), et les bigrammes de mots (paires de mots adjacents).[s]

En 2013, Juola appliqua JGAAP pour déterminer si J.K. Rowling avait écrit The Cuckoo’s Calling sous le pseudonyme Robert Galbraith. Il compara le roman au Casual Vacancy de Rowling et aux romans de Ruth Rendell, P.D. James, et Val McDermid. Rowling fut la seule candidate qui correspondait systématiquement à travers les quatre tests indépendants. Peter Millican à l’Université d’Oxford mena une analyse parallèle et arriva à la même conclusion.[s] Rowling confirma subséquemment la paternité.

Juola souligna les limitationsRéduction délibérée des performances logicielles ou matérielles, souvent pour gérer la consommation d'énergie ou prolonger la durée de vie du produit. de la méthode : « La stylométrie judiciaire est beaucoup moins fiable et précise que l’ADN. Tout ce que nous savions vraiment était que c’était soit par Rowling elle-même, soit par quelqu’un qui écrivait dans un style très similaire à Rowling ».[s]

Stylométrie adversarielle et la course aux armements de la vie privée

Les mêmes techniques de stylométrie judiciaire qui identifient les criminels peuvent dépouiller l’anonymat des lanceurs d’alerte et des dissidents. Le laboratoire Privacy, Security and Automation de l’Université Drexel, dirigé par Rachel Greenstadt, développa JStylo et Anonymouth pour traiter les deux côtés de cette équation. JStylo attribue la paternité avec une précision de 80 à 85 pour cent à partir d’un groupe de 40 candidats, étant donné un échantillon de 6 500 mots. Anonymouth entraîne les écrivains à modifier leur style pour échapper à la détection.[s]

Le sous-domaine de la stylométrie adversarielle, l’altération délibérée de l’écriture pour empêcher l’attribution, a produit des outils de plus en plus sophistiqués. Des chercheurs ont démontré que l’obfuscation manuelle peut réduire la précision de la stylométrie judiciaire au niveau de la conjecture aléatoire. Les outils automatisés peuvent modifier le texte de manière itérative tout en préservant le contenu sémantique, bien qu’une telle obfuscation demeure imparfaite : les textes altérés peuvent souvent être détectés comme modifiés par machine, signifiant que l’acte de déguisement lui-même laisse des traces.

Stylométrie de code

La stylométrie judiciaire s’étend maintenant au-delà du langage naturel dans le code source. Les programmeurs exhibent des motifs distinctifs dans le nommage des variables, l’indentation, le style de commentaires, et les choix structurels reflétés dans les arbres syntaxiques abstraits. Une étude de 2024 à l’Université de Bologne assembla 114 400 extraits de code de 104 développeurs open source et entraîna un classificateur k-nearest neighbors sur des embeddings code2seq. Le système atteignit une précision de 69 à 71 pour cent pour attribuer le code à des auteurs individuels, incluant des auteurs absents de l’ensemble d’entraînement.[s]

Un travail antérieur d’Aylin Caliskan-Islam et ses collègues à l’Université Drexel, présenté à USENIX Security 2015, démontra que les caractéristiques d’arbre syntaxique abstrait sont particulièrement résistantes à l’obfuscation, rendant la stylométrie de code plus robuste que les approches basées sur le texte contre le déguisement délibéré.[s]

Normes de preuve et limitations

Les preuves de stylométrie judiciaire font face à un examen dans les tribunaux. Leur admissibilité dépend de la juridiction et de la méthodologie, typiquement évaluée sous des normes établies pour la fiabilité scientifique.[s] Comme les érudits juridiques Peter Tiersma et Lawrence Solan l’observèrent, « la vaste majorité des avocats et juges américains ont peu ou aucune expérience avec l’expertise linguistique dans une affaire légale ».[s]

La technique a aussi des contraintes structurelles. Elle nécessite un corpus de comparaisonUne collection de textes d'auteurs connus utilisée comme matériel de référence dans l'analyse stylométrique pour identifier des motifs d'écriture. d’écriture connue ; lorsque Miles Taylor se révéla en 2020 comme l’auteur anonyme d’un éditorial et livre du New York Times critiquant l’administration Trump, la stylométrie judiciaire avait échoué à l’identifier parce qu’il n’avait aucune publication antérieure.[s] Les textes courts demeurent difficiles à analyser de manière fiable. Et l’attribution d’auteur dans des contextes d’écriture multilingues ou collaboratifs introduit des complications supplémentaires que les modèles actuels gèrent mal.

Le domaine continue d’avancer. Les modèles d’apprentissage automatique ont continué d’améliorer la précision dans des paramètres contrôlés avec des groupes d’auteurs connus. Mais la tension fondamentale persiste : chaque amélioration dans la stylométrie judiciaire qui aide à attraper un poseur de bombes rétrécit aussi l’espace dans lequel un lanceur d’alerte peut parler en sécurité. L’ombre de l’Unabomber, projetée par 35 000 mots en 1995, tombe encore sur les deux côtés de cette ligne.

Qu'avez-vous pensé de cet article ?
Partager cet article

Une erreur ? Signalez-la

Sources