En septiembre de 1995, The Washington Post publicó un manifiesto de 35.000 palabras titulado “Industrial Society and Its Future”. El autor era desconocido. El FBI había pasado 17 años y millones de dólares cazando a la persona que lo escribió, un bombardero serial que había matado a tres personas y herido a casi dos docenas más. Las pruebas forenses tradicionales no habían arrojado nada: ninguna huella digital, ningún ADN, ningún material rastreable.[s] Lo que finalmente resolvió el caso no fue un cabello ni un residuo químico. Fue una frase: “comer tu pastel y tenerlo también”.
El campo que hizo posible este avance es la estilometría forenseEl análisis cuantitativo del estilo de escritura para determinar la autoría, utilizando métodos estadísticos y computacionales para identificar patrones lingüísticos distintivos., el estudio cuantitativo del estilo de escritura aplicado a cuestiones de autoría.[s] Cada persona usa el lenguaje de maneras sutilmente distintivas: elecciones específicas de palabras, hábitos de puntuación, estructuras de oraciones y preferencias inconscientes por ciertas preposiciones sobre otras. Los lingüistas llaman a esto un idiolectoLa forma única en que un individuo usa el lenguaje, incluyendo elecciones distintivas de palabras, patrones gramaticales y preferencias lingüísticas inconscientes., una versión personal de un idioma compartido.[s] La estilometría forense trata estos patrones como evidencia, midiéndolos con herramientas estadísticas y computacionales para determinar quién escribió un texto disputado.
Las palabras del Unabomber
La decisión del FBI de publicar el manifiesto fue una apuesta calculada. Los agentes esperaban que alguien reconociera la escritura.[s] En Schenectady, Nueva York, una mujer llamada Linda Patrik leyó el ensayo y pensó que sonaba como su cuñado, Ted Kaczynski. Se lo mostró a su esposo, David Kaczynski, quien reconoció expresiones inusuales que favorecía su hermano distanciado, incluyendo “lógicos de sangre fría”.[s] David se acercó al FBI con sus sospechas.
El Agente Especial Supervisor del FBI James Fitzgerald luego condujo una comparación lingüística sistemática entre los escritos conocidos de Kaczynski y el manifiesto. Las similitudes eran llamativas. Ambos textos usaban “analyse” en lugar de “analyze”, “licence” en lugar de “license”, y “wilfully” en lugar de “willfully”. Ambos invertían el modismo común en “no puedes comer tu pastel y tenerlo también”.[s]
El sociolingüista Roger Shuy identificó otro detalle revelador: las ortografías inusuales del manifiesto, como “clew” para “clue”, coincidían con reformas ortográficas promovidas por The Chicago Tribune durante las décadas de 1940 y 1950. Estas reformas nunca fueron ampliamente adoptadas, pero alguien que había crecido leyendo ese periódico las habría absorbido. Kaczynski nació en Chicago en 1942.[s]
El análisis lingüístico del FBI, combinado con hechos biográficos, proporcionó la base para una orden de allanamiento.[s] El 3 de abril de 1996, los agentes arrestaron a Kaczynski en su cabaña de Montana, donde encontraron materiales para fabricar bombas y una copia del manifiesto. El trabajo de Fitzgerald marcó la primera vez que la estilometría forense se usó en un caso federal para obtener una orden de allanamiento.[s]
La estilometría forense se vuelve digital
El caso Unabomber demostró que el estilo de escritura podía funcionar como evidencia. En las décadas posteriores, las computadoras transformaron la estilometría forense de un proceso manual laborioso a una disciplina rápida y escalable. El trabajo fundacional se remonta a 1964, cuando los estadísticos Frederick Mosteller y David Wallace pasaron tres años analizando manualmente palabras funcionalesPalabras gramaticales como artículos, preposiciones y conjunciones que cumplen propósitos estructurales en lugar de semánticos en el lenguaje. en los Federalist Papers, finalmente atribuyendo doce ensayos disputados a James Madison.[s] El software moderno puede realizar análisis equivalentes en segundos.
La demostración más pública llegó en 2013, cuando Patrick Juola, un científico informático de la Universidad Duquesne, usó su programa Java Graphical Authorship Attribution Program (JGAAP) para analizar una novela detectivesca llamada The Cuckoo’s Calling, acreditada al autor debutante Robert Galbraith. Un periodista del Sunday Times había recibido una pista de que J.K. Rowling era la verdadera autora. El programa de Juola comparó la novela contra obras de Rowling y tres otras novelistas británicas de crimen, rastreando distribuciones de longitud de palabras, las 100 palabras más comunes, cuatro-gramas de caracteres y bigramas de palabras.[s]
Rowling fue la única autora que coincidió consistentemente en las cuatro pruebas. Como explicó Juola, “todos tienen una manera particular de escribir que es casi imposible de ocultar”.[s] Confrontada con la evidencia, Rowling admitió que el seudónimo era suyo.
Cuando el anonimato es cuestión de vida o muerte
El desenmascaramiento de Rowling fue embarazoso pero inofensivo. Para los denunciantes, disidentes y fuentes anónimas, la misma tecnología plantea una amenaza mucho más grave. Si la estilometría forense puede identificar a una novelista exitosa por sus preposiciones, puede identificar a un empleado gubernamental que filtra documentos clasificados, o a un activista que publica críticas de un régimen autoritario.
Investigadores de la Universidad Drexel han explorado ambos lados de este problema. Su laboratorio Privacy, Security and Automation desarrolló dos herramientas competidoras: JStylo, que identifica autores, y Anonymouth, que ayuda a los escritores a disfrazar su estilo. JStylo puede seleccionar al autor correcto de un grupo de 40 candidatos con 80 a 85 por ciento de precisión, dada una muestra de escritura de unas 6.500 palabras.[s]
“Cuando las personas quieren hablar anónimamente, ya sea para reportar sobre temas de derechos humanos o hacer denuncias o simplemente expresar opiniones impopulares, necesitan saber cómo estar seguras y si la estilometría puede revelar su identidad”, dijo Rachel Greenstadt, la directora del laboratorio.[s]
Anonymouth funciona ejecutando los mismos análisis que JStylo, luego sugiriendo cambios que el autor puede hacer para enmascarar su huella de escritura. La herramienta no codifica el texto; entrena a los escritores sobre qué hábitos alterar. El enfoque refleja un subcampo creciente llamado estilometría adversarialLa práctica de modificar deliberadamente el estilo de escritura para evadir la detección de autoría por herramientas de análisis estilométrico., la práctica de alterar deliberadamente la escritura para evadir la detección de autoría.
El código también tiene una huella
La estilometría forense ya no se aplica solo a la prosa. Los investigadores han demostrado que los programadores dejan firmas estilísticas en el código fuente, desde convenciones de nombramiento de variables hasta la estructura de sus árboles sintácticos abstractos. Un estudio de 2024 de la Universidad de Bolonia ensambló un conjunto de datos de 114.400 fragmentos de código de 104 desarrolladores de código abierto y logró una precisión del 69 al 71 por ciento en atribuir código al autor correcto, incluso para programadores no vistos durante el entrenamiento.[s]
Esto importa porque las contribuciones de código anónimas son comunes en proyectos de código abierto, repositorios de filtraciones e investigaciones de cibercrimen. Si la estilometría forense puede atribuir una pieza de malware o una base de código filtrada a un programador específico, las implicaciones para la aplicación de la ley y las libertades civiles son significativas.
Los límites de la evidencia lingüística
La estilometría forense es poderosa, pero no es una huella digital en el sentido forense. El mismo Juola fue cuidadoso en notar que su análisis de la novela de Rowling no probaba la autoría; mostraba que Rowling “o alguien que escribe sorprendentemente como Rowling” era el candidato más probable.[s] La técnica funciona mejor como evidencia corroborativa junto con otros métodos de investigación.
La atribución de autoría también requiere un corpus de comparaciónUna colección de textos de autoría conocida utilizada como material de referencia en análisis estilométrico para identificar patrones de escritura.. Cuando Miles Taylor se reveló en 2020 como el “resistente” anónimo que escribió el editorial de 2018 del New York Times criticando a la administración Trump desde adentro, la estilometría forense había sido incapaz de identificarlo porque nunca había publicado nada más para comparar.[s]
Los tribunales tratan la admisibilidad de la evidencia de estilometría forense con cautela. Como han notado los lingüistas, muchos jueces y abogados estadounidenses tienen poca experiencia con la experiencia lingüística, y el viaje de la coincidencia lingüística a la evidencia admisible sigue siendo una determinación caso por caso.[s]
La tensión en el corazón de la estilometría forense probablemente no se resolverá. La misma ciencia que llevó a un bombardero serial ante la justicia puede quitar protección a aquellos que dicen la verdad al poder. Cada avance en la detección genera nueva investigación en la evasión, y cada herramienta construida para proteger el anonimato también puede proteger a los criminales. La sombra del Unabomber cae en ambas direcciones.
El 19 de septiembre de 1995, The Washington Post imprimió un manifiesto de 35.000 palabras titulado “Industrial Society and Its Future” a demanda de un bombardero serial desconocido. El FBI había pasado 17 años persiguiendo el caso, designado UNABOMDesignación del FBI para la investigación de paquetes bomba enviados a universidades y aerolíneas. Significa UNiversity And Airline BOMbing. por sus objetivos de bombardeos universitarios y de aerolíneas, sin identificar a un sospechoso. El bombardero había matado a tres personas, herido a 23, y dejado deliberadamente pistas forenses falsas. Arrancaba las pieles de las baterías para prevenir el rastreo. Hacía su propia resina epóxica de pezuñas de venado derretidas en lugar de usar pegamento comercial.[s] Ninguna huella digital, ningún ADN, ningún material rastreable permanecía en ningún dispositivo.[s]
Lo que el bombardero no podía borrar era su estilo de escritura. La decisión de publicar su manifiesto entregó a los investigadores la única forma de evidencia que no podía limpiar: su idiolectoLa forma única en que un individuo usa el lenguaje, incluyendo elecciones distintivas de palabras, patrones gramaticales y preferencias lingüísticas inconscientes., la constelación única de vocabulario, sintaxis y hábitos lingüísticos inconscientes que constituye una huella personal en el lenguaje.[s] El campo que explotó esta evidencia es la estilometría forenseEl análisis cuantitativo del estilo de escritura para determinar la autoría, utilizando métodos estadísticos y computacionales para identificar patrones lingüísticos distintivos., el análisis cuantitativo del estilo de escritura para la atribución de autoría.[s]
Estilometría forense en la investigación del Unabomber
La publicación del manifiesto produjo miles de pistas. La decisiva vino de David Kaczynski, cuya esposa Linda Patrik reconoció la escritura como recordándole a su cuñado, Ted. David identificó frases distintivas, incluyendo “lógicos de sangre fría”, un término que favorecía su hermano.[s]
El Agente Especial Supervisor del FBI James Fitzgerald, quien más tarde se convirtió en el primer lingüista forense entrenado del Buró, condujo una comparación sistemática. Catalogó paralelismos léxicos, ortográficos y sintácticos entre el manifiesto y la correspondencia conocida de Kaczynski. Ambos textos usaban ortografías influenciadas por el británico: “analyse” para “analyze”, “licence” para “license”, “wilfully” para “willfully”, “instalment” para “installment”. Ambos invertían el modismo estadounidense estándar en “no puedes comer tu pastel y tenerlo también”. Ambos empleaban vocabulario inusual incluyendo “quimérico” y “vacuidad de clase media”.[s]
El sociolingüista Roger Shuy contribuyó una inferencia geográfica. Las ortografías del manifiesto, como “clew” para “clue”, coincidían con reformas que The Chicago Tribune había promovido desde los años 1940 hasta los 1950. Estas reformas nunca ganaron adopción extendida, significando que el escritor probablemente las había absorbido durante años formativos en o cerca de Chicago. Kaczynski nació ahí en 1942. El manifiesto también usaba “criar niños” en lugar de “levantar niños”, un marcador dialectal consistente con el norte de Estados Unidos, y términos de jerga como “broad” y “chick” que sugerían un hombre que llegó a la mayoría de edad en los años 1960.[s]
La declaración jurada de orden de allanamiento del FBI incluía comparaciones textuales detalladas lado a lado. El FBI declaró que “nuestro análisis lingüístico determinó que el autor de esos papeles y el manifiesto eran casi ciertamente la misma persona”.[s] Este análisis proporcionó la base legal para una orden de allanamiento, la primera vez que la estilometría forense fue usada en un caso criminal federal para ese propósito.[s] El 3 de abril de 1996, los agentes arrestaron a Kaczynski en su cabaña de Montana. Adentro encontraron materiales para fabricar bombas, 40.000 páginas de diario manuscritas y una copia del manifiesto.
Una salvedad notable: según la declaración jurada de orden de allanamiento, ninguno de los expertos académicos externos consultados había nombrado independientemente a Kaczynski como sospechoso. La identificación dependía del conocimiento familiar de David Kaczynski combinado con el análisis lingüístico de Fitzgerald.[s]
Estilometría forense computacional
El caso Unabomber se basó en comparación lingüística manual. Las raíces computacionales de la disciplina se remontan a 1964, cuando Frederick Mosteller y David Wallace publicaron un estudio estadístico de tres años de los Federalist Papers. Midieron la frecuencia de palabras funcionalesPalabras gramaticales como artículos, preposiciones y conjunciones que cumplen propósitos estructurales en lugar de semánticos en el lenguaje., artículos, preposiciones y conjunciones en ensayos disputados, finalmente atribuyendo doce papeles a James Madison basándose en inferencia bayesiana.[s]
La estilometría forense moderna automatiza y escala este enfoque. El JGAAP (Java Graphical Authorship Attribution Program) de Patrick Juola analiza “literalmente millones de características diferentes”, según Juola, rastreando distribuciones de longitud de palabras, la frecuencia de las 100 palabras más comunes, cuatro-gramas de caracteres (grupos de cuatro caracteres adyacentes, capturando raíces de palabras y patrones transversales), y bigramas de palabras (pares de palabras adyacentes).[s]
En 2013, Juola aplicó JGAAP para determinar si J.K. Rowling había escrito The Cuckoo’s Calling bajo el seudónimo Robert Galbraith. Comparó la novela contra The Casual Vacancy de Rowling y novelas de Ruth Rendell, P.D. James y Val McDermid. Rowling fue la única candidata que coincidió consistentemente en las cuatro pruebas independientes. Peter Millican en la Universidad de Oxford condujo un análisis paralelo y llegó a la misma conclusión.[s] Rowling confirmó subsecuentemente la autoría.
Juola enfatizó las limitaciones del método: “La estilometría forense es mucho menos confiable y precisa que el ADN. Todo lo que realmente sabíamos era que era o por Rowling misma, o por alguien que escribía en un estilo muy similar a Rowling”.[s]
Estilometría adversarialLa práctica de modificar deliberadamente el estilo de escritura para evadir la detección de autoría por herramientas de análisis estilométrico. y la carrera armamentística de la privacidad
Las mismas técnicas de estilometría forense que identifican criminales pueden despojar el anonimato de denunciantes y disidentes. El laboratorio Privacy, Security and Automation de la Universidad Drexel, dirigido por Rachel Greenstadt, desarrolló JStylo y Anonymouth para abordar ambos lados de esta ecuación. JStylo atribuye autoría con 80 a 85 por ciento de precisión de un grupo de 40 candidatos, dada una muestra de 6.500 palabras. Anonymouth entrena a escritores a modificar su estilo para evadir detección.[s]
El subcampo de la estilometría adversarial, la alteración deliberada de la escritura para prevenir atribución, ha producido herramientas cada vez más sofisticadas. Los investigadores han demostrado que la ofuscación manual puede reducir la precisión de la estilometría forense al nivel de adivinanza aleatoria. Las herramientas automatizadas pueden modificar texto iterativamente mientras preservan contenido semántico, aunque tal ofuscación permanece imperfecta: los textos alterados a menudo pueden ser detectados como modificados por máquina, significando que el acto de disfraz mismo deja rastros.
Estilometría de código
La estilometría forense ahora se extiende más allá del lenguaje natural al código fuente. Los programadores exhiben patrones distintivos en el nombramiento de variables, indentación, estilo de comentarios y las elecciones estructurales reflejadas en árboles sintácticos abstractos. Un estudio de 2024 en la Universidad de Bolonia ensambló 114.400 fragmentos de código de 104 desarrolladores de código abierto y entrenó un clasificador k-vecinos más cercanos en incrustaciones code2seq. El sistema logró 69 a 71 por ciento de precisión en atribuir código a autores individuales, incluyendo autores ausentes del conjunto de entrenamiento.[s]
Trabajo anterior de Aylin Caliskan-Islam y colegas en la Universidad Drexel, presentado en USENIX Security 2015, demostró que las características del árbol sintáctico abstracto son particularmente resistentes a la ofuscación, haciendo la estilometría de código más robusta que los enfoques basados en texto contra el disfraz deliberado.[s]
Estándares evidenciales y limitaciones
La evidencia de estilometría forense enfrenta escrutinio en los tribunales. Su admisibilidad depende de la jurisdicción y metodología, típicamente evaluada bajo estándares establecidos para confiabilidad científica.[s] Como observaron los académicos legales Peter Tiersma y Lawrence Solan, “la gran mayoría de abogados y jueces estadounidenses tienen poca o ninguna experiencia con experiencia lingüística en un asunto legal”.[s]
La técnica también tiene restricciones estructurales. Requiere un corpus de comparaciónUna colección de textos de autoría conocida utilizada como material de referencia en análisis estilométrico para identificar patrones de escritura. de escritura conocida; cuando Miles Taylor se reveló en 2020 como el autor anónimo de un editorial y libro del New York Times criticando a la administración Trump, la estilometría forense había fallado en identificarlo porque no tenía publicaciones previas.[s] Los textos cortos permanecen difíciles de analizar confiablemente. Y la atribución de autoría en contextos de escritura multilingües o colaborativos introduce complicaciones adicionales que los modelos actuales manejan pobremente.
El campo continúa avanzando. Los modelos de aprendizaje automático han continuado mejorando la precisión en configuraciones controladas con grupos de autores conocidos. Pero la tensión fundamental persiste: cada mejora en la estilometría forense que ayuda a atrapar a un bombardero también estrecha el espacio en el que un denunciante puede hablar de manera segura. La sombra del Unabomber, proyectada por 35.000 palabras en 1995, todavía cae sobre ambos lados de esa línea.



