El jefe nos pidió analizar algo aparentemente sencillo: ¿qué ocurre cuando cambia la forma en que contamos las cosas, pero fingimos que no pasó nada? La respuesta, resulta, es que nos asustamos de muerte.
El sesgo en la recopilación de datos es una de las fuerzas más subestimadas que moldean el debate público. Funciona así: se cambia la forma de medir algo y luego se comparan los nuevos números con los anteriores como si nada hubiera cambiado. El resultado es una tendencia fantasma, un espectro estadístico que parece un cambio real en la realidad pero que en realidad solo es un cambio en la contabilidad.
No es un problema marginal. Afecta a la climatología, la medicina, las estadísticas criminales y la medición de la pobreza. Y tiene consecuencias reales, porque una política pública construida sobre tendencias fantasmas está edificada sobre arena.
El sesgo en la recopilación de datos y la “epidemia” de autismo
En el año 2000, los CDC determinaron que aproximadamente 1 de cada 150 niños estadounidenses de ocho años tenía un diagnóstico de autismo. Según los datos más recientes, esa cifra es 1 de cada 31, un aumento de casi cinco veces. Los titulares lo han llamado epidemia. Algunos funcionarios lo han calificado de tragedia.
Pero la definición de autismo ha cambiado drásticamente en ese mismo período. Hasta 1980, el DSM clasificaba lo que hoy llamamos autismo como «esquizofrenia de tipo infantil». En 1987, los criterios se ampliaron. En 1994, el síndrome de Asperger apareció como diagnóstico independiente. En 2013, fue incorporado al paraguas más amplio del «trastorno del espectro autista», y por primera vez un niño podía recibir simultáneamente diagnósticos de autismo y TDAH.
Un estudio publicado en 2015 en JAMA Pediatrics examinó niños daneses nacidos entre 1980 y 1991 y concluyó que el 60 % del aumento en la prevalencia del autismo se explicaba únicamente por cambios en los criterios diagnósticos y las prácticas de notificación. Un estudio separado de la Universidad de Columbia determinó que más de una cuarta parte del incremento de casos de autismo en California entre 1992 y 2005 era atribuible a personas previamente diagnosticadas con discapacidad intelectual que habían sido reclasificadas como autistas.
Nada de esto significa que el autismo no sea real, ni que su prevalencia no haya aumentado en absoluto. Factores de riesgo ambientales como la contaminación del aire y la mayor edad de los padres probablemente desempeñan un papel. Pero los titulares hacen algo que los datos subyacentes no hacen: comparan peras con manzanas y lo llaman tendencia.
Las temperaturas oceánicas y el problema de los cubos
Durante siglos, los marineros medían la temperatura superficial del mar arrojando un cubo al océano y metiendo un termómetro dentro. El problema es que no todos los cubos son iguales. Un cubo de lona dejado sobre cubierta tres minutos se enfría unos 0,5 grados Celsius más que uno de madera en las mismas condiciones. Teniendo en cuenta que el calentamiento global total durante todo el siglo XX fue de aproximadamente 1 grado, medio grado de error de medición es enorme.
Para empeorar las cosas, distintas naciones utilizaban distintos tipos de cubos en distintas épocas. Los barcos pesqueros japoneses antes de 1932 registraban temperaturas en grados Fahrenheit enteros, luego convertidos a Celsius. Cuando la Fuerza Aérea de Estados Unidos digitalizó registros navales japoneses de finales de la década de 1930, truncó los datos eliminando los decimales. El resultado fue un aparente enfriamiento rápido en el Pacífico que nunca ocurrió realmente.
Un estudio publicado en Nature en 2024 determinó que los registros existentes de temperatura superficial del mar de 1900 a 1930 son aproximadamente 0,26 grados Celsius demasiado fríos. Esto no cambia nuestra comprensión del calentamiento global total desde mediados del siglo XIX, pero sí altera la forma de la curva de calentamiento, haciendo que la tendencia de principios del siglo XX parezca más gradual y menos misteriosa de lo que parecía.
La conclusión no es que los datos climáticos sean poco fiables. Es que los científicos han pasado décadas corrigiendo meticulosamente estos sesgos, y que quien compare datos históricos en bruto con mediciones modernas sin entender las correcciones comete un error categorial fundamental.
Detección del cáncer y la trampa del tiempo de adelanto
Imaginemos a un hombre que desarrolla cáncer de pulmón a los 60 años sin saberlo. A los 67, aparecen los síntomas. Le diagnostican la enfermedad y muere a los 70. Supervivencia desde el diagnóstico: tres años.
Ahora imaginemos que un tamizaje detecta el cáncer a los 60. Igualmente muere a los 70. Supervivencia desde el diagnóstico: diez años. La supervivencia a cinco años salta de 0 % a 100 %, sin que se haya añadido ni un solo día a su vida.
Esto es el sesgo de tiempo de adelantoDistorsión donde el diagnóstico más temprano hace parecer mayor la supervivencia, aunque el tratamiento y el momento de la muerte no cambien. (en inglés, «lead-time bias»), uno de los problemas más contraintuitivos en medicina. El tamizaje hace que las estadísticas de supervivencia parezcan mejores incluso cuando no hace nada, porque mueve el punto de partida hacia atrás.
Un problema relacionado es el sobrediagnósticoDetección de enfermedades que nunca habrían causado síntomas ni daño en la vida del paciente, a menudo mediante programas de cribado que detectan afecciones de crecimiento lento.: el tamizaje detecta cánceres de crecimiento lento que nunca habrían causado síntomas. El NCI estima que el 19 % de los cánceres de mama y entre el 20 % y el 50 % de los cánceres de próstata detectados mediante tamizaje entran en esta categoría.
Corea del Sur ofrece el ejemplo más llamativo. Tras el inicio del tamizaje de cáncer financiado por el gobierno en 1999, los proveedores comenzaron a añadir ecografías de tiroides. Para 2011, los diagnósticos de cáncer de tiroides se habían multiplicado por quince. Pero la mortalidad por cáncer de tiroides se mantuvo estable. Casi todos los tumores recién detectados eran cánceres papilares pequeños y de crecimiento lento, de menos de 2 centímetros. Decenas de miles de personas fueron operadas innecesariamente por cánceres que nunca les habrían hecho daño.
Estadísticas criminales: contar de otra manera, no contar más
En 2021, el FBI abandonó su antiguo Sistema de Informe Resumido (SRS) en favor del Sistema Nacional de Informe Basado en Incidentes (NIBRS). Con el sistema anterior, si alguien asaltaba un banco, robaba un auto y agredía a un testigo, solo se contabilizaba el delito más grave (el asalto). Con el NIBRS, los tres quedan registrados.
El resultado previsible: las cifras de criminalidad pueden parecer más altas bajo el NIBRS, no porque haya más delitos, sino porque se registran más. El propio FBI advirtió que la transición haría poco confiables las comparaciones año a año. Para colmo, en 2021 la cobertura cayó de aproximadamente el 95 % al 65 % de la población, porque muchas agencias aún no habían completado la transición.
Es el mismo patrón que vemos en todas partes: un cambio metodológico crea la apariencia de un cambio en la realidad.
Qué preguntar cuando los números cambian
El sesgo en la recopilación de datos no es una conspiración. En la mayoría de los casos, el nuevo método de medición es genuinamente mejor. Los criterios modernos de autismo identifican personas que siempre fueron autistas pero que estaban mal etiquetadas o pasadas por alto. El NIBRS ofrece una imagen más completa de la criminalidad que la antigua regla jerárquica. Los científicos que corrigen los registros de temperatura superficial del mar están haciendo que los datos sean más precisos, no menos.
El problema no está en la medición. Está en la comparación. Cuando vea una línea de tendencia dramática, tres preguntas pueden cortar el ruido:
- ¿Cambió la definición? (Autismo, umbrales de pobreza, categorías de delitos)
- ¿Cambió el instrumento? (Cubos a tomas de agua de motores, abrigos de Stevenson a estaciones meteorológicas automáticas)
- ¿Cambió el esfuerzo por observar? (Programas de tamizaje de cáncer, cobertura diagnóstica más amplia)
Si la respuesta a cualquiera de estas preguntas es sí, la línea de tendencia cuenta dos historias a la vez: una sobre la realidad, y otra sobre cómo la observamos. Desenredarlas es el trabajo más difícil e importante en estadística.
El jefe nos orientó hacia un tema que se sitúa en la intersección de la epistemología y las políticas públicas: ¿qué ocurre con los datos de tendencia cuando cambia el aparato de medición subyacente? La respuesta corta: los sesgos en la recopilación de datos generan señales fantasmas, y esas señales impulsan decisiones reales.
El sesgo en la recopilación de datos, a veces llamado sesgo de medición o sesgo de ascertainmentError sistemático donde los cambios en la identificación de casos crean tendencias aparentes que reflejan métodos de detección, no la realidad. según el contexto, surge cuando cambios sistemáticos en la forma de recopilar datos crean la apariencia de cambios en el fenómeno que se mide. Se distingue del error aleatorio, que dispersa los puntos de datos de forma impredecible. El sesgo sistemático los empuja de manera constante en una dirección, y tiende a acumularse con el tiempo.
Lo que sigue es un panorama interdisciplinario de cómo esto se manifiesta en la práctica, a partir de la climatología, la epidemiología, la oncología y la justicia penal.
Sesgo en la recopilación de datos en la prevalencia del autismo: sustitución y acreción diagnósticas
La Red de Monitoreo del Autismo y las Discapacidades del Desarrollo de los CDC ha seguido la prevalencia del autismo desde el año 2000, cuando la tasa era de aproximadamente 1 de cada 150 niños de ocho años. Los datos más recientes indican 1 de cada 31, un aumento de casi cinco veces en dos décadas.
El panorama diagnóstico ha cambiado con la misma intensidad. El DSM-III (1980) introdujo el «autismo infantil» como categoría separada de la esquizofrenia infantil. El DSM-III-R (1987) amplió los criterios en tres dominios: interacción social, comunicación y actividades restringidas. El DSM-IV (1994) añadió el síndrome de Asperger. El DSM-5 (2013) consolidó todo bajo «trastorno del espectro autista» y, de manera crucial, eliminó el criterio de exclusión que impedía el codiagnóstico de autismo y TDAH.
Dos estudios rigurosos han intentado cuantificar la contribución de estos cambios. Hansen et al. (2015), publicado en JAMA Pediatrics, utilizó una cohorte poblacional de 677.915 niños daneses nacidos entre 1980 y 1991. Mediante un modelo de riesgos proporcionales de Cox estratificado con cambios diagnósticos modelados como covariables dependientes del tiempo, determinaron que el 60 % del aumento en la prevalencia del TEA (IC 95 %: 33 %-87 %) era atribuible a dos cambios en la notificación: un cambio en los criterios diagnósticos en 1994 y la inclusión de los contactos ambulatorios en 1995.
King y Bearman (2009), trabajando con 7.003 registros de pacientes del DDS de California, introdujeron una distinción útil entre sustitución diagnóstica (el paciente pasa del diagnóstico X al diagnóstico Y) y acreción diagnóstica (el paciente conserva el diagnóstico X y adquiere Y como comorbilidad). Determinaron que el 26,4 % del aumento de casos de autismo entre 1992 y 2005 era únicamente atribuible a personas previamente diagnosticadas con discapacidad intelectual que posteriormente adquirieron un diagnóstico de autismo, con probabilidades de cambio diagnóstico de 1,55 a 1,82 veces mayores durante los períodos en que cambiaban las prácticas diagnósticas.
Un elemento adicional: la prevalencia del autismo varía enormemente según el estado, de 53,1 por 1.000 en California a 9,7 por 1.000 en Texas. El propio informe de los CDC atribuye esto principalmente a diferencias en la intensidad del tamizaje, no a diferencias reales en la prevalencia subyacente.
Nada de esto descarta un aumento genuino. La mayor edad de los padres, la exposición a la contaminación del aire durante el embarazo y la mejora de la supervivencia neonatal de los bebés prematuros son factores contribuyentes plausibles. Pero la señal es inseparable del ruido del cambio diagnóstico sin una descomposición estadística rigurosa.
Temperatura superficial del mar: cubos, tomas de agua y truncamiento de datos
El registro mundial de temperatura superficial del mar (TSM), mantenido por la NOAA como el conjunto de datos ERSST (Extended Reconstructed SST), se remonta a 1854 y se basa en más de 155 millones de observaciones de embarcaciones de todo tipo. El desafío es que los métodos de medición han cambiado radicalmente durante ese período, y cada método conlleva su propio sesgo sistemático.
Antes de la Segunda Guerra Mundial, la mayoría de las mediciones de TSM usaban muestras con cubos. La transición de cubos de madera a cubos de lona hacia finales del siglo XIX introdujo un sesgo de frío, porque los cubos de lona pierden calor por evaporación más rápidamente. Investigadores de Harvard cuantificaron esto: un cubo de lona dejado sobre cubierta tres minutos en condiciones normales registra aproximadamente 0,5 grados Celsius menos que un cubo de madera. Tras la guerra, las mediciones por tomas de agua de salas de máquinas se volvieron dominantes, introduciendo un sesgo de calor de 0,1 a 0,5 grados Celsius por el calor de los motores.
Un caso particularmente revelador proviene del Pacífico. Chan et al. (2019), publicado en Nature, encontraron que los registros de barcos pesqueros japoneses antes de 1932 se anotaban en grados Fahrenheit enteros, convertidos a Celsius y luego redondeados. Cuando los registros navales japoneses de finales de la década de 1930 fueron digitalizados por la Fuerza Aérea de Estados Unidos, los decimales en Celsius se truncaron por completo. Esto creó un aparente enfriamiento rápido en el Pacífico entre 1935 y 1941 que fue un puro artefacto del procesamiento de datos.
En el Atlántico Norte, los barcos alemanes dominaban la recolección de datos a finales de la década de 1920. Sus mediciones, concentradas en un único «deck» de datos, eran sistemáticamente más cálidas que las de los barcos cercanos, creando un aparente calentamiento regional que era en parte un sesgo de medición.
Un estudio de Nature de 2024 de Dobrynin et al. confirmó un patrón más amplio: los registros de TSM de 1900 a 1930 presentan un sesgo de frío promedio de aproximadamente 0,26 grados Celsius en relación con las temperaturas terrestres reconstruidas de forma independiente. Corregir este sesgo no modifica las estimaciones del calentamiento total desde mediados del siglo XIX, pero altera significativamente la forma de la curva de calentamiento: el calentamiento de principios del siglo XX se vuelve más gradual, la variabilidad decadal disminuye y mejora la concordancia entre las simulaciones de modelos y las observaciones.
Por separado, una auditoría de la GAO de 2011 determinó que el 42 % de las estaciones activas de la Red de Climatología Histórica de EE. UU. no cumplían las propias normas de ubicación de la NOAA, que exigen distancia mínima respecto a superficies pavimentadas y obstáculos. Sin embargo, los propios análisis de la NOAA han mostrado que las estaciones mal ubicadas no sesgan significativamente las tendencias de temperatura a largo plazo tras los ajustes, un punto que merece mención por honestidad intelectual.
Epidemiología del cáncer: sesgo de tiempo de adelantoDistorsión donde el diagnóstico más temprano hace parecer mayor la supervivencia, aunque el tratamiento y el momento de la muerte no cambien., sobrediagnósticoDetección de enfermedades que nunca habrían causado síntomas ni daño en la vida del paciente, a menudo mediante programas de cribado que detectan afecciones de crecimiento lento. y el fenómeno Will Rogers
El tamizaje médico introduce simultáneamente múltiples capas de sesgo en la recopilación de datos, razón por la cual la oncología ha producido algunos de los ejemplos más claros de artefactos de medición confundidos con tendencias reales.
El sesgo de tiempo de adelanto ocurre cuando el tamizaje adelanta la fecha del diagnóstico sin cambiar la fecha de la muerte. Como explica el Instituto Nacional del Cáncer: un hombre diagnosticado con cáncer de pulmón a los 67 años que muere a los 70 tiene una tasa de supervivencia a cinco años del 0 %. Sométalo a tamizaje a los 60, y morirá igualmente a los 70, pero la supervivencia a cinco años es ahora del 100 %. No se ha extendido ninguna vida; solo se ha desplazado la ventana de observación.
El sobrediagnóstico es el caso extremo: el tamizaje detecta cánceres tan de crecimiento lento que nunca habrían causado síntomas durante la vida del paciente. Dunn et al. (2022), en el Journal of the National Cancer Center, revisan la evidencia para múltiples tipos de cáncer. Los estudios estiman que el 19 % de los cánceres de mama y entre el 20 % y el 50 % de los cánceres de próstata detectados por tamizaje están sobrediagnosticados. El programa de tamizaje de neuroblastoma en Japón detectó tumores que regresaron espontáneamente, lo que llevó a su suspensión tras no lograr reducir la mortalidad poblacional.
Corea del Sur proporciona el caso de estudio más llamativo. Tras el lanzamiento de un programa nacional de tamizaje de cáncer en 1999, los proveedores con pago por servicio añadieron ecografía tiroidea. Para 2011, los diagnósticos de cáncer de tiroides se habían multiplicado por quince respecto a los niveles de 1993. La mortalidad no varió. Un estudio nacional encontró que el 94,4 % del aumento consistía en tumores menores de 2 centímetros, y el 97,1 % eran cánceres locales o regionales. Tras las campañas de concientización pública, las operaciones de tiroides cayeron un 35 % en un solo año.
El fenómeno Will Rogers, descrito por Feinstein et al. en 1985, agrega otra capa: cuando un diagnóstico mejorado reclasifica a pacientes de estadios inferiores a superiores, las estadísticas de supervivencia de ambos estadios parecen mejorar, aunque ningún paciente esté realmente mejor. El nombre proviene del comentario de Will Rogers de que cuando los Okies abandonaban Oklahoma rumbo a California, elevaban el nivel de inteligencia promedio de ambos estados.
Sesgos en la recopilación de datos en las estadísticas criminales: la transición al NIBRS
La transición del FBI en 2021 del Sistema de Informe Resumido (SRS) al Sistema Nacional de Informe Basado en Incidentes (NIBRS) ilustra un caso de manual de discontinuidad metodológica.
Bajo el SRS, un solo incidente se clasificaba según su delito más grave (la «regla jerárquica»). Un incidente de robo, agresión y hurto contaba como un solo robo. Bajo el NIBRS, todos los delitos de un incidente se registran, hasta diez por evento. El NIBRS también captura tipos de delitos que el SRS no rastreaba en absoluto, como la intimidación, la trata de personas y el secuestro.
La consecuencia estadística inmediata es que los recuentos de crímenes reportados bajo el NIBRS pueden ser más altos que los del SRS para niveles idénticos de actividad criminal. El propio informe del FBI de 2015 reconocía que las agencias temían que «el público, los medios y los funcionarios gubernamentales malinterpretaran el aparente cambio en la criminalidad y atribuyeran el aumento de los recuentos a una administración policial fallida, en lugar de a un cambio en cómo se reportan los datos».
El problema se agravó porque la transición de 2021 fue incompleta. La cobertura poblacional cayó de aproximadamente el 95 % al 65 %, porque muchas agencias aún no habían realizado la conversión. Esto creó un cambio simultáneo de metodología y marco muestral, haciendo que las comparaciones entre 2020 y 2021 fueran esencialmente sin valor para cualquier propósito riguroso.
El patrón a través de los dominios
El hilo conductor es sencillo: cuando cambia la medición, los datos de tendencia se rompen. Los mecanismos específicos varían:
- Expansión diagnóstica: criterios más amplios capturan casos que siempre existieron (autismo, TDAH)
- Sustitución de instrumentos: nuevas herramientas conllevan sesgos sistemáticos diferentes (cubos a tomas de agua de motores, abrigos de Stevenson a estaciones meteorológicas automáticas)
- Intensidad del tamizaje: buscar más encuentra más de lo que siempre estuvo ahí (cáncer de tiroides, neuroblastoma)
- Metodología de notificación: las reglas de conteo cambian lo que es visible en los datos agregados (SRS a NIBRS, medida oficial de pobreza a SPM)
- Artefactos del procesamiento de datos: la digitalización, el redondeo y el truncamiento introducen errores invisibles sin análisis forense (registros japoneses de TSM)
En cada caso, el remedio es el mismo: comparar lo comparable. Los científicos que corrigen el registro de TSM lo hacen analizando los cruces entre barcos. Los epidemiólogos lo hacen modelando los cambios diagnósticos como covariables dependientes del tiempo. El público general, ante un titular sobre una tendencia dramática, puede hacer tres preguntas:
- ¿Cambió la definición de lo que se mide?
- ¿Cambió el instrumento o el método de medición?
- ¿Cambió la intensidad o el alcance de la medición?
Si la respuesta a cualquiera de estas es sí, la línea de tendencia codifica dos señales: una de la realidad, una del aparato de medición. Separarlas es un trabajo estadístico minucioso. Ignorar esa distinción es como nacen las epidemias fantasmas.



