Crisis de replicación: guía esencial y por qué el 36 % replica

En 2011, un respetado psicólogo social llamado Daryl Bem publicó un artículo en una de las revistas más prestigiosas de la disciplina, afirmando haber encontrado evidencias de precognición. Nueve experimentos, ocho resultados estadísticamente significativos, todos ellos sugiriendo que los seres humanos pueden percibir el futuro. El artículo había superado la revisión por pares. Las estadísticas eran correctas. La metodología seguía cada convención que el campo exigía. Era un presagio de la crisis de replicación que pronto obligaría a toda la disciplina a confrontar cómo sus métodos podían producir, validar y publicar evidencias de algo que casi con toda certeza no es real.

El problema no era que Bem fuera un fraude. El problema era que las propias convenciones estaban rotas. Cuando otros investigadores intentaron replicar sus resultados, no encontraron nada. Y cuando enviaron sus hallazgos nulos para su publicación, la misma revista que había publicado el artículo original los rechazó, argumentando que no publicaba replicaciones.

Este episodio no causó la crisis de replicación en psicología. La reveló. Un sistema capaz de producir, validar y publicar evidencias de poderes psíquicos mientras simultáneamente se negaba a publicar su refutación tenía un problema estructural que iba mucho más allá de cualquier estudio individual.

Lo que realmente encontró el Proyecto de Reproducibilidad

En 2015, la Open Science Collaboration, liderada por el psicólogo de la Universidad de Virginia Brian Nosek, publicó los resultados del mayor intento de replicación sistemática en la historia de la psicología. El equipo seleccionó 100 estudios de tres revistas líderes de psicología, todos publicados en 2008, e intentó reproducirlos utilizando los métodos y materiales originales y, cuando fue posible, consultando a los autores originales.

Los resultados fueron contundentes. De los 100 estudios originales, 97 habían reportado hallazgos estadísticamente significativos. Solo 36 de las replicaciones alcanzaron significación estadística. El tamaño del efecto medio en las replicaciones fue aproximadamente la mitad del de los originales. Cuando los equipos de replicación fueron invitados a hacer una valoración subjetiva de si el resultado original se había reproducido, solo el 39 % respondió afirmativamente.

Estas cifras necesitan contexto. Una tasa de replicación del 36 % no significa que el 64 % de los hallazgos en psicología sean «incorrectos» en el sentido cotidiano. Algunos fracasos pueden reflejar diferencias en la población, el entorno o la implementación, en lugar de un hallazgo original falso. Pero incluso teniendo en cuenta estos factores, la brecha entre lo que afirmaba la literatura y lo que una replicación cuidadosa podía reproducir era demasiado grande para explicarla. Algo sistemático estaba inflando los resultados que llegaban a publicarse.

Los mecanismos: cómo se acumulan los falsos positivos

Para entender por qué los resultados publicados son menos fiables de lo que parecen, hay que comprender tres prácticas que técnicamente no constituyen fraude, pero producen muchas de sus mismas consecuencias. Los investigadores les han dado nombres: p-hacking (manipulación del valor p), HARKing y sesgo de publicación. Interactúan entre sí de maneras que agravan el problema.

P-hacking: ajustar los datos a la hipótesis

La significación estadística en psicología significa tradicionalmente alcanzar un valor p inferior a 0,05, lo que se traduce aproximadamente como: «Si no hubiera ningún efecto real, habría menos de un 5 % de probabilidades de observar resultados tan extremos como estos.» El umbral es arbitrario, pero universal. Las carreras, las decisiones de permanencia y las publicaciones en revistas dependen todas de superarlo.

El p-hacking designa la práctica de ajustar el análisis hasta cruzar ese umbral. Puede adoptar muchas formas: eliminar valores atípicos, agregar o eliminar variables de control, probar múltiples variables dependientes e informar solo la que funcionó, recopilar más datos hasta que el valor p caiga por debajo de 0,05, o dividir a los participantes en subgrupos hasta que una combinación produzca significación. Ninguno de estos pasos requiere deshonestidad consciente. Un investigador que cree sinceramente en su hipótesis podría tomar cada una de estas decisiones por razones defendibles, sin reconocer que el efecto acumulado es inflar drásticamente la tasa de falsos positivos.

Una encuesta de 2012 realizada a más de 2.000 psicólogos reveló que el 42 % admitió recopilar datos adicionales tras comprobar si los resultados eran estadísticamente significativos, y el 64 % admitió publicar selectivamente los estudios que «funcionaron». Un análisis de la Royal Society catalogó las estrategias específicas y descubrió que incluso un p-hacking moderado podía elevar la tasa de falsos positivos del 5 % nominal a más del 60 %.

HARKing: formular la hipótesis después de ver los resultados

HARKing son las siglas en inglés de Hypothesizing After the Results are Known (formular hipótesis una vez conocidos los resultados). Describe la práctica de realizar un experimento, encontrar un patrón inesperado en los datos y luego redactar el artículo como si se hubiera predicho ese patrón desde el principio. La introducción presenta una justificación teórica impecable. La sección de resultados ofrece una confirmación satisfactoria. El lector nunca descubre que el investigador probó cuatro hipótesis diferentes y que la del artículo fue la única que alcanzó significación.

La misma encuesta de 2012 reveló que el 51 % de los psicólogos admitió haber presentado un hallazgo inesperado como si hubiera sido predicho desde el inicio. El HARKing transforma la investigación exploratoria (valiosa pero incierta) en investigación confirmatoria (que parece mucho más convincente). Hace que la literatura científica parezca una serie de predicciones exitosas, en lugar de lo que frecuentemente es: una colección de patrones encontrados a posteriori.

El sesgo de publicación: el problema del cajón

En 1979, el psicólogo Robert Rosenthal describió lo que denominó el «problema del cajón». Por cada estudio que encuentra un resultado estadísticamente significativo y se publica, puede haber varios estudios que probaron la misma hipótesis, no encontraron nada y nunca fueron enviados o nunca fueron aceptados. La literatura publicada, por tanto, sobrerepresenta sistemáticamente los hallazgos positivos.

Es el sesgo de supervivencia aplicado al conocimiento científico. Se ven los estudios que sobrevivieron al proceso de publicación. No se ven los que fueron abandonados, rechazados o nunca redactados porque los resultados «no eran lo suficientemente interesantes». Los estudios supervivientes crean una ilusión de coherencia. Si diez laboratorios prueban el mismo efecto y solo los dos que encontraron significación publican sus resultados, la literatura mostrará una tasa de replicación del 100 % para un hallazgo que en realidad falló el 80 % de las veces.

El sesgo de publicación no es una conspiración secreta. Es el resultado predecible de un sistema en el que las revistas quieren hallazgos novedosos y significativos, los revisores encuentran los resultados nulos poco interesantes y los investigadores necesitan publicaciones para conservar sus puestos. Cada implicado responde racionalmente a los incentivos que tiene delante. El resultado es un registro científico sistemáticamente engañoso.

La advertencia de Ioannidis

Una década antes de que el Proyecto de Reproducibilidad confirmara empíricamente el problema, el epidemiólogo de Stanford John Ioannidis publicó un artículo en PLoS Medicine con uno de los títulos más provocadores en la historia de la ciencia: «Why Most Published Research Findings Are False» (Por qué la mayoría de los resultados de investigación publicados son falsos). Usando un modelo matemático que incorporaba el sesgo, la potencia estadística y la proporción entre hipótesis verdaderas y falsas en un campo determinado, Ioannidis argumentó que la mayoría de los hallazgos publicados probablemente eran incorrectos.

El artículo se ha convertido en uno de los más citados en la historia de la literatura médica. Su idea central es sencilla una vez que se comprende: en cualquier campo en el que los investigadores prueban muchas hipótesis, la mayoría de las cuales probablemente son falsas, incluso una baja tasa de falsos positivos producirá una literatura dominada por hallazgos espurios. Si a esto se añaden estudios con poca potencia estadística (con demasiado pocos participantes para detectar efectos reales de forma fiable), métodos de análisis flexibles y publicación selectiva, el panorama empeora aún más.

No todo el mundo está de acuerdo con la conclusión más drástica de Ioannidis. Los bioestadísticos Jager y Leek calcularon la tasa de falsos positivos en la literatura médica en torno al 14 %, lejos de la mayoría que sugería Ioannidis. Pero incluso las estimaciones más generosas reconocen que el registro publicado contiene sustancialmente más falsos positivos de lo que sus métodos estadísticos llevarían a esperar.

La crisis de replicación en la práctica: lo que se derrumbó

Las estadísticas abstractas se vuelven concretas cuando se examinan hallazgos específicos que no sobrevivieron a la replicación.

El agotamiento del ego (ego depletion) fue uno de los conceptos más influyentes de la psicología social durante dos décadas. La idea: la fuerza de voluntad es un recurso finito, como el depósito de combustible de un vehículo. Ejercer el autocontrol en una tarea reduce lo que queda disponible para la siguiente. En 2010, más de 200 estudios publicados respaldaban el concepto. Luego, en 2016, un informe de replicación registrada coordinado en 23 laboratorios con más de 2.100 participantes encontró un tamaño del efecto de prácticamente cero (d = 0,04, con intervalos de confianza que iban de negativo a apenas positivo). La torre de 200 estudios había sido construida sobre cimientos que no podían sostenerla.

El caso del agotamiento del ego es instructivo porque no es una historia de mala ciencia practicada por malas personas. Los investigadores originales eran respetados. Los estudios estaban bien construidos según los estándares de su época. Lo que falló fue el sistema que los rodeaba: estudios individuales con poca potencia estadística, publicación selectiva de resultados positivos y un marco teórico tan intuitivo que desalentaba el escepticismo.

Las posturas de poder (power posing), la afirmación de que adoptar posturas corporales expansivas durante dos minutos provoca cambios hormonales y aumenta la propensión a asumir riesgos, se convirtió en un fenómeno cultural tras una charla TED de 2012 de Amy Cuddy que ha sido vista más de 70 millones de veces. El estudio original de 2010 contaba con 42 participantes. Los intentos de replicación posteriores con muestras más grandes no pudieron reproducir los efectos hormonales ni conductuales. Una de las coautoras originales, Dana Carney, declaró públicamente en 2016 que no creía que el efecto fuera real.

Estos no son ejemplos seleccionados a dedo. El efecto Dunning-Kruger, citado durante mucho tiempo como prueba de que las personas incompetentes son especialmente incapaces de reconocer su propia incompetencia, se ha enfrentado a serias críticas estadísticas que sugieren que el patrón característico podría ser en gran medida un artefacto de la regresión hacia la media, más que un sesgo cognitivo real. La amenaza del estereotipo, los efectos de priming y la hipótesis de la retroalimentación facial han registrado importantes fracasos de replicación o tamaños del efecto drásticamente reducidos.

Por qué la psicología fue la más afectada

La crisis de replicación no es exclusiva de la psicología. La medicina, la economía, la biología del cáncer y las ciencias políticas han tenido sus propios ajustes de cuentas. Pero la psicología se convirtió en el emblema de la crisis, y hay razones estructurales para ello.

En primer lugar, la psicología estudia el comportamiento humano, que es sensible al contexto de formas que la química y la física no lo son. Un efecto demostrado en estudiantes universitarios estadounidenses en una universidad concreta en una década concreta puede no generalizarse a otras poblaciones, entornos o periodos de tiempo. Esta sensibilidad al contexto hace que la replicación sea intrínsecamente más difícil, pero también significa que el campo necesitaba métodos más rigurosos, no menos, para distinguir los efectos reales del ruido estadístico.

En segundo lugar, la psicología trabajó históricamente con muestras pequeñas. Un estudio con 40 participantes divididos en dos grupos tiene muy poca potencia estadística para detectar otra cosa que no sean efectos grandes. Pero si se combinan muestras pequeñas con análisis flexible y sesgo de publicación, se obtiene una literatura llena de hallazgos estadísticamente significativos que en realidad son ruido.

En tercer lugar, la estructura de incentivos en psicología recompensa especialmente la novedad. Un estudio que muestra que una intervención sorprendente cambia el comportamiento es más publicable, más citable y con más probabilidades de generar cobertura mediática que uno que muestra que no lo hace. Los mecanismos estructurales detrás de la investigación contradictoria se aplican en todas las disciplinas, pero en psicología interactúan con un objeto de estudio en el que los hallazgos sorprendentes son especialmente atractivos.

Qué ha cambiado desde 2015

La crisis de replicación impulsó lo que algunos investigadores denominan una «revolución de la credibilidad»: un conjunto de reformas estructurales destinadas a hacer el sistema más resistente a los problemas descritos. El progreso es real, medible e incompleto.

El prerregistro obliga a los investigadores a comprometerse públicamente con sus hipótesis, métodos y planes de análisis antes de recopilar los datos. Esto hace que el p-hacking y el HARKing sean más difíciles, aunque no imposibles. El número de estudios prerregistrados ha crecido de forma sustancial, aunque un análisis de 2025 encontró que algunos investigadores siguen desviándose de sus planes registrados sin comunicarlo.

Los informes registrados van más lejos. Las revistas revisan y aceptan propuestas de estudios antes de que se recopilen los datos, comprometiéndose a publicar los resultados independientemente del desenlace. Más de 300 revistas ofrecen actualmente este formato. Los estudios publicados como informes registrados muestran una tasa notablemente más alta de resultados nulos en comparación con las publicaciones tradicionales, lo que sugiere que el proceso tradicional efectivamente filtraba los resultados negativos.

Los tamaños de muestra han aumentado. En psicología social, el tamaño de muestra mediano ha pasado de unos 80 a 100 participantes a principios de la década de 2010 a aproximadamente 250 en la actualidad. Las muestras más grandes ofrecen mayor potencia estadística y estimaciones más fiables.

Los datos abiertos y los materiales abiertos permiten a otros investigadores verificar los análisis e intentar replicaciones. Muchas revistas ahora exigen o fomentan el intercambio de datos, y plataformas como el Open Science Framework proporcionan la infraestructura necesaria.

Estas reformas han tenido efectos mensurables. Las principales revistas muestran ahora estándares de evidencia más estrictos. El patrón de hallazgos casi exclusivamente positivos que caracterizaba la literatura anterior a la crisis se ha suavizado. Pero una revisión de alcance publicada en 2025 en Royal Society Open Science identificó una brecha significativa: de más de 100 estudios que examinaban intervenciones de ciencia abierta, solo 15 midieron directamente si las intervenciones mejoraban realmente la reproducibilidad. Las reformas son plausibles, cada vez más adoptadas y aún solo parcialmente validadas.

Qué no ha cambiado

La estructura de incentivos de la ciencia académica sigue recompensando el volumen de publicaciones, el número de citas y los hallazgos novedosos por encima de la replicación, el rigor y los resultados nulos. Los investigadores que dedican su tiempo a replicar el trabajo ajeno producen menos artículos «originales», lo que puede perjudicar sus carreras. Las revistas que publican replicaciones atraen menos citas que las que publican hallazgos novedosos.

El prerregistro puede eludirse. Los investigadores pueden prerregistrar planes de análisis vagos o múltiples, desviarse del plan registrado y comunicar la desviación con letra pequeña, o simplemente no prerregistrar su trabajo exploratorio y presentarlo como confirmatorio. El artículo de 2025 titulado «Campbell’s Law Explains the Replication Crisis» argumentó que las insignias de prerregistro podrían convertirse en otra métrica sujeta a manipulación, siguiendo el patrón según el cual cualquier medida utilizada como objetivo deja de ser una buena medida.

El público en general, mientras tanto, sigue encontrándose con los hallazgos de la psicología principalmente a través de una cobertura mediática que elimina la incertidumbre, el contexto y los tamaños del efecto. Un estudio que encuentra un efecto pequeño y posiblemente frágil se convierte en un titular que afirma que «la ciencia demuestra» alguna verdad contraintuitiva sobre la naturaleza humana. Para cuando llega el fracaso de replicación, si es que llega, el hallazgo original ya está arraigado en el imaginario popular y en los libros de autoayuda.

Lo que esto significa para leer estudios

La crisis de replicación no significa que la psicología sea inútil ni que todos los hallazgos publicados sean incorrectos. Significa que la literatura publicada es una muestra sesgada de la investigación realizada, que los estudios individuales (especialmente los que tienen muestras pequeñas, hallazgos sorprendentes y ninguna replicación independiente) deben tratarse como evidencia preliminar en lugar de hechos establecidos, y que los mecanismos de corrección están mejorando, pero están lejos de ser completos.

Si estás leyendo un estudio de psicología, o más habitualmente un artículo de prensa sobre uno, vale la pena hacerse algunas preguntas. ¿Qué tamaño tenía la muestra? ¿Lo ha replicado alguien? ¿Estaba prerregistrado? ¿El tamaño del efecto sugiere algo significativo, o el hallazgo es estadísticamente significativo pero prácticamente irrelevante? ¿El hallazgo se reporta con la incertidumbre adecuada, o se presenta como una verdad establecida?

La ciencia no está rota. Pero el sistema que traduce el trabajo científico en conocimiento publicado tiene modos de fallo que la crisis de replicación expuso, y corregir esos modos de fallo es un proyecto que aún está en marcha. Lo más honesto que ha hecho la psicología en la última década es admitirlo en voz alta.

La crisis de replicación: por qué la mayoría de los estudios publicados en psicología no pueden reproducirse

Lo que realmente encontró el Proyecto de Reproducibilidad

Los mecanismos: cómo se acumulan los falsos positivos

P-hacking: ajustar los datos a la hipótesis

HARKing: formular la hipótesis después de ver los resultados

El sesgo de publicación: el problema del cajón

La advertencia de Ioannidis

La crisis de replicación en la práctica: lo que se derrumbó

Por qué la psicología fue la más afectada

Qué ha cambiado desde 2015

Qué no ha cambiado

Lo que esto significa para leer estudios

Fuentes

Lo que realmente encontró el Proyecto de Reproducibilidad

Los mecanismos: cómo se acumulan los falsos positivos

P-hacking: ajustar los datos a la hipótesis

HARKing: formular la hipótesis después de ver los resultados

El sesgo de publicación: el problema del cajón

La advertencia de Ioannidis

La crisis de replicación en la práctica: lo que se derrumbó

Por qué la psicología fue la más afectada

Qué ha cambiado desde 2015

Qué no ha cambiado

Lo que esto significa para leer estudios

Fuentes

Artículos relacionados

Cómo funciona la memoria humana y por qué los testimonios de testigos oculares son poco fiables

Obsolescencia programada: cómo los fabricantes diseñan productos para que fallen

La captura regulatoria: cómo las industrias se apoderan de los organismos que deberían fiscalizarlas

Cómo funciona realmente el sueño: el modelo de dos procesos, la deuda de sueño y por qué los fines de semana no son suficientes