En 2011, un respetado psicólogo social llamado Daryl Bem publicó un artículo en una de las revistas más prestigiosas de la disciplina, afirmando haber encontrado evidencias de precognición. Nueve experimentos, ocho resultados estadísticamente significativos, todos ellos sugiriendo que los seres humanos pueden percibir el futuro. El artículo había superado la revisión por pares. Las estadísticas eran correctas. La metodología seguía cada convención que el campo exigía. Era un presagio de la crisis de replicaciónProblema metodológico persistente en la ciencia: muchos resultados publicados no pueden ser reproducidos por investigadores independientes, lo que socava la confianza en la literatura científica. que pronto obligaría a toda la disciplina a confrontar cómo sus métodos podían producir, validar y publicar evidencias de algo que casi con toda certeza no es real.
El problema no era que Bem fuera un fraude. El problema era que las propias convenciones estaban rotas. Cuando otros investigadores intentaron replicar sus resultados, no encontraron nada. Y cuando enviaron sus hallazgos nulos para su publicación, la misma revista que había publicado el artículo original los rechazó, argumentando que no publicaba replicaciones.
Este episodio no causó la crisis de replicación en psicología. La reveló. Un sistema capaz de producir, validar y publicar evidencias de poderes psíquicos mientras simultáneamente se negaba a publicar su refutación tenía un problema estructural que iba mucho más allá de cualquier estudio individual.
Lo que realmente encontró el Proyecto de Reproducibilidad
En 2015, la Open Science Collaboration, liderada por el psicólogo de la Universidad de Virginia Brian Nosek, publicó los resultados del mayor intento de replicación sistemática en la historia de la psicología. El equipo seleccionó 100 estudios de tres revistas líderes de psicología, todos publicados en 2008, e intentó reproducirlos utilizando los métodos y materiales originales y, cuando fue posible, consultando a los autores originales.
Los resultados fueron contundentes. De los 100 estudios originales, 97 habían reportado hallazgos estadísticamente significativos. Solo 36 de las replicaciones alcanzaron significación estadística. El tamaño del efectoUna medida estandarizada de la magnitud de la diferencia entre grupos en un estudio, independiente del tamaño de la muestra. medio en las replicaciones fue aproximadamente la mitad del de los originales. Cuando los equipos de replicación fueron invitados a hacer una valoración subjetiva de si el resultado original se había reproducido, solo el 39 % respondió afirmativamente.
Estas cifras necesitan contexto. Una tasa de replicación del 36 % no significa que el 64 % de los hallazgos en psicología sean «incorrectos» en el sentido cotidiano. Algunos fracasos pueden reflejar diferencias en la población, el entorno o la implementación, en lugar de un hallazgo original falso. Pero incluso teniendo en cuenta estos factores, la brecha entre lo que afirmaba la literatura y lo que una replicación cuidadosa podía reproducir era demasiado grande para explicarla. Algo sistemático estaba inflando los resultados que llegaban a publicarse.
Los mecanismos: cómo se acumulan los falsos positivos
Para entender por qué los resultados publicados son menos fiables de lo que parecen, hay que comprender tres prácticas que técnicamente no constituyen fraude, pero producen muchas de sus mismas consecuencias. Los investigadores les han dado nombres: p-hackingLa práctica de ajustar los métodos de análisis estadístico hasta lograr significancia (valor p por debajo de 0,05), inflando las tasas de falsos positivos sin necesariamente implicar fraude intencional. (manipulación del valor p), HARKingHipotecizar Después de Conocer los Resultados; presentar hallazgos exploratorios descubiertos después de analizar datos como si hubieran sido predichos de antemano, enmascarando la generación de hipótesis como prueba de hipótesis. y sesgo de publicaciónTendencia a que los estudios con resultados positivos o estadísticamente significativos se publiquen con mucha más frecuencia que aquellos con resultados nulos o negativos, distorsionando la literatura científica disponible.. Interactúan entre sí de maneras que agravan el problema.
P-hacking: ajustar los datos a la hipótesis
La significación estadística en psicología significa tradicionalmente alcanzar un valor p inferior a 0,05, lo que se traduce aproximadamente como: «Si no hubiera ningún efecto real, habría menos de un 5 % de probabilidades de observar resultados tan extremos como estos.» El umbral es arbitrario, pero universal. Las carreras, las decisiones de permanencia y las publicaciones en revistas dependen todas de superarlo.
El p-hacking designa la práctica de ajustar el análisis hasta cruzar ese umbral. Puede adoptar muchas formas: eliminar valores atípicos, agregar o eliminar variables de control, probar múltiples variables dependientes e informar solo la que funcionó, recopilar más datos hasta que el valor p caiga por debajo de 0,05, o dividir a los participantes en subgrupos hasta que una combinación produzca significación. Ninguno de estos pasos requiere deshonestidad consciente. Un investigador que cree sinceramente en su hipótesis podría tomar cada una de estas decisiones por razones defendibles, sin reconocer que el efecto acumulado es inflar drásticamente la tasa de falsos positivos.
Una encuesta de 2012 realizada a más de 2.000 psicólogos reveló que el 42 % admitió recopilar datos adicionales tras comprobar si los resultados eran estadísticamente significativos, y el 64 % admitió publicar selectivamente los estudios que «funcionaron». Un análisis de la Royal Society catalogó las estrategias específicas y descubrió que incluso un p-hacking moderado podía elevar la tasa de falsos positivos del 5 % nominal a más del 60 %.
HARKing: formular la hipótesis después de ver los resultados
HARKing son las siglas en inglés de Hypothesizing After the Results are Known (formular hipótesis una vez conocidos los resultados). Describe la práctica de realizar un experimento, encontrar un patrón inesperado en los datos y luego redactar el artículo como si se hubiera predicho ese patrón desde el principio. La introducción presenta una justificación teórica impecable. La sección de resultados ofrece una confirmación satisfactoria. El lector nunca descubre que el investigador probó cuatro hipótesis diferentes y que la del artículo fue la única que alcanzó significación.
La misma encuesta de 2012 reveló que el 51 % de los psicólogos admitió haber presentado un hallazgo inesperado como si hubiera sido predicho desde el inicio. El HARKing transforma la investigación exploratoria (valiosa pero incierta) en investigación confirmatoria (que parece mucho más convincente). Hace que la literatura científica parezca una serie de predicciones exitosas, en lugar de lo que frecuentemente es: una colección de patrones encontrados a posteriori.
El sesgo de publicación: el problema del cajón
En 1979, el psicólogo Robert Rosenthal describió lo que denominó el «problema del cajón». Por cada estudio que encuentra un resultado estadísticamente significativo y se publica, puede haber varios estudios que probaron la misma hipótesis, no encontraron nada y nunca fueron enviados o nunca fueron aceptados. La literatura publicada, por tanto, sobrerepresenta sistemáticamente los hallazgos positivos.
Es el sesgo de supervivenciaError lógico de sacar conclusiones de datos incompletos donde se han eliminado los fracasos, lo que lleva a suposiciones incorrectas sobre los factores de éxito. aplicado al conocimiento científico. Se ven los estudios que sobrevivieron al proceso de publicación. No se ven los que fueron abandonados, rechazados o nunca redactados porque los resultados «no eran lo suficientemente interesantes». Los estudios supervivientes crean una ilusión de coherencia. Si diez laboratorios prueban el mismo efecto y solo los dos que encontraron significación publican sus resultados, la literatura mostrará una tasa de replicación del 100 % para un hallazgo que en realidad falló el 80 % de las veces.
El sesgo de publicación no es una conspiración secreta. Es el resultado predecible de un sistema en el que las revistas quieren hallazgos novedosos y significativos, los revisores encuentran los resultados nulos poco interesantes y los investigadores necesitan publicaciones para conservar sus puestos. Cada implicado responde racionalmente a los incentivos que tiene delante. El resultado es un registro científico sistemáticamente engañoso.
La advertencia de Ioannidis
Una década antes de que el Proyecto de Reproducibilidad confirmara empíricamente el problema, el epidemiólogo de Stanford John Ioannidis publicó un artículo en PLoS Medicine con uno de los títulos más provocadores en la historia de la ciencia: «Why Most Published Research Findings Are False» (Por qué la mayoría de los resultados de investigación publicados son falsos). Usando un modelo matemático que incorporaba el sesgo, la potencia estadística y la proporción entre hipótesis verdaderas y falsas en un campo determinado, Ioannidis argumentó que la mayoría de los hallazgos publicados probablemente eran incorrectos.
El artículo se ha convertido en uno de los más citados en la historia de la literatura médica. Su idea central es sencilla una vez que se comprende: en cualquier campo en el que los investigadores prueban muchas hipótesis, la mayoría de las cuales probablemente son falsas, incluso una baja tasa de falsos positivos producirá una literatura dominada por hallazgos espurios. Si a esto se añaden estudios con poca potencia estadística (con demasiado pocos participantes para detectar efectos reales de forma fiable), métodos de análisis flexibles y publicación selectiva, el panorama empeora aún más.
No todo el mundo está de acuerdo con la conclusión más drástica de Ioannidis. Los bioestadísticos Jager y Leek calcularon la tasa de falsos positivos en la literatura médica en torno al 14 %, lejos de la mayoría que sugería Ioannidis. Pero incluso las estimaciones más generosas reconocen que el registro publicado contiene sustancialmente más falsos positivos de lo que sus métodos estadísticos llevarían a esperar.
La crisis de replicación en la práctica: lo que se derrumbó
Las estadísticas abstractas se vuelven concretas cuando se examinan hallazgos específicos que no sobrevivieron a la replicación.
El agotamiento del ego (ego depletion) fue uno de los conceptos más influyentes de la psicología social durante dos décadas. La idea: la fuerza de voluntad es un recurso finito, como el depósito de combustible de un vehículo. Ejercer el autocontrol en una tarea reduce lo que queda disponible para la siguiente. En 2010, más de 200 estudios publicados respaldaban el concepto. Luego, en 2016, un informe de replicación registrada coordinado en 23 laboratorios con más de 2.100 participantes encontró un tamaño del efecto de prácticamente cero (d = 0,04, con intervalos de confianza que iban de negativo a apenas positivo). La torre de 200 estudios había sido construida sobre cimientos que no podían sostenerla.
El caso del agotamiento del ego es instructivo porque no es una historia de mala ciencia practicada por malas personas. Los investigadores originales eran respetados. Los estudios estaban bien construidos según los estándares de su época. Lo que falló fue el sistema que los rodeaba: estudios individuales con poca potencia estadística, publicación selectiva de resultados positivos y un marco teórico tan intuitivo que desalentaba el escepticismo.
Las posturas de poder (power posing), la afirmación de que adoptar posturas corporales expansivas durante dos minutos provoca cambios hormonales y aumenta la propensión a asumir riesgos, se convirtió en un fenómeno cultural tras una charla TED de 2012 de Amy Cuddy que ha sido vista más de 70 millones de veces. El estudio original de 2010 contaba con 42 participantes. Los intentos de replicación posteriores con muestras más grandes no pudieron reproducir los efectos hormonales ni conductuales. Una de las coautoras originales, Dana Carney, declaró públicamente en 2016 que no creía que el efecto fuera real.
Estos no son ejemplos seleccionados a dedo. El efecto Dunning-Kruger, citado durante mucho tiempo como prueba de que las personas incompetentes son especialmente incapaces de reconocer su propia incompetencia, se ha enfrentado a serias críticas estadísticas que sugieren que el patrón característico podría ser en gran medida un artefacto de la regresión hacia la media, más que un sesgo cognitivo real. La amenaza del estereotipo, los efectos de priming y la hipótesis de la retroalimentación facial han registrado importantes fracasos de replicación o tamaños del efecto drásticamente reducidos.
Por qué la psicología fue la más afectada
La crisis de replicación no es exclusiva de la psicología. La medicina, la economía, la biología del cáncer y las ciencias políticas han tenido sus propios ajustes de cuentas. Pero la psicología se convirtió en el emblema de la crisis, y hay razones estructurales para ello.
En primer lugar, la psicología estudia el comportamiento humano, que es sensible al contexto de formas que la química y la física no lo son. Un efecto demostrado en estudiantes universitarios estadounidenses en una universidad concreta en una década concreta puede no generalizarse a otras poblaciones, entornos o periodos de tiempo. Esta sensibilidad al contexto hace que la replicación sea intrínsecamente más difícil, pero también significa que el campo necesitaba métodos más rigurosos, no menos, para distinguir los efectos reales del ruido estadístico.
En segundo lugar, la psicología trabajó históricamente con muestras pequeñas. Un estudio con 40 participantes divididos en dos grupos tiene muy poca potencia estadística para detectar otra cosa que no sean efectos grandes. Pero si se combinan muestras pequeñas con análisis flexible y sesgo de publicación, se obtiene una literatura llena de hallazgos estadísticamente significativos que en realidad son ruido.
En tercer lugar, la estructura de incentivos en psicología recompensa especialmente la novedad. Un estudio que muestra que una intervención sorprendente cambia el comportamiento es más publicable, más citable y con más probabilidades de generar cobertura mediática que uno que muestra que no lo hace. Los mecanismos estructurales detrás de la investigación contradictoria se aplican en todas las disciplinas, pero en psicología interactúan con un objeto de estudio en el que los hallazgos sorprendentes son especialmente atractivos.
Qué ha cambiado desde 2015
La crisis de replicación impulsó lo que algunos investigadores denominan una «revolución de la credibilidad»: un conjunto de reformas estructurales destinadas a hacer el sistema más resistente a los problemas descritos. El progreso es real, medible e incompleto.
El prerregistro obliga a los investigadores a comprometerse públicamente con sus hipótesis, métodos y planes de análisis antes de recopilar los datos. Esto hace que el p-hacking y el HARKing sean más difíciles, aunque no imposibles. El número de estudios prerregistrados ha crecido de forma sustancial, aunque un análisis de 2025 encontró que algunos investigadores siguen desviándose de sus planes registrados sin comunicarlo.
Los informes registrados van más lejos. Las revistas revisan y aceptan propuestas de estudios antes de que se recopilen los datos, comprometiéndose a publicar los resultados independientemente del desenlace. Más de 300 revistas ofrecen actualmente este formato. Los estudios publicados como informes registrados muestran una tasa notablemente más alta de resultados nulos en comparación con las publicaciones tradicionales, lo que sugiere que el proceso tradicional efectivamente filtraba los resultados negativos.
Los tamaños de muestra han aumentado. En psicología social, el tamaño de muestra mediano ha pasado de unos 80 a 100 participantes a principios de la década de 2010 a aproximadamente 250 en la actualidad. Las muestras más grandes ofrecen mayor potencia estadística y estimaciones más fiables.
Los datos abiertos y los materiales abiertos permiten a otros investigadores verificar los análisis e intentar replicaciones. Muchas revistas ahora exigen o fomentan el intercambio de datos, y plataformas como el Open Science Framework proporcionan la infraestructura necesaria.
Estas reformas han tenido efectos mensurables. Las principales revistas muestran ahora estándares de evidencia más estrictos. El patrón de hallazgos casi exclusivamente positivos que caracterizaba la literatura anterior a la crisis se ha suavizado. Pero una revisión de alcance publicada en 2025 en Royal Society Open Science identificó una brecha significativa: de más de 100 estudios que examinaban intervenciones de ciencia abierta, solo 15 midieron directamente si las intervenciones mejoraban realmente la reproducibilidad. Las reformas son plausibles, cada vez más adoptadas y aún solo parcialmente validadas.
Qué no ha cambiado
La estructura de incentivos de la ciencia académica sigue recompensando el volumen de publicaciones, el número de citas y los hallazgos novedosos por encima de la replicación, el rigor y los resultados nulos. Los investigadores que dedican su tiempo a replicar el trabajo ajeno producen menos artículos «originales», lo que puede perjudicar sus carreras. Las revistas que publican replicaciones atraen menos citas que las que publican hallazgos novedosos.
El prerregistro puede eludirse. Los investigadores pueden prerregistrar planes de análisis vagos o múltiples, desviarse del plan registrado y comunicar la desviación con letra pequeña, o simplemente no prerregistrar su trabajo exploratorio y presentarlo como confirmatorio. El artículo de 2025 titulado «Campbell’s Law Explains the Replication Crisis» argumentó que las insignias de prerregistro podrían convertirse en otra métrica sujeta a manipulación, siguiendo el patrón según el cual cualquier medida utilizada como objetivo deja de ser una buena medida.
El público en general, mientras tanto, sigue encontrándose con los hallazgos de la psicología principalmente a través de una cobertura mediática que elimina la incertidumbre, el contexto y los tamaños del efecto. Un estudio que encuentra un efecto pequeño y posiblemente frágil se convierte en un titular que afirma que «la ciencia demuestra» alguna verdad contraintuitiva sobre la naturaleza humana. Para cuando llega el fracaso de replicación, si es que llega, el hallazgo original ya está arraigado en el imaginario popular y en los libros de autoayuda.
Lo que esto significa para leer estudios
La crisis de replicación no significa que la psicología sea inútil ni que todos los hallazgos publicados sean incorrectos. Significa que la literatura publicada es una muestra sesgada de la investigación realizada, que los estudios individuales (especialmente los que tienen muestras pequeñas, hallazgos sorprendentes y ninguna replicación independiente) deben tratarse como evidencia preliminar en lugar de hechos establecidos, y que los mecanismos de corrección están mejorando, pero están lejos de ser completos.
Si estás leyendo un estudio de psicología, o más habitualmente un artículo de prensa sobre uno, vale la pena hacerse algunas preguntas. ¿Qué tamaño tenía la muestra? ¿Lo ha replicado alguien? ¿Estaba prerregistrado? ¿El tamaño del efecto sugiere algo significativo, o el hallazgo es estadísticamente significativo pero prácticamente irrelevante? ¿El hallazgo se reporta con la incertidumbre adecuada, o se presenta como una verdad establecida?
La ciencia no está rota. Pero el sistema que traduce el trabajo científico en conocimiento publicado tiene modos de fallo que la crisis de replicación expuso, y corregir esos modos de fallo es un proyecto que aún está en marcha. Lo más honesto que ha hecho la psicología en la última década es admitirlo en voz alta.
Fuentes
- Open Science Collaboration, «Estimating the Reproducibility of Psychological Science» (Estimar la reproducibilidad de la ciencia psicológica), Science, agosto de 2015
- John Ioannidis, «Why Most Published Research Findings Are False» (Por qué la mayoría de los resultados de investigación publicados son falsos), PLoS Medicine, agosto de 2005
- Daryl Bem, «Feeling the Future» (Sentir el futuro: evidencia experimental de influencias retroactivas anómalas en la cognición y el afecto), Journal of Personality and Social Psychology, 2011
- Hagger et al., «Una replicación prerregistrada multilaboratorio del efecto de agotamiento del ego», Perspectives on Psychological Science, 2016
- Korbmacher et al., «La crisis de replicación ha generado cambios estructurales, procedimentales y comunitarios positivos», Communications Psychology, 2023
- Korbmacher et al., «Intervenciones de ciencia abierta para mejorar la reproducibilidad y la replicabilidad de la investigación: una revisión de alcance», Royal Society Open Science, 2025
- Stefan y Schönbrodt, «Grandes y pequeñas mentiras: un compendio y simulación de estrategias de p-hacking», Royal Society Open Science, 2023
- Klonsky, «La ley de Campbell explica la crisis de replicación: las insignias de prerregistro repiten la historia», Assessment, 2025
- Association for Psychological Science, «Cómo han cambiado los resultados de los estudios psicológicos desde el inicio de la crisis de replicación»



