Noticias y Análisis 19 min de lectura

Los formadores a 2 $/hora: por qué la IA sigue fallando al programar

Este artículo fue traducido automáticamente del inglés por una IA. Leer la versión original en inglés →
Ilustración sobre la calidad del código generado por IA, mostrando la brecha entre desarrolladores expertos y formadores de IA
🎧 Escuchar
Mar 31, 2026
Modo de lectura

Los asistentes de programación con IA están en todas partes. Completan automáticamente funciones, redactan pull requests y prometen hacer a cada desarrollador diez veces más productivo. Pero hay un secreto poco halagador detrás del bombo publicitario: las personas que entrenan estos modelos para escribir código no son, por diseño económico estructural, las que mejor saben escribir código. La redacción señaló este punto, y es una de esas observaciones que resulta imposible ignorar una vez que se piensa bien.

El problema de los datos de entrenamiento de IA para programación no es un fallo. Es un modelo de negocio.

Las personas que enseñan a la IA a programar

Entrenar una IA para que escriba buen código requiere un proceso llamado RLHFUn proceso de aprendizaje automático donde los modelos de IA aprenden de la retroalimentación humana sobre sus salidas, enseñándoles qué respuestas priorizar o rechazar.: aprendizaje por refuerzo a partir de retroalimentación humana. En términos simples, revisores humanos examinan el código que ha escrito la IA, ordenan qué versión es mejor, señalan errores y redactan soluciones de ejemplo. La IA aprende de esas clasificaciones. La calidad de esas clasificaciones determina la calidad de la IA.

¿Quiénes son estos revisores? Según las ofertas de empleo rastreadas por analistas del sector, el trabajo de anotación de nivel básico en plataformas como Remotasks u Outlier paga entre 15 y 30 dólares por hora como trabajo independiente. Las tareas de programación especializadas se pagan mejor: DataAnnotation.tech ofrece alrededor de 40 dólares por hora y Outlier paga hasta 60 dólares por hora para ciertas tareas técnicas.

Suena razonable hasta que se compara con lo que ganan realmente los buenos desarrolladores. La Oficina de Estadísticas Laborales de Estados Unidos informa que el salario mediano de un desarrollador de software fue de 133.080 dólares en 2024. En las grandes empresas tecnológicas, la compensación total de los ingenieros de nivel medio supera regularmente los 250.000 dólares contando acciones y bonificaciones. Eso equivale a aproximadamente 120 dólares por hora, con prestaciones completas, seguridad laboral y desarrollo profesional.

¿Por qué un desarrollador que gana ese tipo de salario iba a pasar sus tardes haciendo trabajo a destajo en una plataforma de trabajo flexible por una fracción de ese pago? La respuesta, abrumadoramente, es que no lo haría.

Quién hace realmente el trabajo

La mayor parte del trabajo de entrenamiento de IA no la realizan ingenieros senior en San Francisco. La realizan trabajadores del Sur Global, a menudo en condiciones que han sido descritas como explotadoras. El Banco Mundial estima que hay entre 150 y 430 millones de trabajadores de datos a nivel mundial, y la gran mayoría opera en países como Kenia, Filipinas, India y Venezuela.

Una investigación de CBS News 60 Minutes encontró que los trabajadores de datos de IA en Kenia ganan entre 1,50 y 2 dólares por hora. Documentos revisados por el programa mostraron que OpenAI acordó pagar a la empresa de subcontratación SAMA 12,50 dólares por hora por trabajador, pero los propios trabajadores recibían solo 2 dólares. En Filipinas, una investigación del Washington Post encontró que Scale AI retrasaba o retenía regularmente los pagos a trabajadores que a menudo ganaban muy por debajo del salario mínimo local. De 36 trabajadores entrevistados, 34 reportaron problemas de pago.

Rest of World documentó que las tarifas de Scale AI varían drásticamente según la región: 21,55 dólares por hora para trabajo en alemán frente a 1,43 dólares por trabajo en telugu. No son empleos distintos. Las descripciones de tareas son idénticas.

Esta es la fuerza laboral que le enseña a la IA a programar. No los arquitectos senior que entienden el diseño de sistemas. No los ingenieros experimentados que han pasado años aprendiendo por qué ciertos patrones fallan a escala. Las personas que entrenan a la IA son, por necesidad económica, las que no pueden obtener mejor paga en otro lugar.

Los datos de entrenamiento de IA para programación y el problema de calidad

Como Privacy International señaló en un análisis detallado, hay dos niveles de etiquetadores de datos: anotadores genéricos que manejan conjuntos de datos a gran escala, y anotadores expertos con conocimiento específico del dominio. La organización encontró que los datos de baja calidad conducen directamente a resultados de IA incorrectos o deficientes. Para el código, esta distinción importa enormemente. Un desarrollador junior puede reconocer que una función funciona, pero pasar por alto que introduce una pérdida de memoria, una condición de carreraError de programación donde el comportamiento de un sistema depende del momento en que ocurren operaciones concurrentes, generando resultados impredecibles. o una vulnerabilidad de seguridad que solo aparece a escala.

Los resultados son medibles. Un análisis de 470 pull requests de código abierto realizado por CodeRabbit encontró que el código generado por IA produce 1,7 veces más problemas que el código escrito por humanos. Las vulnerabilidades de seguridad fueron 2,74 veces más comunes. Los errores de lógica y corrección fueron un 75 % más frecuentes. Las deficiencias en el manejo de errores aparecieron a casi el doble de la tasa.

Investigaciones de Apiiro, analizando código en empresas Fortune 50, encontraron que en junio de 2025, el código generado por IA introducía más de 10.000 nuevos hallazgos de seguridad por mes. Las rutas de escalada de privilegiosAtaque de seguridad en el que un intruso obtiene niveles de acceso o control superiores a los concedidos originalmente, explotando vulnerabilidades en un sistema o aplicación. aumentaron un 322 %. Los defectos de diseño arquitectónico se dispararon un 153 %. Los investigadores lo describieron sin rodeos: la IA está corrigiendo las erratas pero creando las bombas de relojería.

El problema de la autopreservación

Más allá del salario, hay una segunda razón por la que los desarrolladores experimentados evitan el trabajo de RLHF: el interés propio. ¿Por qué un ingeniero senior pasaría su tiempo enseñando meticulosamente a un sistema de IA a replicar sus propias habilidades? Cada revisión de código de alta calidad que envía a una plataforma de entrenamiento acerca a la IA un paso más a hacer que su propia experiencia valga menos. Ningún actor económico racional entrena a su propio reemplazo por 40 dólares la hora.

Esto crea una trampa estructural. Los desarrolladores que más podrían mejorar los modelos de programación con IA tienen los menores incentivos para participar. Los que sí participan son, casi por definición, los que aún no pueden exigir salarios de primer nivel. La IA aprende de este segundo grupo y hereda sus puntos ciegos.

La evidencia: la IA hace más lentos a los desarrolladores experimentados

Un ensayo controlado aleatorizado realizado por METR, publicado en julio de 2025, siguió a 16 desarrolladores de código abierto experimentados completando 246 tareas reales en bases de código en las que habían trabajado durante un promedio de cinco años. El resultado: los desarrolladores que usaban herramientas de IA tardaron un 19 % más en completar su trabajo. No más rápido. Más lento.

La brecha de percepción fue llamativa. Antes del estudio, los desarrolladores predijeron que la IA los haría un 24 % más rápidos. Después del estudio, seguían creyendo que habían sido un 20 % más rápidos. La realidad fue la contraria. Como informó InfoWorld, los desarrolladores aceptaron menos del 44 % de las sugerencias de código generadas por IA, y el 56 % realizó modificaciones importantes para limpiar lo que la IA había producido.

Para los desarrolladores experimentados que trabajan en bases de código que conocen bien, los asistentes de programación con IA no ayudan. Añaden fricción. El código que producen refleja patrones aprendidos de datos de entrenamiento mediocres, no la comprensión matizada que proviene de años de trabajo en un sistema específico.

Las condiciones laborales detrás de los datos

Casi 100 trabajadores kenianos de IA publicaron una carta abierta afirmando que sus condiciones de trabajo “equivalen a la esclavitud moderna”. El proyecto Fairwork de Oxford evaluó 15 plataformas de etiquetado de datos y no encontró ninguna que superara el mínimo en cuanto a salario justo, condiciones, contratos o gestión.

Los trabajadores en estas plataformas reportan desactivaciones repentinas de cuentas, trabajo no remunerado disfrazado de “pruebas de calificación” y gestión algorítmicaPráctica laboral en la que sistemas de software supervisan el rendimiento de los trabajadores y asignan tareas, sustituyendo la supervisión humana por seguimiento automatizado. que reemplaza la supervisión humana. Una demanda colectiva presentada en mayo de 2025 acusa a Surge AI, la empresa matriz detrás de DataAnnotation.tech, de clasificar erróneamente a los trabajadores como contratistas independientes para negarles las protecciones de horas extras y salario mínimo.

Cuando los trabajadores están mal pagados, sobrecargados de trabajo y sujetos a despidos arbitrarios, la calidad de su producción se resiente. Esto no es controvertido. Es economía laboral básica. Y esa calidad disminuida fluye directamente hacia los modelos de IA en los que confían millones de desarrolladores.

Lo que esto significa

El problema fundamental de las herramientas de programación con IA no es una limitación técnica que se resolverá con un modelo más grande o una arquitectura más inteligente. Es un problema de mercado laboral. La economía del RLHF garantiza que las personas que entrenan a la IA para programar no son las mejor equipadas para hacerlo. Hasta que eso cambie, los asistentes de programación con IA seguirán produciendo código que parece plausible pero falla de formas que solo la experiencia puede anticipar.

Una revisión académica del MIT, Harvard y otras instituciones que cataloga las limitaciones fundamentales del RLHF concluyó que “ha habido relativamente poco trabajo público que sistematice sus fallos”. El artículo identificó numerosos problemas abiertos con la calidad de la retroalimentación humana, incluyendo que la experiencia del evaluador limita directamente lo que el modelo puede aprender.

Por ahora, la revolución de la programación con IA tiene un problema de maestros. Los mejores maestros están ocupados haciendo el trabajo real. Los maestros actuales hacen lo mejor que pueden con las herramientas y la experiencia que tienen. Y la brecha entre estos dos grupos aparece en cada función alucinada, en cada caso límite pasado por alto y en cada vulnerabilidad de seguridad que se cuela por la revisión de código.

Los asistentes de programación con IA están enviando código con 1,7 veces más defectos, 2,74 veces más vulnerabilidades de seguridad y un 322 % más de rutas de escalada de privilegiosAtaque de seguridad en el que un intruso obtiene niveles de acceso o control superiores a los concedidos originalmente, explotando vulnerabilidades en un sistema o aplicación. que el código escrito por humanos. No son dolores de crecimiento. Son el resultado predecible de una pipeline de entrenamiento donde el bucle de retroalimentación humana está asignado a las personas equivocadas. La redacción planteó este punto, y merece un análisis riguroso de la economía estructural detrás de los datos de entrenamiento de IA para programación.

El RLHFUn proceso de aprendizaje automático donde los modelos de IA aprenden de la retroalimentación humana sobre sus salidas, enseñándoles qué respuestas priorizar o rechazar. y el problema de la calidad de los evaluadores

Los modelos de lenguaje modernos se ajustan mediante aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), un proceso de tres etapas: recopilar evaluaciones humanas de las salidas del modelo, entrenar un modelo de recompensaUn modelo de aprendizaje automático entrenado con retroalimentación humana que aprende a predecir qué resultados los humanos calificarán como útiles, inofensivos u honestos. Se utiliza para guiar sistemas de IA hacia el comportamiento deseado. para aproximar esas evaluaciones y luego optimizar la política contra ese modelo de recompensa. El techo de calidad del modelo resultante está limitado por la calidad de la retroalimentación humana en la primera etapa. Como Casper et al. (2023) documentaron en su revisión sistemática de las limitaciones del RLHF, la técnica “ha surgido como el método central utilizado para ajustar los modelos de lenguaje de vanguardia” a pesar de “relativamente poco trabajo público que sistematice sus fallos”.

Para la generación de código específicamente, el RLHF requiere evaluadores capaces de valorar no solo si el código compila y devuelve la salida correcta, sino si maneja casos límite, gestiona la memoria eficientemente, evita errores de concurrencia y no introduce deuda arquitectónica. Privacy International distingue entre dos niveles: etiquetadores genéricos de datos que anotan conjuntos de datos a gran escala, y etiquetadores expertos con conocimiento específico del dominio. Para las tareas de programación, la brecha entre estos niveles es la diferencia entre “funciona” y “está listo para producción”.

La economía: por qué los expertos no participan

La Oficina de Estadísticas Laborales de Estados Unidos informa un salario mediano de desarrollador de software de 133.080 dólares (mayo de 2024). En empresas de tipo FAANG, la compensación total de los ingenieros de nivel medio supera los 250.000 dólares con acciones, lo que equivale a aproximadamente 120 dólares por hora. Los ingenieros senior y staff ganan considerablemente más.

Las tareas de programación para RLHF, en cambio, pagan entre 40 y 60 dólares por hora en plataformas como DataAnnotation.tech y Outlier. Las anotaciones de nivel básico oscilan entre 15 y 30 dólares por hora. Son posiciones de contratista sin prestaciones, sin acciones, sin progresión profesional y con disponibilidad irregular de tareas. Los trabajadores en estas plataformas reportan que los proyectos bien pagados desaparecen rápidamente y que la desactivación de cuentas puede ocurrir sin previo aviso ni explicación.

El cálculo racional para un desarrollador senior es sencillo. A 60 dólares por hora sin seguridad laboral, el trabajo de RLHF representa una reducción salarial de aproximadamente el 50 % en comparación con su equivalente asalariado. Para un ingeniero FAANG, es una reducción del 50 al 75 %. El costo de oportunidad hace que la participación sea irracional para cualquiera con alternativas sólidas en el mercado, antes incluso de considerar el factor de autopreservación: los desarrolladores expertos no tienen ningún incentivo para entrenar un sistema que devalúa su propia experiencia.

De dónde provienen realmente los datos de entrenamiento de IA para programación

La mayor parte del trabajo de entrenamiento se externaliza al Sur Global. El Banco Mundial estima entre 150 y 430 millones de trabajadores de datos a nivel mundial. Una investigación de CBS 60 Minutes documentó trabajadores kenianos que ganan entre 1,50 y 2 dólares por hora en tareas de entrenamiento de IA. OpenAI pagaba a la empresa de externalización SAMA 12,50 dólares por hora por trabajador; los trabajadores recibían 2 dólares. En Filipinas, la plataforma Remotasks de Scale AI retrasaba o retenía regularmente los pagos a trabajadores que ganaban por debajo del salario mínimo. De 36 trabajadores entrevistados, 34 reportaron problemas de pago.

Rest of World encontró disparidades salariales de 15 veces dentro de la misma empresa para tareas idénticas: 21,55 dólares por hora para trabajo en alemán, 1,43 dólares para telugu. Los etiquetadores de datos de IA venezolanos ganan entre 0,90 y 2 dólares por hora. El proyecto Fairwork de Oxford evaluó 15 plataformas y no encontró ninguna que superara el mínimo en cuanto a salario justo, condiciones o gestión.

Las estructuras corporativas ocultan esta realidad. Surge AI opera DataAnnotation.tech, Taskup.ai y Gethybrid.io como subsidiarias orientadas a los trabajadores mientras mantiene separadas las relaciones con clientes empresariales. Remotasks es la subsidiaria orientada a trabajadores de Scale AI. Los trabajadores frecuentemente no saben qué empresa de IA utilizará sus datos etiquetados, y mucho menos qué modelo están entrenando.

Consecuencias medibles en la calidad

El análisis de 470 pull requests de código abierto realizado por CodeRabbit cuantificó la brecha: los PRs generados por IA producen 10,83 problemas por PR frente a 6,45 en los escritos por humanos (factor 1,7). Vulnerabilidades de seguridad: 2,74 veces más elevadas. Errores de lógica y corrección: un 75 % más frecuentes. Deficiencias en el manejo de errores: casi el doble. Problemas de legibilidad: más de 3 veces más.

La investigación de Apiiro en bases de código Fortune 50 encontró que el desarrollo asistido por IA genera 10 veces más hallazgos de seguridad reduciendo al mismo tiempo el volumen de PRs en un tercio. En junio de 2025, el código generado por IA introducía más de 10.000 nuevos hallazgos de seguridad por mes. El perfil de vulnerabilidades cambió: los errores de sintaxis triviales cayeron un 76 %, pero las rutas de escalada de privilegios aumentaron un 322 % y los defectos de diseño arquitectónico se dispararon un 153 %. Los investigadores señalaron que la IA “está corrigiendo las erratas pero creando las bombas de relojería”.

Este patrón es coherente con modelos entrenados a partir de la retroalimentación de evaluadores que pueden valorar la corrección superficial pero carecen de la experiencia para identificar problemas arquitectónicos profundos. Un revisor junior puede confirmar que una función devuelve la salida esperada. Es menos probable que detecte que introduce una condición de carreraError de programación donde el comportamiento de un sistema depende del momento en que ocurren operaciones concurrentes, generando resultados impredecibles. bajo carga concurrente, que filtra recursos en rutas de excepción, o que viola el modelo de autorización del sistema más amplio.

El estudio METR: evidencia empírica de la brecha

Un ensayo controlado aleatorizado realizado por METR (julio de 2025) siguió a 16 desarrolladores de código abierto experimentados en 246 tareas en repositorios a los que habían contribuido durante un promedio de cinco años. Las tareas se asignaron aleatoriamente a condiciones con IA permitida o sin IA, utilizando modelos de frontera (Cursor Pro con Claude 3.5/3.7 Sonnet).

Resultado: las tareas con IA permitida tardaron un 19 % más. Los desarrolladores predijeron de antemano una aceleración del 24 % y aún estimaron una aceleración del 20 % después del estudio. El análisis de InfoWorld señaló que los desarrolladores aceptaron menos del 44 % de las sugerencias de la IA, con el 75 % leyendo cada línea y el 56 % realizando modificaciones importantes. Los investigadores encontraron mayores ralentizaciones en las tareas donde los desarrolladores tenían alta experiencia previa con la base de código.

Esta es la brecha de calidad del RLHF en acción. Cuando los desarrolladores experimentados se encuentran con código generado por IA, pasan más tiempo verificando, corrigiendo y limpiando el resultado de lo que habrían tardado en escribirlo ellos mismos. Las sugerencias de la IA reflejan patrones aprendidos de retroalimentación de menor calidad, no el contexto específico de la base de código. Para los expertos, la herramienta añade ruido en lugar de señal.

Las condiciones laborales agravan el problema

Casi 100 trabajadores kenianos de IA describieron sus condiciones como “esclavitud moderna” en una carta abierta. Los trabajadores están sometidos a cronómetros estrictos, vigilancia algorítmica y desactivaciones arbitrarias de cuentas. Una demanda colectiva de 2025 acusa a Surge AI de clasificar erróneamente a los trabajadores como contratistas independientes para eludir las protecciones laborales.

En estas condiciones, optimizar el rendimiento es racional. Los trabajadores aprenden a completar tareas rápidamente para mantener sus ingresos, no a proporcionar la evaluación cuidadosa y reflexiva que produce señales de entrenamiento de alta calidad. Cuando tu cuenta puede ser desactivada sin explicación por trabajar demasiado lento, la profundidad de análisis se convierte en un lujo que no puedes permitirte. La estructura de incentivos selecciona velocidad sobre calidad en todos los niveles.

La trampa estructural

El problema fundamental no es técnico sino económico. El RLHF para código requiere evaluadores capaces de valorar decisiones de ingeniería de calidad productiva. Esos evaluadores ganan 133.000 dólares o más al año en sus carreras principales. La pipeline de entrenamiento paga entre 40 y 60 dólares por hora como trabajo freelance en el mejor de los casos, y entre 1,50 y 2 dólares por hora en el caso más común. Ningún actor de mercado racional con alternativas sólidas elegiría participar.

Esto crea un bucle de retroalimentación: los modelos entrenados con evaluaciones mediocres producen código mediocre, que los desarrolladores experimentados pierden tiempo limpiando, lo que refuerza la percepción de que la IA “aún necesita trabajo”, sin que cambie la economía subyacente del entrenamiento. Los modelos mejoran de forma incremental mediante escala y cambios de arquitectura, pero el techo de calidad sigue limitado por la pipeline de evaluación.

Hasta que las empresas de IA paguen compensación de nivel experto por la evaluación de código de nivel experto (lo que aumentaría drásticamente los costes de entrenamiento) o desarrollen métodos de evaluación que no dependan del juicio humano (lo que sigue siendo un problema de investigación abierto), los asistentes de programación con IA seguirán produciendo código generado por IA que supera las verificaciones superficiales mientras pasa por alto los patrones profundos que separan el software fiable del software frágilDiseñado para romperse, desmoronarse o ceder fácilmente al impacto; principio de diseño estructural que permite que los objetos cerca de las pistas fallen de forma segura en lugar de causar daño adicional a las aeronaves..

¿Qué le pareció este artículo?
Compartir este artículo

¿Un error? Avísanos

Fuentes