KI-Programmierassistenten sind allgegenwärtig. Sie vervollständigen Funktionen, entwerfen Pull Requests und versprechen, jeden Entwickler zehnmal produktiver zu machen. Doch hinter dem Hype steckt ein wenig schmeichelhaftes Geheimnis: Die Menschen, die diese Modelle trainieren, Code zu schreiben, sind strukturell bedingt nicht diejenigen, die selbst am besten Code schreiben können. Die Redaktion hat diesen Punkt aufgeworfen, und es ist eine jener Beobachtungen, die man, einmal durchdacht, nicht mehr ignorieren kann.
Das Problem der KI-Trainingsdaten für Code ist kein Fehler. Es ist ein Geschäftsmodell.
Die Menschen, die KI das Programmieren beibringen
Um eine KI auf guten Code zu trainieren, braucht man einen Prozess namens RLHFEin maschinelles Lernverfahren, bei dem KI-Modelle aus menschlichem Feedback über ihre Ausgaben lernen und lernen, welche Antworten sie priorisieren oder ablehnen sollen.: Reinforcement Learning aus menschlichem Feedback. Vereinfacht gesagt: Menschliche Prüfer sehen sich den Code an, den die KI geschrieben hat, bewerten welche Version besser ist, kennzeichnen Fehler und schreiben Musterlösungen. Die KI lernt aus diesen Bewertungen. Die Qualität dieser Bewertungen bestimmt die Qualität der KI.
Wer sind diese menschlichen Prüfer? Laut Stellenausschreibungen, die Branchenanalysten beobachten, zahlen Einstiegs-Annotationsjobs auf Plattformen wie Remotasks oder Outlier zwischen 15 und 30 Dollar pro Stunde als Auftragsarbeit. Spezialisierte Coding-Aufgaben werden besser vergütet: DataAnnotation.tech bietet rund 40 Dollar pro Stunde, Outlier zahlt bis zu 60 Dollar pro Stunde für bestimmte technische Aufgaben.
Das klingt vernünftig, bis man vergleicht, was gute Entwickler tatsächlich verdienen. Das US-Arbeitsministerium berichtet, dass das mittlere Gehalt eines Software-Entwicklers im Jahr 2024 bei 133.080 Dollar lag. Bei großen Technologieunternehmen übersteigt die Gesamtvergütung für Ingenieure der mittleren Ebene unter Einbeziehung von Aktienoptionen und Boni regelmäßig 250.000 Dollar. Das entspricht rund 120 Dollar pro Stunde, mit voller Sozialversicherung, Arbeitsplatzsicherheit und Karriereperspektiven.
Warum sollte ein Entwickler, der so viel verdient, seine Abende damit verbringen, auf einer Gig-Plattform Akkordarbeit für einen Bruchteil dieses Lohns zu leisten? Die Antwort ist eindeutig: Er würde es nicht tun.
Wer diese Arbeit wirklich erledigt
Der Großteil der KI-Trainingsarbeit wird nicht von leitenden Ingenieuren in San Francisco geleistet. Er wird von Arbeitern im Globalen Süden erbracht, häufig unter Bedingungen, die als ausbeuterisch beschrieben werden. Die Weltbank schätzt, dass es weltweit zwischen 150 und 430 Millionen Datenbeschäftigte gibt, von denen die große Mehrheit in Ländern wie Kenia, den Philippinen, Indien und Venezuela arbeitet.
Eine Reportage von CBS News 60 Minutes ergab, dass KI-Datenarbeiter in Kenia zwischen 1,50 und 2 Dollar pro Stunde verdienen. Vom Programm eingesehene Dokumente zeigen, dass OpenAI dem Outsourcing-Unternehmen SAMA 12,50 Dollar pro Stunde und Arbeiter zahlte, die Arbeiter selbst aber nur 2 Dollar erhielten. Auf den Philippinen verzögerte oder verweigerte Scale AI laut einer Untersuchung der Washington Post regelmäßig die Zahlungen an Arbeiter, die häufig weit unter dem lokalen Mindestlohn verdienten. Von 36 befragten Arbeitern berichteten 34 von Zahlungsproblemen.
Rest of World dokumentierte, dass die Vertragslöhne von Scale AI je nach Region drastisch variieren: 21,55 Dollar pro Stunde für deutschsprachige Arbeit gegenüber 1,43 Dollar für Telugu. Das sind keine verschiedenen Jobs. Die Aufgabenbeschreibungen sind identisch.
Das ist die Belegschaft, die KI das Programmieren beibringt. Nicht die leitenden Architekten, die Systemdesign verstehen. Nicht die Staff Engineers, die jahrelang erfahren haben, warum bestimmte Muster bei großem Maßstab versagen. Die Menschen, die KI trainieren, sind aus wirtschaftlicher Notwendigkeit diejenigen, die anderswo keine bessere Bezahlung durchsetzen können.
KI-Trainingsdaten für Code und das Qualitätsproblem
Wie Privacy International in einer ausführlichen Analyse feststellte, gibt es zwei Ebenen von Datenbeschriftern: generische Annotatoren für groß angelegte Datensätze und Experten mit domänenspezifischem Wissen. Die Organisation stellte fest, dass minderwertige Daten direkt zu falschen oder unzureichenden KI-Ausgaben führen. Für Code ist dieser Unterschied entscheidend. Ein Junior-Entwickler mag erkennen, dass eine Funktion funktioniert, aber übersehen, dass sie ein Memory-Leak, eine Race Condition oder eine Sicherheitslücke einführt, die erst bei großem Maßstab auftritt.
Die Ergebnisse sind messbar. Eine Analyse von 470 Open-Source-Pull-Requests durch CodeRabbit ergab, dass KI-generierter Code 1,7-mal mehr Probleme produziert als menschlich geschriebener Code. Sicherheitslücken traten 2,74-mal häufiger auf. Logik- und Korrektheitsfehler waren 75 % häufiger. Lücken in der Fehlerbehandlung traten fast doppelt so häufig auf.
Untersuchungen von Apiiro, die Code aus Fortune-50-Unternehmen analysierten, ergaben, dass KI-generierter Code bis Juni 2025 monatlich über 10.000 neue Sicherheitsbefunde einbrachte. Privilege-Escalation-Pfade stiegen um 322 %. Architektonische Designfehler nahmen um 153 % zu. Die Forscher formulierten es unverblümt: KI behebt Tippfehler, aber legt Zeitbomben.
Das Selbstschutzproblem
Neben der Bezahlung gibt es einen zweiten Grund, warum erfahrene Entwickler RLHF-Arbeit meiden: Eigeninteresse. Warum sollte ein leitender Ingenieur seine Zeit damit verbringen, einem KI-System akribisch beizubringen, seine eigenen Fähigkeiten zu replizieren? Jede qualitativ hochwertige Code-Review, die er an eine Trainingsplattform einreicht, bringt die KI einen Schritt näher daran, seine eigene Expertise weniger wertvoll zu machen. Kein rationaler Wirtschaftsakteur bildet seinen eigenen Ersatz für 40 Dollar pro Stunde aus.
Das schafft ein strukturelles Dilemma. Die Entwickler, die KI-Coding-Modelle am meisten verbessern könnten, haben den geringsten Anreiz zur Teilnahme. Die Entwickler, die teilnehmen, sind nahezu per Definition diejenigen, die noch keine Spitzengehälter erzielen können. Die KI lernt von der zweiten Gruppe und erbt ihre blinden Flecken.
Die Beweise: KI macht erfahrene Entwickler langsamer
Eine randomisierte kontrollierte Studie von METR, veröffentlicht im Juli 2025, begleitete 16 erfahrene Open-Source-Entwickler bei 246 realen Aufgaben in Codebasen, an denen sie durchschnittlich seit fünf Jahren arbeiteten. Das Ergebnis: Entwickler, die KI-Tools nutzten, benötigten 19 % länger für ihre Arbeit. Nicht schneller. Langsamer.
Die Wahrnehmungslücke war frappierend. Vor der Studie sagten Entwickler voraus, KI würde sie 24 % schneller machen. Nach der Studie glaubten sie immer noch, 20 % schneller gewesen zu sein. Die Realität war das Gegenteil. Wie InfoWorld berichtete, akzeptierten Entwickler weniger als 44 % der KI-generierten Code-Vorschläge, wobei 56 % wesentliche Änderungen vornahmen, um das zu bereinigen, was die KI produziert hatte.
Für erfahrene Entwickler, die in vertrauten Codebasen arbeiten, helfen KI-Coding-Assistenten nicht. Sie erzeugen Reibung. Der Code, den sie produzieren, spiegelt Muster wider, die aus mittelmäßigen Trainingsdaten gelernt wurden, nicht das nuancierte Verständnis, das aus jahrelanger Arbeit an einem bestimmten System entsteht.
Die Arbeitsbedingungen hinter den Daten
Knapp 100 kenianische KI-Arbeiter veröffentlichten einen offenen Brief, in dem sie erklärten, ihre Arbeitsbedingungen „kämen moderner Sklaverei gleich”. Oxfords Fairwork-Projekt bewertete 15 Datenbeschriftungsplattformen und fand keine, die das absolute Minimum bei fairer Bezahlung, Arbeitsbedingungen, Verträgen oder Management erfüllte.
Arbeiter auf diesen Plattformen berichten von plötzlichen Kontosperrungen, unbezahlter Arbeit unter dem Deckmantel von „Qualifikationstests” und algorithmischem Management, das menschliche Aufsicht ersetzt. Eine im Mai 2025 eingereichte Sammelklage wirft Surge AI vor, dem Mutterunternehmen hinter DataAnnotation.tech, Mitarbeiter als unabhängige Auftragnehmer falsch eingestuft zu haben, um ihnen Überstunden- und Mindestlohnschutz zu verweigern.
Wenn Arbeiter unterbezahlt, überlastet und willkürlicher Kündigung ausgesetzt sind, leidet die Qualität ihrer Arbeit. Das ist nicht strittig. Das ist grundlegende Arbeitsökonomie. Und diese geminderte Qualität fließt direkt in die KI-Modelle ein, auf die Millionen von Entwicklern angewiesen sind.
Was das bedeutet
Das grundlegende Problem mit KI-Coding-Tools ist keine technische Einschränkung, die durch ein größeres Modell oder eine klügere Architektur gelöst werden wird. Es ist ein Arbeitsmarktproblem. Die Wirtschaft des RLHF sorgt dafür, dass die Menschen, die KI trainieren, Code zu schreiben, nicht diejenigen sind, die dafür am besten geeignet wären. Solange sich das nicht ändert, werden KI-Coding-Assistenten weiterhin Code produzieren, der plausibel wirkt, aber auf eine Weise versagt, die nur Erfahrung voraussehen kann.
Eine akademische Übersicht vom MIT, Harvard und anderen Institutionen, die die grundlegenden Einschränkungen des RLHF katalogisiert, kam zu dem Schluss, dass „es relativ wenig öffentliche Arbeiten gibt, die seine Mängel systematisieren”. Die Arbeit identifizierte zahlreiche offene Probleme mit der Qualität menschlichen Feedbacks, darunter dass die Expertise der Bewerter direkt begrenzt, was das Modell lernen kann.
Vorerst leidet die KI-Coding-Revolution an einem Lehrerproblem. Die besten Lehrer sind damit beschäftigt, die eigentliche Arbeit zu erledigen. Die tatsächlichen Lehrer tun ihr Bestes mit den Werkzeugen und der Erfahrung, die sie haben. Und die Lücke zwischen diesen beiden Gruppen zeigt sich in jeder halluzinierten Funktion, jedem übersehenen Grenzfall und jeder Sicherheitslücke, die der Code-Review entgeht.
KI-Coding-Assistenten liefern Code mit 1,7-mal mehr Defekten, 2,74-mal mehr Sicherheitslücken und 322 % mehr Privilege-Escalation-Pfaden als menschlich geschriebener Code. Das sind keine Kinderkrankheiten. Es sind die vorhersehbaren Ergebnisse einer Trainingspipeline, in der die menschliche Feedbackschleife mit den falschen Personen besetzt ist. Die Redaktion hat diesen Punkt aufgeworfen, und er verdient eine gründliche Untersuchung der strukturellen Wirtschaft hinter den KI-Trainingsdaten für Code.
RLHFEin maschinelles Lernverfahren, bei dem KI-Modelle aus menschlichem Feedback über ihre Ausgaben lernen und lernen, welche Antworten sie priorisieren oder ablehnen sollen. und das Problem der Bewerterqualität
Moderne Sprachmodelle werden durch Reinforcement Learning aus menschlichem Feedback (RLHF) feinabgestimmt, ein dreistufiger Prozess: menschliche Bewertungen der Modellausgaben sammeln, ein Belohnungsmodell trainieren, das diese Bewertungen approximiert, dann die Policy gegen dieses Belohnungsmodell optimieren. Das Qualitätsniveau des resultierenden Modells ist durch die Qualität des menschlichen Feedbacks in der ersten Stufe begrenzt. Wie Casper et al. (2023) in ihrer systematischen Überprüfung der RLHF-Einschränkungen dokumentierten, hat die Technik sich „als zentrale Methode zur Feinabstimmung modernster großer Sprachmodelle etabliert”, obwohl es „relativ wenig öffentliche Arbeiten gibt, die ihre Mängel systematisieren”.
Speziell für die Code-Generierung benötigt RLHF Bewerter, die nicht nur beurteilen können, ob Code kompiliert und die richtige Ausgabe liefert, sondern ob er Grenzfälle behandelt, Speicher effizient verwaltet, Nebenläufigkeitsfehler vermeidet und keine architektonischen Schulden einführt. Privacy International unterscheidet zwischen zwei Ebenen: generische Datenbeschrifter für groß angelegte Datensätze und Experten mit domänenspezifischem Wissen. Bei Coding-Aufgaben entspricht die Lücke zwischen diesen Ebenen dem Unterschied zwischen „es läuft” und „es ist produktionsreif”.
Die Wirtschaft: Warum Experten nicht teilnehmen
Das US-Arbeitsministerium berichtet von einem mittleren Software-Entwicklergehalt von 133.080 Dollar (Mai 2024). Bei FAANG-Unternehmen übersteigt die Gesamtvergütung für Ingenieure der mittleren Ebene einschließlich Aktienoptionen 250.000 Dollar, was rund 120 Dollar pro Stunde entspricht. Senior- und Staff Engineers verdienen erheblich mehr.
RLHF-Coding-Aufgaben zahlen hingegen 40 bis 60 Dollar pro Stunde auf Plattformen wie DataAnnotation.tech und Outlier. Einstiegs-Annotationen liegen zwischen 15 und 30 Dollar pro Stunde. Das sind Auftragnehmerposten ohne Sozialleistungen, ohne Aktienoptionen, ohne Karriereentwicklung und mit unregelmäßiger Aufgabenverfügbarkeit. Arbeiter auf diesen Plattformen berichten, dass gut bezahlte Projekte schnell verschwinden und Kontosperrungen ohne Warnung oder Erklärung eintreten können.
Das rationale Kalkül für einen Senior-Entwickler ist eindeutig. Bei 60 Dollar pro Stunde ohne Arbeitsplatzsicherheit stellt RLHF-Arbeit einen Gehaltsrückgang von etwa 50 % im Vergleich zu seinem Angestelltenäquivalent dar. Für einen FAANG-Ingenieur sind es 50 bis 75 % weniger. Die Opportunitätskosten machen eine Teilnahme für jeden mit starken Marktalternativen irrational, noch vor dem Selbstschutzfaktor: Experten-Entwickler haben keinen Anreiz, ein System zu trainieren, das ihre eigene Expertise entwertet.
Woher die KI-Trainingsdaten für Code wirklich stammen
Der Großteil der Trainingsarbeit wird in den Globalen Süden ausgelagert. Die Weltbank schätzt 150 bis 430 Millionen Datenbeschäftigte weltweit. Eine CBS-60-Minutes-Untersuchung dokumentierte kenianische Arbeiter, die bei KI-Trainingsaufgaben 1,50 bis 2 Dollar pro Stunde verdienen. OpenAI zahlte der Outsourcing-Firma SAMA 12,50 Dollar pro Stunde und Arbeiter; die Arbeiter erhielten 2 Dollar. Auf den Philippinen verzögerte oder verweigerte die Remotasks-Plattform von Scale AI regelmäßig Zahlungen an Arbeiter, die unter dem Mindestlohn verdienten. Von 36 befragten Arbeitern meldeten 34 Zahlungsprobleme.
Rest of World stellte 15-fache Lohnunterschiede innerhalb desselben Unternehmens für identische Aufgaben fest: 21,55 Dollar pro Stunde für deutschsprachige Arbeit, 1,43 Dollar für Telugu. Venezolanische KI-Datenbeschrifter verdienen zwischen 0,90 und 2 Dollar pro Stunde. Oxfords Fairwork-Projekt bewertete 15 Plattformen und fand keine, die das absolute Minimum bei fairer Bezahlung, Bedingungen oder Management erfüllte.
Die Unternehmensstrukturen verschleiern diese Realität. Surge AI betreibt DataAnnotation.tech, Taskup.ai und Gethybrid.io als arbeitnehmerorientierte Tochtergesellschaften, während die Unternehmenskundenbeziehungen getrennt gehalten werden. Remotasks ist Scale AIs arbeitnehmerorientierte Tochtergesellschaft. Arbeiter wissen häufig nicht, für welches KI-Unternehmen ihre beschrifteten Daten verwendet werden, geschweige denn welches Modell sie trainieren.
Messbare Qualitätsfolgen
CodeRabbits Analyse von 470 Open-Source-Pull-Requests quantifizierte die Lücke: KI-generierte PRs produzieren 10,83 Probleme pro PR gegenüber 6,45 bei menschlich geschriebenen PRs (Faktor 1,7). Sicherheitslücken: 2,74-mal häufiger. Logik- und Korrektheitsfehler: 75 % häufiger. Fehlerbehandlungslücken: nahezu doppelt so häufig. Lesbarkeitsprobleme: über 3-mal häufiger.
Apiiros Forschung in Fortune-50-Codebasen ergab, dass KI-gestützte Entwicklung 10-mal mehr Sicherheitsbefunde erzeugt und dabei das PR-Volumen um ein Drittel reduziert. Bis Juni 2025 brachte KI-Code monatlich über 10.000 neue Sicherheitsbefunde ein. Das Schwachstellenprofil verschob sich: Triviale Syntaxfehler gingen um 76 % zurück, aber Privilege-Escalation-Pfade stiegen um 322 % und architektonische Designfehler um 153 %. Die Forscher notierten, dass KI „die Tippfehler behebt, aber die Zeitbomben legt”.
Dieses Muster ist konsistent mit Modellen, die auf Feedback von Bewertern trainiert wurden, die oberflächliche Korrektheit beurteilen können, aber nicht die Erfahrung haben, tiefe architektonische Probleme zu erkennen. Ein Junior-Bewerter kann bestätigen, dass eine Funktion die erwartete Ausgabe liefert. Er wird es seltener bemerken, wenn sie unter gleichzeitiger Last eine Race Condition einführt, bei Ausnahmepfaden Ressourcen leckt oder das Autorisierungsmodell des übergeordneten Systems verletzt.
Die METR-Studie: empirischer Nachweis der Lücke
Eine randomisierte kontrollierte Studie von METR (Juli 2025) begleitete 16 erfahrene Open-Source-Entwickler bei 246 Aufgaben in Repositories, zu denen sie durchschnittlich seit fünf Jahren beigetragen hatten. Aufgaben wurden zufällig den Bedingungen „KI erlaubt” oder „KI verboten” zugewiesen, unter Verwendung von Frontier-Modellen (Cursor Pro mit Claude 3.5/3.7 Sonnet).
Ergebnis: Aufgaben mit KI dauerten 19 % länger. Entwickler sagten im Vorfeld eine 24-prozentige Beschleunigung voraus und schätzten im Nachhinein immer noch eine 20-prozentige Beschleunigung. InfoWorlds Analyse merkte an, dass Entwickler weniger als 44 % der KI-Vorschläge akzeptierten, wobei 75 % jede Zeile lasen und 56 % wesentliche Änderungen vornahmen. Die Forscher stellten größere Verlangsamungen bei Aufgaben fest, bei denen Entwickler hohe Vorerfahrung mit der Codebasis hatten.
Das ist die RLHF-Qualitätslücke in Aktion. Wenn erfahrene Entwickler auf KI-generierten Code treffen, verbringen sie mehr Zeit mit Überprüfen, Korrigieren und Bereinigen der Ausgabe, als sie für das Schreiben selbst gebraucht hätten. Die KI-Vorschläge spiegeln Muster wider, die aus minderwertigen Rückmeldungen gelernt wurden, nicht den spezifischen Kontext der Codebasis. Für Experten fügt das Tool Rauschen statt Signal hinzu.
Die Arbeitsbedingungen verstärken das Problem
Knapp 100 kenianische KI-Arbeiter beschrieben ihre Bedingungen als „moderne Sklaverei” in einem offenen Brief. Arbeiter sind strengen Timern, algorithmischer Überwachung und willkürlichen Kontosperrungen ausgesetzt. Eine Sammelklage aus dem Jahr 2025 wirft Surge AI vor, Arbeiter falsch einzustufen, um arbeitsrechtliche Schutzmaßnahmen zu umgehen.
Unter diesen Bedingungen ist die Optimierung auf Durchsatz rational. Arbeiter lernen, Aufgaben schnell zu erledigen, um ihre Einnahmen zu sichern, und nicht sorgfältige, durchdachte Bewertungen zu liefern, die qualitativ hochwertiges Trainingssignal erzeugen. Wenn Ihr Konto ohne Erklärung gesperrt werden kann, weil Sie zu langsam gearbeitet haben, wird Analysetiefe zum Luxus, den man sich nicht leisten kann. Die Anreizstruktur selektiert auf allen Ebenen Geschwindigkeit über Qualität.
Das strukturelle Dilemma
Das grundlegende Problem ist nicht technischer, sondern wirtschaftlicher Natur. RLHF für Code erfordert Bewerter, die produktionsreife Ingenieurentscheidungen bewerten können. Diese Bewerter verdienen in ihrem Hauptberuf 133.000 Dollar oder mehr pro Jahr. Die Trainingspipeline zahlt im besten Fall 40 bis 60 Dollar pro Stunde als Auftragnehmer-Gig-Arbeit, und im häufigsten Fall 1,50 bis 2 Dollar pro Stunde. Kein rationaler Marktakteur mit echten Alternativen würde sich für eine Teilnahme entscheiden.
Das schafft eine Rückkopplungsschleife: Modelle, die auf mittelmäßigen Bewertungen trainiert wurden, produzieren mittelmäßigen Code, den erfahrene Entwickler dann zeitaufwendig bereinigen, was die Wahrnehmung verstärkt, dass KI „noch Arbeit braucht”, ohne dass sich die zugrundeliegenden Trainingsökonomien ändern. Die Modelle verbessern sich schrittweise durch Skalierung und Architekturänderungen, aber das Qualitätsniveau bleibt durch die Bewertungspipeline begrenzt.
Solange KI-Unternehmen nicht entweder Vergütung auf Expertenniveau für Code-Bewertung auf Expertenniveau zahlen (was die Trainingskosten erheblich erhöhen würde) oder Bewertungsmethoden entwickeln, die nicht auf menschlichem Urteil beruhen (was ein offenes Forschungsproblem bleibt), werden KI-Coding-Assistenten weiterhin Code produzieren, der oberflächliche Prüfungen besteht, während er die tieferen Muster verfehlt, die zuverlässige Software von fragiler Software unterscheiden.



