KI-Slopware Katastrophe: 45% Sicherheitsfehler bewiesen

Lesemodus

Meinung.

Das Versprechen: Sie beschreiben auf Deutsch, was Sie wollen, und eine KI baut die Software für Sie. Keine Programmierkenntnisse erforderlich. Demokratisierung der Technologie. Jeder wird Entwickler. Die Zukunft ist da. Willkommen im Zeitalter der KI-Slopware.

Die Realität: Die Zukunft ist angekommen, und sie ist größtenteils kaputt.

Was KI-Slopware wirklich ist

Der Begriff „Slop” wurde von Merriam-Webster zum Wort des Jahres 2025 gekürt, ein Zeichen dafür, dass die Flut minderwertiger KI-generierter Inhalte zu groß geworden war, um ignoriert zu werden. Während die Diskussion sich auf KI-generierte Artikel, Bilder und Musik konzentrierte, passierte etwas Stilleres und möglicherweise Gefährlicheres: KI wurde eingesetzt, um Software zu bauen. Keine gute Software. Keine innovative Software. Software, die so aussieht, als würde sie funktionieren, bis man sie tatsächlich braucht.

Die Praxis hat Anfang 2025 einen Namen bekommen: „Vibe Coding” (Entwickeln nach Gefühl). Der Begriff, geprägt von Andrej Karpathy, beschreibt den Ansatz, KI Code aus natürlichsprachlichen Beschreibungen generieren zu lassen und das Ergebnis zu akzeptieren, ohne es wirklich zu verstehen. In der Theorie senkt das die Einstiegshürde. In der Praxis senkt es das Niveau.

Die Ergebnisse sind überall zu sehen. App-Stores füllen sich mit KI-generierten Anwendungen, die vorhandene Tools schlecht imitieren, standardmäßig Sicherheitslücken einführen und hauptsächlich existieren, weil ihre Entwicklung jetzt billig genug ist, damit Qualität optional wird. Das ist KI-Slop angewandt auf Software, und anders als ein schlechter KI-generierter Artikel kann schlechte KI-generierte Software Ihre Daten vernichten, Ihre Passwörter preisgeben oder Ihren Arbeitsablauf lahmlegen.

Die Zahlen sind nicht ermutigend

Der GenAI Code Security Report 2025 von Veracode testete KI-generierten Code über mehr als 100 große Sprachmodelle hinweg und stellte fest, dass die Modelle etwa 45 % der Zeit unsichere Coding-Methoden wählten, wenn sie die Wahl zwischen sicheren und unsicheren Ansätzen hatten. Cross-Site-Scripting-Abwehr versagte bei 86 % der relevanten Code-Beispiele. Java, eine der am weitesten verbreiteten Unternehmenssprachen, zeigte eine Sicherheitsfehlerquote von über 70 %. Der beunruhigendste Befund: Trotz rascher Verbesserungen bei der syntaktischen Korrektheit von KI-Code sind die Sicherheitsleistungen flach geblieben.

CodeRabbits Analyse von Open-Source-Pull-Requests ergab, dass KI-mitentwickelter Code etwa 1,7-mal mehr Probleme enthielt als menschlich geschriebener Code. Logik- und Korrektheitsfehler traten 1,75-mal häufiger auf. Sicherheits- und Wartbarkeitsprobleme waren ebenfalls deutlich erhöht.

Dann ist da noch die Produktivitätsfrage. METR, eine KI-Evaluierungsorganisation, führte Mitte 2025 eine randomisierte kontrollierte Studie mit 16 erfahrenen Open-Source-Entwicklern durch. Die Entwickler prognostizierten, dass KI-Tools sie um 24 % schneller machen würden. Das tatsächliche Ergebnis: Sie waren 19 % langsamer. Das ist eine 43-Prozentpunkte-Lücke zwischen Erwartung und Realität. Selbst nachdem sie die Verlangsamung am eigenen Leib erfahren hatten, glaubten die Entwickler immer noch, dass KI sie um etwa 20 % schneller gemacht hatte.

Nochmal lesen. Die Tools machten die Menschen langsamer, und die Menschen, die sie nutzten, merkten es nicht.

Das Open-Source-Problem

Der Schaden erstreckt sich weit über einzelne Anwendungen hinaus. Open-Source-Software, die Infrastruktur, auf der der Großteil des Internets läuft, wird durch die Vibe-Coding-Welle aktiv verschlechtert.

Daniel Stenberg, der Maintainer von cURL (einem Tool, das praktisch jedes mit dem Internet verbundene Gerät auf dem Planeten nutzt), schloss das sechsjährige Bug-Bounty-Programm seines Projekts, nachdem KI-generierte Einsendungen es überwältigten. Zwanzig Prozent der Einsendungen waren KI-generiert, und die Gesamtrate gültiger Berichte fiel auf 5 %. Das Programm hatte über seine gesamte Laufzeit 86.000 Dollar ausgezahlt. Es wurde nicht wegen der Kosten unhaltbar, sondern weil das Sortieren echter Bugs vom KI-generierten Rauschen mehr Zeit kostete als das Beheben tatsächlicher Sicherheitslücken.

Er ist nicht allein. Mitchell Hashimoto verbot KI-Code-Einsendungen bei Ghostty. Steve Ruiz implementierte automatisches Schließen aller externen Pull Requests bei tldraw. RedMonk-Analyst Kate Holterhoff beschrieb das Phänomen als „KI-Slopageddon”, eine Flut von KI-generierten Beiträgen, die so umfangreich und minderwertig ist, dass die Maintainer nicht mithalten können.

Stack Overflow, wo Entwickler seit über einem Jahrzehnt Wissen suchen und teilen, verzeichnete innerhalb von sechs Monaten nach dem Start von ChatGPT 25 % weniger Aktivität. Tailwind CSS, ein weit verbreitetes Framework, sah seinen Dokumentationsverkehr um 40 % einbrechen. Das sind nicht nur Zahlen. Sie stehen für die Erosion der Community-Wissensbasis, die das Software-Ökosystem zum Funktionieren gebracht hat. Die KI-Tools, die Code generieren, wurden auf diesem Ökosystem trainiert. Jetzt sind sie dabei, die Grundlagen zu zerstören, aus denen sie entstanden sind.

Das Gegenargument, und warum es nur teilweise trägt

Das Gegenargument verdient eine faire Anhörung. KI-Coding-Tools helfen wirklich bei Boilerplate, Routineaufgaben und Prototyping. Für erfahrene Entwickler, die jede Zeile überprüfen, testen und verstehen, ist KI ein ausgefeilter Tipp-Assistent. Programmierer Simon Willison brachte die Unterscheidung klar auf den Punkt: „Wenn ein LLM jede Zeile Ihres Codes geschrieben hat, Sie sie aber alle überprüft, getestet und verstanden haben, ist das für mich kein Vibe Coding, sondern die Nutzung eines LLM als Tipp-Assistenten.”

Das stimmt. Das Problem ist nicht, dass KI Code schreiben kann. Das Problem ist, dass die Branche Code-Generierung als den schwierigen Teil behandelt, obwohl das nie der schwierige Teil war. Der schwierige Teil ist zu verstehen, was der Code tun soll, warum er es auf diese Weise tun soll, und was passiert, wenn er versagt. Vibe Coding überspringt alle drei.

Das Ergebnis ist eine Welt, in der der Aufbau eines Minimum Viable Product ein Wochenende statt eines Monats dauert, und der Aufbau eines Minimum Viable Product, das in der Produktion nicht zusammenbricht, immer noch einen Monat dauert, plus das Wochenende, das man damit verbracht hat, das Falsche zu bauen.

Das Anreizproblem

Warum geschieht das? Weil die Anreize perfekt darauf ausgerichtet sind, dass es geschieht.

Software mit KI zu bauen ist billig. Sie zu deployen ist billig. Sie zu vermarkten ist billig (ebenfalls KI-generiert). Die Kosten, falsch zu liegen, haben sich nicht geändert, aber sie wurden vom Entwickler auf den Nutzer übertragen. Wenn Ihre KI-gebaute Ausgabenerfassungs-App, die an einem Wochenende entstand, Daten preisgibt, hat die Person, die sie gebaut hat, bereits ihr nächstes Projekt begonnen. Sie sind derjenige, der bei der Bank anruft.

Das ist Plattformdegradierung angewandt auf die gesamte Software-Lieferkette. Wenn die Produktionskosten gegen null sinken, die Qualitätskosten aber konstant bleiben, wird der Markt mit billigen Produkten überschwemmt und die durchschnittliche Qualität bricht ein. Das ist keine Prognose. Laut SEO-Firma Graphite sind mehr als die Hälfte aller englischsprachigen Web-Inhalte mittlerweile KI-generiert. Die gleiche Dynamik kommt für Software, und anders als Artikel kann Software, die versagt, reale Schäden verursachen.

Was das konkret bedeutet

Die KI-Slopware-Welle wird nicht aufhören. Die Tools werden sich verbessern. Der Code wird marginal weniger unsicher. Aber der strukturelle Anreiz, schnell zu liefern und nie zu reparieren, wird bestehen bleiben, solange Bauen billig und Verantwortlichkeit abwesend ist.

Was zählt, ist ob das Ökosystem Immunantworten entwickelt. Einige existieren bereits: Apple und Google entfernten Anfang 2026 Dutzende betrügerische KI-Apps. Die Open-Source-Community experimentiert mit Contribution-Gates. Einige Plattformen beginnen, KI-generierte Inhalte zu kennzeichnen.

Aber nichts davon geht an die Wurzel: KI-Coding-Tools haben das Neuerfinden des Rades trivial einfach gemacht, und die neuen Räder sind meistens schlechter. Die ursprüngliche Software-Engineering-Disziplin, die das Verstehen von Problemen vor deren Lösung schätzte, war kein Hindernis für die Demokratisierung. Sie war das, was die Software erst nutzbar machte.

Die teuerste Lektion der Branche wird gerade erteilt, auf Kosten der Nutzer: Es gibt keine Abkürzung für das Verständnis dessen, was man baut und warum.

Das KI-Slopware-Problem ist nicht theoretisch. Der Hype-Zyklus für KI-unterstützte Entwicklung hat sich offiziell überschlagen. Was als „GitHub Copilot wird Sie schneller machen” begann, hat sich über „KI wird Junior-Entwickler ersetzen” weiterentwickelt und ist an seiner aktuellen Destination angekommen: einer Landschaft, in der nicht-technische Gründer Anwendungen ausliefern können, die sie nicht verstehen, mithilfe von Tools, die Code generieren, den sie nicht auditieren können, deployt auf Infrastruktur, die sie nicht debuggen können.

Die Branche hat dafür einen Namen: Vibe Coding, geprägt von Andrej Karpathy Anfang 2025, um die Praxis zu beschreiben, Code aus natürlichsprachlichen Prompts zu generieren, ohne das Ergebnis zu überprüfen oder zu verstehen. Die wohlwollende Interpretation ist Rapid Prototyping. Die genaue Interpretation, für das meiste was ausgeliefert wird, ist technische Schulden als Dienstleistung.

Die Sicherheitsangriffsfläche

Der GenAI Code Security Report 2025 von Veracode testete Code-Generierung über mehr als 100 LLMs hinweg mit 80 kuratierten Coding-Aufgaben in Java, JavaScript, Python und C#. Das Hauptergebnis: Die Modelle wählten 45 % der Zeit unsichere Implementierungsmethoden, wenn sie die Wahl zwischen sicheren und unsicheren Ansätzen hatten. Aber die Details sind schlimmer.

XSS-Abwehr versagte bei 86 % der relevanten Proben (CWE-80). Nur 12 bis 13 % des generierten Codes, der kontextabhängige Schwachstellen wie XSS behandelte, war tatsächlich sicher. SQL-Injection-Prävention hingegen funktionierte vernünftig, was darauf hindeutet, dass die Modelle gängige Muster aus Trainingsdaten gelernt haben, aber bei allem versagen, das kontextuelles Sicherheitsdenken erfordert. Java zeigte eine Sicherheitsfehlerquote von über 70 %, was angesichts seiner Dominanz in Unternehmensumgebungen bemerkenswert ist.

Der strukturell bedeutsamste Befund: Die Sicherheitsleistung ist über aufeinanderfolgende Modellgenerationen hinweg flach geblieben, obwohl die syntaktische Korrektheit sich verbessert hat. Die Modelle werden besser darin, Code zu produzieren, der kompiliert. Sie werden nicht besser darin, Code zu produzieren, der sicher ist. Das ist ein Goodhartsches-Gesetz-Problem: Das Training optimiert auf funktionale Korrektheit, und Sicherheit ist nicht Teil der Verlustfunktion.

CodeRabbits State of AI vs. Human Code Generation Report, der Open-Source-Pull-Requests analysierte, fand 1,7-mal mehr Gesamtprobleme in KI-mitentwickeltem Code. Aufgeschlüsselt: Wartbarkeitsfehler 1,64-mal höher, Logik- und Korrektheitsfehler 1,75-mal höher, und Sicherheitsbefunde 1,57-mal höher. Das sind keine Spielzeug-Benchmarks. Das ist Produktionscode in aktiven Repositories.

Die Produktivitätsillusion

METRs randomisierte kontrollierte Studie ist die rigoroseste Studie zur KI-Coding-Produktivität bis dato. Sechzehn erfahrene Open-Source-Entwickler (aus Repos mit durchschnittlich 22.000+ Sternen) wurden zufällig 246 Issues zugewiesen, einige mit KI-Tools (hauptsächlich Cursor Pro mit Claude 3.5/3.7 Sonnet), andere ohne. Die Teilnehmer wurden mit 150 Dollar pro Stunde vergütet, um Anreizverzerrungen zu minimieren.

Ergebnis: Mit KI-Tools 19 % langsamer. Vorhergesagt: 24 % schneller. Nachträgliche Selbstbewertung: Glaubten immer noch, 20 % schneller zu sein.

Die 43-Prozentpunkte-Wahrnehmungs-Realitäts-Lücke ist der bedeutsame Befund. Entwickler können nicht genau einschätzen, ob diese Tools ihnen helfen. Die METR-Autoren vermerken wichtige Einschränkungen: 16 Teilnehmer, spezifisch für erfahrene Entwickler auf vertrauten Codebases, und ein „Schnappschuss der KI-Fähigkeiten von Anfang 2025″. Aber die Wahrnehmungslücke ist das strukturelle Problem. Wenn Praktiker nicht feststellen können, ob sie schneller oder langsamer sind, wird Optimierung auf Team- oder Organisationsebene nahezu unmöglich.

Googles DORA-Bericht fügt eine weitere Dimension hinzu: Während KI die Code-Produktion beschleunigt, kann sie auch zu größeren Changesets und schneller Experimentierung ermutigen, die Deployment-Ausfälle erhöhen, wenn Engineering-Disziplin nicht Schritt hält.

Open Source unter Beschuss

Das Open-Source-Ökosystem erlebt, was einem verteilten Denial-of-Service-Angriff durch gutgemeinte Inkompetenz entspricht. Daniel Stenberg beendete cURLs Bug-Bounty, nachdem KI-Einsendungen die Validierungsrate auf 5 % sinken ließen. Ein Forschungspapier der Central European University und des Kieler Instituts dokumentierte die Rückkopplungsschleife: Wenn Entwickler die Paketauswahl und -nutzung an KI delegieren, sinken Dokumentationsbesuche, Bug-Reports und Community-Anerkennung. Stack Overflow verlor nach ChatGPT 25 % Aktivität. Tailwind CSS verlor 40 % seines Dokumentationsverkehrs, wobei der Umsatz um 80 % einbrach.

Craig McLuckie (Stacklok-Mitgründer) identifizierte den Mechanismus: „Good first issue”-Labels, die darauf ausgelegt sind, neue Beitragende einzubinden, ziehen jetzt minderwertige KI-Einsendungen an, anstatt echte Entwickler zu fördern. Die Pipeline zur Schaffung neuer Open-Source-Beitragender wird von den Tools vergiftet, die auf deren zukünftigem Output angewiesen sind.

Das ist eine Tragödie der Gemeingüter in Echtzeit. Die KI-Modelle wurden auf Open-Source-Code trainiert. Die mit diesen Modellen gebauten Anwendungen degradieren das Open-Source-Ökosystem. Niemand besitzt das Problem, und die Menschen, die von den Tools profitieren, haben keinen Anreiz, es zu beheben.

Die ehrliche Einschätzung

KI-Coding-Tools sind in den Händen erfahrener Ingenieure, die sie als Autocomplete und nicht als Architektur behandeln, wirklich nützlich. Simon Willisons Unterscheidung ist korrekt: Ein LLM als Tipp-Assistent zu nutzen ist materiell anders als Vibe Coding. Das Problem ist, dass der Markt zwischen beiden nicht unterscheidet.

Die Unternehmens-Ausfallquoten sind erschreckend. Eine MIT-Studie aus 2025 ergab, dass 95 % der generativen KI-Piloten keine messbaren Erlöse oder Kosteneinsparungen produzierten. Zweiundvierzig Prozent der Unternehmen gaben 2025 die meisten KI-Initiativen auf, mehr als das Doppelte der Quote von 2024. Branchenanalysten prognostizieren, dass die meisten Technologie-Entscheider bis 2026 mit erheblichen technischen Schulden aus der KI-Adoption konfrontiert sein werden.

Der Lovable-Plattform-Vorfall ist lehrreich: 2025 stellten Sicherheitsforscher fest, dass ein erheblicher Anteil der auf der No-Code-Plattform gebauten Web-Anwendungen Schwachstellen aufwies, die unbefugten Datenzugriff ermöglichten, alles von einer einzigen Plattform, entdeckt von einem einzigen Forscher.

Das strukturelle Problem ist nicht, dass KI schlechten Code generiert. Es ist, dass KI die Fähigkeit, Software zu produzieren, von der Fähigkeit, Software zu evaluieren, entkoppelt hat. Die erste Fähigkeit ist jetzt kostenlos. Die zweite war es nie, und in der Lücke zwischen beiden passiert der Schaden.

KI-Slopware: Der Aufstieg von Software, die niemand wollte, gebaut von Leuten, die sie nicht verstehen

Was KI-Slopware wirklich ist

Die Zahlen sind nicht ermutigend

Das Open-Source-Problem

Das Gegenargument, und warum es nur teilweise trägt

Das Anreizproblem

Was das konkret bedeutet

Die Sicherheitsangriffsfläche

Die Produktivitätsillusion

Open Source unter Beschuss

Die ehrliche Einschätzung

Quellen

Was KI-Slopware wirklich ist

Die Zahlen sind nicht ermutigend

Das Open-Source-Problem

Das Gegenargument, und warum es nur teilweise trägt

Das Anreizproblem

Was das konkret bedeutet

Die Sicherheitsangriffsfläche

Die Produktivitätsillusion

Open Source unter Beschuss

Die ehrliche Einschätzung

Quellen

Verwandte Artikel

Der Fluch der Mustererkennung: Wenn das Gehirn nicht aufhört, Systeme zu sehen

Das Karte-Territorium-Problem: Jedes Informationssystem ist eine verlustbehaftete Kompression

Werbemanipulation: Eine Billionen-Dollar-Industrie, gebaut auf Ihrem Gehirn

AI Slop ist eine Wahl. Diese Seite ist der Beweis.