Unzensierte KI-Modelle: 3 gefährliche Schwachstellen im Sicherheitstraining

Lesemodus

Der Chef hat uns auf dieses Thema aufmerksam gemacht, und es ist ein wichtiges: die Frage, was KI-Systeme eigentlich sagen dürfen und warum.

Wenn Sie schon einmal mit einem modernen KI-Chatbot gearbeitet haben, sind Sie auf eine Sicherheitsbarriere gestoßen. Fragen Sie nach Wechselwirkungen von Medikamenten, historischen Gräueltaten, Sicherheitslücken oder sogar nach etwas völlig Harmlosem, das zufällig provokant klingt, lehnt das Modell ab. Manchmal erklärt es den Grund. Häufiger heißt es nur vage: „Dazu kann ich Ihnen nicht weiterhelfen.“ Die Frage, die sich Nutzer selten beantworten lassen, lautet: Was passiert eigentlich im Inneren des Modells, und wer hat das entschieden?

Unzensierte KI-Modelle sind eine direkte Antwort auf diese Situation. Es handelt sich um KI-Systeme, oft Open Source, die ohne die aggressive Inhaltsfilterung trainiert werden, die kommerzielle Chatbots auszeichnet. Um zu verstehen, warum sie existieren und wofür sie genutzt werden, muss man zunächst begreifen, wie die Sicherheitsbarrieren überhaupt entstehen.

Wie KI-Modelle lernen, Anfragen abzulehnen

Moderne große Sprachmodelle kommen nicht bereits mit dem Wissen aus dem Training, was sie sagen dürfen und was nicht. Das Basismodell, das auf riesigen Textmengen trainiert wurde, vervollständigt weitgehend einfach Muster. Die Ablehnungen entstehen erst später durch einen Prozess namens Reinforcement Learning from Human Feedback (RLHF)^[s].

Die Grundidee: Menschliche Bewerter vergleichen Paare von KI-Antworten und wählen aus, welche ihnen besser gefällt. Ein separates Modell, das Belohnungsmodell, lernt, diese Präferenzen vorherzusagen. Die KI wird dann mithilfe von Verstärkungslernen trainiert, um beim Belohnungsmodell hohe Punktzahlen zu erzielen. Führt man dies ausreichend oft durch, lernt die KI, Ausgaben zu produzieren, die Menschen als „hilfreich und harmlos“ bewerten.

Die technische Umsetzung^[s] fügt einen Ausgleichsterm hinzu, um zu verhindern, dass sich das Modell zu weit von seinem ursprünglichen Verhalten entfernt, eine Strafe basierend auf der sogenannten KL-Divergenz. Ohne diesen Term würde das Modell lernen, Texte zu generieren, die das Belohnungsmodell täuschen, für Menschen aber unverständlich werden.

Das Ergebnis: ein Modell, das hilfreich klingt, offensichtlichen Schaden vermeidet und eine breite Palette von Anfragen ablehnt, die es als riskant eingestuft hat. Im Prinzip ist das genau das, was man möchte.

Die 3 kritischen Schwachstellen im KI-Sicherheitstraining

In der Praxis zeigen sich jedoch drei Probleme immer wieder.

Schwachstelle 1: Übermäßige Ablehnung. Eine akademische Studie aus dem Jahr 2023^[s] ergab, dass die Feinabstimmung für Sicherheit abnehmende Erträge bringt: Bereits 3 Prozent Sicherheitsbeispiele im Training eines Modells verbessern dessen Verhalten deutlich. Doch jenseits dieser Schwelle führt „zu viel Sicherheitstraining dazu, dass Modelle auch völlig harmlose Anfragen ablehnen, wenn sie oberflächlich riskanten ähneln.“ Das Modell erkennt Muster an der Oberfläche, versteht aber nicht die Absicht. Fragen Sie nach der Funktionsweise eines Schlossmechanismus für einen Sicherheitsblog, erkennt das Modell „Schlossmechanismus“ und löst dieselbe Ablehnung aus wie bei einem Einbrecher.

Schwachstelle 2: Das Wettrüsten. Jedes Sicherheitsbarrieren-System steht einer adversarischen Öffentlichkeit gegenüber. Forscher analysierten 1.405 reale Jailbreak-Prompts^[s], die zwischen Dezember 2022 und Dezember 2023 gesammelt wurden, und stellten fest, dass 5 spezifische Prompts eine Erfolgsquote von 95 Prozent bei der Umgehung der Sicherheitsfilter von GPT-3.5 und GPT-4 erreichten. Der früheste dieser Prompts war über 240 Tage online verfügbar. Die Sicherheitsbarrieren halten entschlossene Nutzer nicht auf, sie schaffen lediglich Hürden für alle anderen.

Schwachstelle 3: Wer entscheidet? Anthropics Constitutional-AI-System^[s] trainiert Modelle anhand einer schriftlichen Liste von Prinzipien, bei dem das Modell seine eigenen Ausgaben kritisiert und überarbeitet, um sie dann für das Training zu nutzen. Das ist in mancher Hinsicht sauberer als reines RLHF, konzentriert aber enorme Macht bei denen, die die Verfassung schreiben. Die Werte des Modells sind zu einem erheblichen Teil die Werte des Unternehmens, das es entwickelt hat, kodiert in Trainingsdaten, die kein Nutzer einsehen kann.

Unzensierte KI-Modelle: Was sie sind und wer sie nutzt

Unzensierte KI-Modelle verzichten auf diese Filterebene oder reduzieren sie deutlich. Die bekanntesten Beispiele sind Open Source: Metas Llama 2^[s] bietet öffentlich zugängliche Gewichte mit konfigurierbarer Sicherheit, und Mistral AI erklärte ausdrücklich^[s], dass sein Mistral-7B-Instruct-Modell „keinen Moderationsmechanismus“ enthält.

Wer nutzt unzensierte KI-Modelle tatsächlich? Die Anwendungsfälle sind weniger spektakulär, als die Darstellung vermuten lässt: Sicherheitsforscher, die über Schwachstellen diskutieren müssen, ohne ständig auf Ablehnungen zu stoßen; Autoren, die fiktionale Werke mit Kriminalität oder Gewalt schreiben; Historiker, die extremistische Rhetorik untersuchen; Mediziner, die ungeschönte klinische Informationen benötigen; und Entwickler, die das Verhalten von Modellen ohne Störgeräusche durch Sicherheitsbarrieren testen. Die oben zitierten Forscher weisen darauf hin, dass die Sicherheitskompromisse real sind, aber auch die Kosten übermäßiger Einschränkungen.

Die ehrliche Zusammenfassung: Unzensierte KI-Modelle sind nicht gefährlicher als eine Bibliothek. Es sind Werkzeuge, und Werkzeuge können missbraucht werden. Doch die Diskussion, die nie stattfindet, dreht sich darum, was wir verlieren, wenn jedes Werkzeug mit einem permanenten Inhaltsfilter ausgeliefert wird, der von einem Komitee festgelegt wurde, das Sie nicht gewählt haben.

Unser Redakteur hat dieses Thema markiert, und es fällt genau in den Bereich, den diese Kolumne abdeckt: die technischen Entscheidungen, die bestimmen, was KI-Systeme tatsächlich leisten.

Unzensierte KI-Modelle sind zu einer bedeutenden Kategorie in der KI-Einführung geworden, gerade weil die Sicherheitstrainings-Pipeline kommerzieller Sprachmodelle gut dokumentierte Schwachstellen aufweist. Um diese zu verstehen, muss man den gesamten Trainingsprozess kennen: vom Basistraining über RLHF bis hin zu Varianten der Constitutional AI.

Die RLHF-Pipeline und wie Inhaltsfilter entstehen

Die grundlegende RLHF-Arbeit^[s] von Christiano et al. zeigte, dass menschliche Präferenzvergleiche über Trajektorienabschnitte komplexe Verhaltensweisen trainieren können, ohne dass eine explizite Belohnungsfunktion benötigt wird. Auf Sprachmodelle angewendet, wurde dies zur Standard-Ausrichtungsmethode: Man sammelt menschliche Präferenzpaare über Modellausgaben, trainiert ein Belohnungsmodell auf diesen Paaren und feinabstimmt dann das Sprachmodell mittels PPO, um die Punktzahlen des Belohnungsmodells zu maximieren.

Das entscheidende Implementierungsdetail^[s] für Inhaltsfilter: Der Feinabstimmungsverlust enthält eine KL-Divergenz-Strafe zwischen der Policy-Verteilung und dem eingefrorenen Ausgangsmodell. Dies verhindert „Reward Hacking“, bei dem das Modell lernt, Texte zu generieren, die beim Belohnungsmodell hohe Punktzahlen erzielen, aber für Menschen inkohärent sind. Die Strafe ist eine praktische Notwendigkeit, bedeutet aber auch, dass das sicherheitstrainierte Modell nahe an seiner vortrainierten Verteilung bleiben muss, was bestimmt, wie sich Ablehnungen verallgemeinern.

Anthropics RLHF-Paper^[s] beschreibt einen iterativen Online-Trainingsansatz, bei dem Präferenzmodelle und RL-Policies wöchentlich mit frischem menschlichem Feedback aktualisiert werden, und identifiziert „eine ungefähr lineare Beziehung zwischen der RL-Belohnung und der Quadratwurzel der KL-Divergenz zwischen der Policy und ihrer Initialisierung“. Diese Beziehung ist bedeutsam: Stärkere Sicherheitsbelohnungen ziehen eine polynomiale Strafe für Verteilungsverschiebungen nach sich.

Constitutional AI und RLAIF

Constitutional AI^[s] (CAI) ersetzt menschliche Harmlosigkeitslabels durch KI-generierte Labels. Der Prozess: Man sampelt vom Ausgangsmodell, generiert Selbstkritiken und Überarbeitungen anhand einer schriftlichen Verfassung von Prinzipien, feinabstimmt das Modell auf die überarbeiteten Ausgaben (überwachtes Training) und trainiert dann ein Präferenzmodell auf KI-generierten Vergleichen für die RL-Phase. Dies wird als „RL from AI Feedback“ (RLAIF) bezeichnet. Wie Anthropic es beschreibt, ermöglicht die Methode „eine präzisere Steuerung des KI-Verhaltens mit weit weniger menschlichen Labels.“

Der verfassungsbasierte Ansatz hat einen technischen Vorteil gegenüber reinem RLHF für die Inhaltskontrolle: Die Prinzipien sind explizit und überprüfbar, anders als die impliziten Präferenzen, die menschliche Bewerter kodieren. Er birgt jedoch ein strukturelles Risiko: Wer die Verfassung schreibt, bestimmt vollständig, was das Modell als schädlich behandelt. Anthropics eigene Darstellung^[s] räumt ein, dass reines Schadensvermeidungstraining unzureichend ist und dass Training ausschließlich auf „Harmlosigkeit“ andere Schwachstellen erzeugt als Training auf nuancierten Charakter. Diese innere Spannung erklärt einen Teil der empirisch beobachteten übermäßigen Vorsicht.

Die Literatur zur übermäßigen Ablehnung und die 3-Prozent-Schwelle

Bianchi et al. (2023)^[s] liefern das klarste empirische Bild der Schwachstellen im Sicherheitstraining. Ihr Befund: „Bereits 3 Prozent Sicherheitsbeispiele bei der Feinabstimmung eines Modells wie LLaMA können dessen Sicherheit deutlich verbessern“, doch jenseits dieser Schwelle verschlechtert sich die Qualität in übertriebene Sicherheitsverhalten, bei dem Modelle „völlig harmlose Prompts ablehnen, wenn sie oberflächlich unsicheren ähneln.“ Das Belohnungsmodell verallgemeinert auf Oberflächenmuster, nicht auf semantische Absicht, ein Standardmerkmal gradientenbasierter Optimierung auf endlichen gelabelten Daten.

Das adversarische Gegenstück: Shen et al. (2023)^[s] analysierten 1.405 Jailbreak-Prompts und fanden 5 Prompts, die Erfolgsquoten von 0,95 bei Angriffen auf GPT-3.5 und GPT-4 erreichten. Die Angriffsstrategien, hauptsächlich Prompt-Injection und Privilegienerweiterung, nutzen den autoregressiven Generierungsprozess aus, nicht direkt das Belohnungsmodell. Bemerkenswert ist, dass die effektivsten Jailbreaks über 240 Tage persistierten und 28 Nutzerkonten über 100 Tage hinweg kontinuierlich Prompts optimierten. Sicherheitsbarrieren wirken gegen gelegentlichen Missbrauch, sind aber gegen motivierte Angreifer wirkungslos, genau die Bedrohungsverteilung, die man aus Red-Teaming-Forschung^[s] erwarten würde, die zeigt, dass RLHF-Modelle mit zunehmender Skalierung schwerer angreifbar werden, aber nicht unmöglich.

Unzensierte KI-Modelle in der Praxis

Die Open-Source-Antwort auf diese Landschaft sind unzensierte KI-Modelle mit konfigurierbarer Sicherheit. Metas Llama 2^[s] bietet Basisgewichte und feinabgestimmte Sicherheitsvarianten, sodass nachgelagerte Nutzer ihr Filterungsniveau selbst wählen können. Mistral 7B^[s] wird ohne Moderationsmechanismus ausgeliefert, explizit als Grundlage für individuelle Implementierungen und nicht als Endverbraucherprodukt positioniert.

Der praktische Anwendungsfall für unzensierte KI-Modelle in technischen Kontexten ist bedeutend: Sicherheitsforschung, Red-Teaming, medizinische Informationssysteme, juristische Analysen, kreatives Schreiben und alle Bereiche, in denen die Schwachstelle der übermäßigen Ablehnung kostspieliger ist als die Gefahr des Missbrauchs. Die Forschungsliteratur zum Sicherheitstraining macht den Kompromiss explizit. Was sie nicht beantwortet, ist die Wertfrage, wo dieser Kompromiss liegen sollte, und ob Nutzer dabei ein Mitspracherecht haben sollten.

Der aktuelle Gleichgewichtszustand, kommerzielle Modelle mit festen Sicherheitsbarrieren plus ein paralleles Ökosystem unzensierter KI-Modelle für alles andere, ist wahrscheinlich nicht der Endzustand. Doch er spiegelt ehrlich wider, wo die Ausrichtungsforschung derzeit steht: in der Lage, hilfreiche und harmlose Assistenten zu trainieren, weniger jedoch Assistenten, die hilfreich sind, weil sie Schaden verstehen, statt nur Muster darauf zu erkennen.

Interessante Quellen

Wenn Sie unzensierte KI-Modelle selbst ausprobieren möchten, bietet Uncensored.com Zugang zu KI ohne die standardmäßige kommerzielle Filterung. Nützlich, wenn Sie Forschung betreiben, kreativ schreiben oder einfach sehen möchten, was das Modell tatsächlich denkt, ohne die Sicherheitsbarrieren im Weg.

Offenlegung: Art of Truth erhält eine Provision für qualifizierte Käufe ohne zusätzliche Kosten für Sie. Dies hat keinen Einfluss auf unsere redaktionellen Inhalte.

Wie KI-Modelle lernen, Anfragen abzulehnen

Die 3 kritischen Schwachstellen im KI-Sicherheitstraining

Unzensierte KI-Modelle: Was sie sind und wer sie nutzt

Die RLHF-Pipeline und wie Inhaltsfilter entstehen

Constitutional AI und RLAIF

Die Literatur zur übermäßigen Ablehnung und die 3-Prozent-Schwelle

Unzensierte KI-Modelle in der Praxis

Interessante Quellen

Quellen

Verwandte Artikel

Die Evolution der menschlichen Sprache: Wie rekursive Syntax uns von anderen Primaten trennte

Wie Militärbündnisse funktionieren: Logik, Geschichte und Grenzen der kollektiven Verteidigung

Die Physik des Klangs: Wie Psychoakustik-Marketing Produkte verkauft und Verhalten steuert

Autokorrektur hat Ihre Rechtschreibung genommen. Die KI will den Rest.