Wenn Ihnen eine Plattform im Jahr 2026 Tokens für KI-generierte Bilder berechnet, verkauft sie Ihnen kein Produkt. Sie verkauft Ihnen Unwissenheit. Die tatsächlichen Kosten für die Generierung eines Bildes auf Ihrer eigenen Hardware betragen ungefähr null, sobald Sie eine leistungsfähige Grafikkarte besitzen. Lokale KI-Bildgenerierung ist kein Geheimnis, kein Hack und nicht auf Ingenieure beschränkt. Es ist freie, quelloffene Software, die dieselben Modelle (oder bessere) ausführt, für deren Nutzung Ihnen diese Plattformen pro Klick Geld abverlangen.
Diese Anleitung führt Sie durch die Einrichtung. Am Ende werden Sie eine funktionierende lokale KI-Bildgenerierungs-Pipeline auf Ihrer eigenen Maschine haben, die Bilder auf dem Qualitätsniveau produziert, für das Begleit-Apps Premium-Abonnements verlangen, ohne Kosten pro Bild. Die einzige Voraussetzung ist eine moderne GPU und etwa eine Stunde Ihrer Zeit.
Was ComfyUI ist und warum es wichtig ist
ComfyUI ist eine kostenlose, quelloffene, knotenbasierte Oberfläche zum lokalen Ausführen von KI-Bildgenerierungsmodellen. Stellen Sie es sich als eine visuelle Programmierumgebung vor, in der jeder Schritt des Bildgenerierungsprozesses (Modell laden, Prompt schreiben, Parameter einstellen, generieren, hochskalieren) ein verschiebbares Kästchen ist, das Sie mit Drähten verbinden. Es läuft in Ihrem Browser, aber die Berechnung findet auf Ihrer Maschine statt.
Der „knotenbasierte” Teil klingt einschüchternd. Ist er nicht. Der Standard-Workflow, der mit ComfyUI ausgeliefert wird, verbindet bereits die Kästchen, die Sie für die grundlegende Text-zu-Bild-Generierung benötigen. Sie tippen einen Prompt ein, klicken auf „Queue Prompt” und erhalten ein Bild. Die Knoten werden später nützlich, wenn Sie komplexere Operationen verketten möchten: img2img, InpaintingKI-Bildbearbeitungstechnik, die einen ausgewählten Bereich eines Bildes anhand einer Textbeschreibung füllt oder ersetzt, wobei das Ergebnis nahtlos in das Umgebungsbild integriert wird., ControlNet, Stapelverarbeitung. Aber für den Einstieg können Sie es als einfaches Textfeld mit einem Generierungsknopf behandeln.
ComfyUI unterstützt Stable Diffusion 1.5, SDXL, Stable Diffusion 3 und Flux-Modelle von Haus aus. Es wird aktiv entwickelt, mit einer großen Community, die benutzerdefinierte Knoten für jeden erdenklichen Workflow erstellt. Das GitHub-Repository (github.com/comfyanonymous/ComfyUI) hat Zehntausende von Sternen und wird häufig aktualisiert.
Was Flux ist
Flux ist eine Familie von Text-zu-Bild-Modellen, die von Black Forest Labs entwickelt wurde, gegründet von mehreren Forschern hinter dem ursprünglichen Stable Diffusion. Flux repräsentiert den aktuellen Stand der Technik bei der Bildgenerierung mit offenen Gewichten. „Offene Gewichte” bedeutet, dass die trainierten Modelldateien frei herunterladbar sind. Sie brauchen keinen API-Schlüssel und kein Abonnement. Sie laden die Datei herunter, richten ComfyUI darauf und generieren.
Die Flux-Familie umfasst mehrere Versionen. Die Hauptversion (Flux.1 Dev) bietet die beste Qualität. Eine schnellere Version (Flux.1 Schnell) generiert Bilder zügiger, aber mit etwas weniger Detail. Neuere Versionen verbessern sich stetig. Das Wesentliche: Sie sind alle kostenlos herunterzuladen und zu nutzen.
Um Flux auf einem normalen Computer auszuführen, wollen Sie die komprimierte Version (genannt „FP8″). Denken Sie daran wie an die Komprimierung eines Fotos von maximaler zu hoher Qualität: Die Datei wird viel kleiner, der Unterschied ist kaum wahrnehmbar, und es läuft auf bescheidenerer Hardware. Es benötigt etwa 12 GB Videospeicher auf Ihrer Grafikkarte. Noch kleinere komprimierte Versionen existieren, die auf 8-GB-Karten passen.
Die Flux-Familie umfasst mehrere Varianten. Flux.1 Dev ist das Standard-Entwicklungsmodell, optimal für Qualität. Flux.1 Schnell tauscht Qualität gegen deutlich schnellere Generierung (4 Inferenzschritte gegenüber 20-50). Flux.2 fügte Multi-Referenz-Bildunterstützung hinzu und verbesserte die Kohärenz. NVIDIA arbeitete mit Black Forest Labs zusammen, um Flux.2 für Consumer-RTX-GPUs mittels FP8-Quantisierung zu optimieren, was die VRAM-Anforderungen um etwa 40 % reduziert.
Für lokale KI-Bildgenerierung auf Consumer-Hardware sind FP8-quantisierte Checkpoints das Ziel. Sie komprimieren Modellgewichte von FP16/FP32 auf FP8, halbieren den Speicherbedarf bei minimalem wahrgenommenem Qualitätsverlust. Flux.1 Dev FP8 läuft komfortabel auf 12 GB VRAM. GGUF-quantisierte Varianten (Q4_K_M, Q5_K_S) drücken die Untergrenze auf 6-8 GB mit progressiven Qualitätskompromissen. Für 24-GB-Karten bleiben volle BF16-Gewichte eine Option.
Hardwareanforderungen: Weniger als Sie denken
Ihr Computer hat zwei Gehirne: die CPU (der Hauptprozessor, der Ihr Betriebssystem ausführt) und die GPU (die Grafikkarte, ursprünglich für Videospiele entwickelt). KI-Bildgenerierung läuft auf der GPU, weil sie massiv besser in der Art von paralleler Mathematik ist, die diese Modelle benötigen. Die Schlüsselspezifikation ist VRAM: der dedizierte Speicher auf Ihrer Grafikkarte. Mehr VRAM bedeutet, dass Sie größere, bessere Modelle ausführen können.
Das minimal brauchbare Setup für lokale KI-Bildgenerierung mit Flux ist jede NVIDIA-GPU mit 8 GB VRAM. Das schließt die RTX 3060 (12-GB-Variante), RTX 3070, RTX 4060 und alles darüber ein. AMD-GPUs funktionieren ebenfalls, wobei NVIDIA bessere Softwareunterstützung für diese Arbeitslast bietet. Wenn Sie keine Ahnung haben, welche GPU Sie besitzen: Unter Windows gehen Sie zu Einstellungen, System, Anzeige, scrollen dann nach unten zu „Erweiterte Anzeige”, und es wird Ihnen angezeigt.
Hier die praktische Aufschlüsselung:
- 8 GB VRAM (RTX 3060 8 GB, RTX 4060): Führt stark komprimierte Flux-Modelle aus. Generierung dauert 30 bis 60 Sekunden pro Bild. Absolut brauchbar.
- 12 GB VRAM (RTX 3060 12 GB, RTX 4070): Führt Flux.1 Dev FP8 nativ aus. Generierung dauert 15 bis 30 Sekunden. Der Sweet Spot für die meisten Nutzer.
- 16 bis 24 GB VRAM (RTX 4080, RTX 4090): Führt Modelle mit voller Präzision bei hoher Geschwindigkeit aus. 5 bis 15 Sekunden pro Bild. Luxussegment.
Eine gebrauchte RTX 3060 12 GB wird 2026 für 150 bis 200 Dollar verkauft. Das ist weniger als sechs Monate Premium-Abonnements auf den meisten KI-Plattformen. Nur dass die GPU nicht abläuft, keine wiederkehrende Zahlung erfordert und nebenbei auch noch Videospiele spielen kann.
Lokale KI-Bildgenerierung Schritt für Schritt einrichten
Das ist der Teil, der von außen kompliziert aussieht und in der Praxis etwa 30 Minuten dauert. Sie brauchen drei Dinge: Python (eine Programmiersprache, in der ComfyUI geschrieben ist), ComfyUI selbst und eine Flux-Modelldatei (das „Gehirn”, das Bilder generiert).
Bevor wir anfangen: Mehrere dieser Schritte beinhalten das Eintippen von Befehlen in ein Terminal. Ein Terminal ist einfach ein textbasierter Weg, Ihrem Computer zu sagen, was er tun soll. Unter Windows drücken Sie die Windows-Taste und tippen „cmd”, um die Eingabeaufforderung zu öffnen. Auf dem Mac öffnen Sie Spotlight (Cmd+Leertaste) und tippen „Terminal”. Es sieht aus wie in einem Hackerfilm, aber alles, was Sie tun, ist Anweisungen einzutippen statt auf Knöpfe zu klicken.
Der einfache Weg: Wenn die folgenden Schritte zu kompliziert erscheinen, springen Sie direkt zur ComfyUI Desktop-App. Sie bündelt alles in einem normalen Installer für Windows und macOS: herunterladen, doppelklicken, fertig. Die manuelle Einrichtung unten gibt Ihnen mehr Kontrolle, aber die Desktop-App bringt Sie in etwa fünf Klicks zur Bildgenerierung.
Schritt 1: Python installieren
Laden Sie Python 3.10 oder neuer von python.org herunter. Führen Sie den Installer aus. Wichtig unter Windows: Setzen Sie das Häkchen bei „Add Python to PATH” am unteren Rand des ersten Bildschirms. Das erlaubt Ihrem Terminal, Python zu finden, wenn Sie Befehle eintippen. Auf Mac und Linux ist Python normalerweise bereits installiert.
Zur Überprüfung: Öffnen Sie ein Terminal und tippen Sie python --version. Wenn es etwas wie „Python 3.12.1″ ausgibt, sind Sie startklar.
Schritt 2: ComfyUI herunterladen und einrichten
Immer noch in Ihrem Terminal, tippen Sie diesen Befehl und drücken Sie Enter:
git clone https://github.com/comfyanonymous/ComfyUI.git
Das lädt die gesamte ComfyUI-Anwendung in einen Ordner namens „ComfyUI” herunter, wo auch immer Ihr Terminal gerade hinzeigt (normalerweise Ihr Benutzerordner). Wenn Ihr Computer „git is not recognized” anzeigt, müssen Sie zuerst Git installieren: Laden Sie es von git-scm.com herunter, führen Sie den Installer mit den Standardeinstellungen aus und versuchen Sie es erneut.
Navigieren Sie dann in den Ordner und installieren Sie die benötigten Komponenten:
cd ComfyUI
pip install -r requirements.txt
Der zweite Befehl liest eine Liste von Software, die ComfyUI benötigt, und lädt alles automatisch herunter. Der Download umfasst einige Gigabyte (er enthält die mathematischen Bibliotheken, die Ihre GPU für KI-Aufgaben nutzt). Mit einer ordentlichen Verbindung fünf bis zehn Minuten. Das machen Sie nur einmal.
Schritt 3: Ein Flux-Modell herunterladen
Die Modelldatei ist das „Gehirn”, das tatsächlich Bilder generiert. Es ist eine große Datei (ungefähr 12 GB für die Standardversion). Gehen Sie zu huggingface.co (eine kostenlose Plattform, auf der KI-Modelle geteilt werden) und suchen Sie nach „flux1-dev-fp8″. Laden Sie die Datei herunter und legen Sie sie in den Ordner ComfyUI/models/checkpoints/. Wenn Sie eine bescheidenere Grafikkarte haben (8 GB VRAM oder weniger), suchen Sie stattdessen nach „flux GGUF”, um kleinere komprimierte Versionen zu finden (4 bis 8 GB).
Schritt 4: Starten
In Ihrem Terminal, stellen Sie sicher, dass Sie sich noch im ComfyUI-Ordner befinden, und tippen Sie dann:
python main.py
ComfyUI startet einen lokalen Server auf Ihrer Maschine. Öffnen Sie Ihren Webbrowser und gehen Sie zu http://127.0.0.1:8188 (diese Adresse bedeutet einfach „dieser Computer, Port 8188″, es geht nicht ins Internet). Die Oberfläche lädt sich mit einem bereits eingerichteten Standard-Workflow. Wählen Sie Ihr heruntergeladenes Modell im Feld „Load Checkpoint” aus, tippen Sie in das Prompt-Feld, was Sie sehen möchten, und klicken Sie auf „Queue Prompt”. Ihr erstes KI-generiertes Bild erscheint in 15 bis 60 Sekunden, je nach GPU.
Wenn Sie eine Speicherfehler-Meldung erhalten, versuchen Sie: python main.py --lowvram. Das weist ComfyUI an, sparsamer mit dem Speicher Ihrer GPU umzugehen, wobei etwas Geschwindigkeit gegen Kompatibilität mit kleineren Karten getauscht wird.
Schritt 1: Python + Git
Python 3.10+ und Git erforderlich. Falls nicht installiert: sudo apt install python3 python3-pip git (Debian/Ubuntu), brew install python git (macOS), oder Installer von python.org und git-scm.com herunterladen (Windows, „Add to PATH” aktivieren).
Schritt 2: Repository klonen und Abhängigkeiten installieren
git clone https://github.com/comfyanonymous/ComfyUI.git && cd ComfyUI
Für NVIDIA (CUDA):
pip install -r requirements.txt
Für AMD (ROCm):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0 && pip install -r requirements.txt
Alternativ verwenden Sie die ComfyUI Desktop-App, die Python und Abhängigkeiten in einem eigenständigen Installer bündelt.
Schritt 3: Checkpoint herunterladen
Legen Sie Ihre Modelldatei in ComfyUI/models/checkpoints/ ab. Empfohlene Ausgangspunkte:
- 12 GB+ VRAM:
flux1-dev-fp8.safetensors(~12 GB) von Hugging Face - 8 GB VRAM: GGUF Q5_K_S-Variante (~8 GB) von Hugging Face oder Civitai
- 6 GB VRAM: GGUF Q4_K_M-Variante (~5 GB), nutzbar mit dem Flag
--lowvram
Der VAE ist in FP8-Checkpoints eingebettet. Für GGUF benötigen Sie möglicherweise einen separaten VAE (ae.safetensors aus dem Flux-Repository).
Schritt 4: Starten
# Default
python main.py
# Low VRAM (8GB)
python main.py --lowvram
# CPU only (slow)
python main.py --cpu
Zugriff über http://127.0.0.1:8188. Der Standard-Workflow wird automatisch geladen. Wählen Sie Ihren Checkpoint in der KSampler-Kette, setzen Sie Ihren Prompt und starten Sie. Für Flux verwenden Sie 20 bis 30 Schritte mit dem Euler-Sampler für Dev, 4 Schritte für Schnell.
Die Token-Ökonomie: Wofür Sie tatsächlich bezahlen
Jetzt, da Sie wissen, dass die Einrichtung 30 Minuten dauert und nichts kostet außer Hardware, die Sie möglicherweise bereits besitzen, überlegen Sie, was KI-Begleit-App-Plattformen berechnen.
Das typische Preismodell funktioniert so: Ein Gratis-Tarif gibt Ihnen 3 bis 5 Bilder pro Tag. Ein mittlerer Tarif (10 bis 15 Dollar pro Monat) gibt Ihnen 30 bis 50 Bilder. Premium-Tarife (30 bis 40 Dollar pro Monat) schalten „unbegrenzte” Generierung frei, was meist ein höheres Limit mit Drosselung bedeutet. Einige Plattformen verkaufen Token-Pakete separat und berechnen 0,10 bis 0,50 Dollar pro Bild zusätzlich zum Abonnement.
Die tatsächlichen Kosten für diese Plattformen? Flux oder ein vergleichbares Modell auf Cloud-GPUs auszuführen kostet im großen Maßstab ungefähr 0,01 bis 0,04 Dollar pro Bild, abhängig von der Infrastruktur. Die Marge reicht von 3x bis 50x. Für Plattformen, die einzelne Tokens zu 0,25 bis 0,50 Dollar pro Bild verkaufen, ist die Gewinnspanne astronomisch. Wie wir in unserem Vergleich von KI-Begleit-Apps dargelegt haben, basiert das Geschäftsmodell darauf, dass Nutzer nicht wissen, was die Technologie tatsächlich im Betrieb kostet.
Es ist das Äquivalent dazu, 2004 pro Google-Suche zu kassieren, nur dass Google verstanden hatte, dass die Suche kostenlos zu machen und Aufmerksamkeit zu monetarisieren profitabler war als Nutzern jeden Cent abzuknöpfen. Der Markt der KI-Begleit-Apps hat diese Lektion nicht gelernt, oder genauer gesagt: er hat gelernt, dass seine Nutzer es noch nicht besser wissen.
Hochskalierung ist ebenfalls kostenlos
Viele Plattformen berechnen zusätzliche Tokens für „HD”- oder „hochskalierte” Bilder. Lokale KI-Bildgenerierung beinhaltet Hochskalierung ohne zusätzliche Kosten. Modelle wie 4x-UltraSharp und RealESRGAN können eine 512×512-Generierung nehmen und auf 2048×2048 skalieren, mit hinzugefügtem Detail und Schärfe. In ComfyUI ist das ein einziger zusätzlicher Knoten in Ihrem Workflow. Die Upscaler-Modelldateien sind klein (unter 100 MB) und frei verfügbar.
Dasselbe gilt für Inpainting (einen Teil eines Bildes löschen und die KI ausfüllen lassen), img2img (der KI ein bestehendes Foto geben und sie bitten, es zu transformieren) und ControlNet (der KI eine Referenzpose oder Skizze zum Folgen geben). Jede Funktion, die eine Plattform hinter einer Paywall sperren könnte, existiert als kostenlose, installierbare Erweiterung in ComfyUI.
Alternativen, die Sie kennen sollten
ComfyUI ist nicht die einzige Option für lokale KI-Bildgenerierung, obwohl es die flexibelste ist.
Automatic1111 (Stable Diffusion WebUI) ist die ältere, etabliertere Oberfläche. Sie sieht eher wie eine normale Website aus: Sie bekommen ein Textfeld, einige Schieberegler und einen Generierungsknopf. Keine Drähte, keine Kästchen. Am ersten Tag einfacher zu verstehen, aber später schwieriger für fortgeschrittene Aufgaben. Wenn der visuelle Knotenansatz von ComfyUI Sie wirklich abschreckt, fangen Sie hier an.
Forge ist ein Fork von Automatic1111, optimiert für geringeren VRAM-Verbrauch und schnellere Generierung. Es fügt Speicherverwaltungsfunktionen hinzu, die es ermöglichen, größere Modelle auf kleineren GPUs auszuführen. Ein guter Mittelweg.
Alle drei sind kostenlos, quelloffen und nutzen dieselben Modelldateien. ComfyUI erhält hier die Empfehlung, weil sein Knotensystem vom Einfachen zum außerordentlich Komplexen skaliert, ohne das Werkzeug zu wechseln, und seine Flux-Unterstützung am aktivsten gepflegt wird. Aber jedes der drei befreit Sie vom Token-Hamsterrad.
Das große Ganze
Das Muster hier ist nicht einzigartig für die Bildgenerierung. Plattformdegradation als Geschäftsmodell funktioniert, indem schrittweise eingeschränkt wird, was einst frei verfügbar war, und dann der Zugang zu einem Premium-Preis zurückverkauft wird. KI-Begleit-Apps haben eine Abkürzung genommen: Sie haben die Einschränkungen von Anfang an eingebaut, in der Wette, dass Nutzer nie erfahren würden, dass die zugrundeliegende Technologie offen und kostenlos ist.
Lokale KI-Bildgenerierung ist kein Workaround und kein Hack. Es ist der Standardzustand der Technologie. Die Modelle sind offen. Die Werkzeuge sind offen. Die einzige Barriere ist zu wissen, dass sie existieren. Jetzt wissen Sie es.



