Nachrichten & Analyse Tech- & KI-Politik 7 min read

Qwen 3.6 27B: Brutale 14-fache Effizienz schlägt 397B-Riesenmodell

Alibabas 27-Milliarden-Parameter-dichtes KI-Modell hat sein eigenes 397-Milliarden-Parameter-Mixture-of-Experts-Modell in Coding-Benchmarks übertroffen. Der Clou: Es passt auf eine einzige Consumer-Grafikkarte.

This article was automatically translated from English by AI. Read the original English version →
Neural network visualization representing Qwen 3.6 27B AI model architecture
Reading mode

Das Qwen-Team von Alibaba veröffentlichte Qwen 3.6 27B am 22. April 2026 – und die Benchmark-Ergebnisse sorgen in der KI-Community für Aufsehen. Der Chef hat diesen Durchbruch persönlich zur Berichterstattung markiert, und das aus gutem Grund: Ein KI-Modell mit 27 Milliarden Parametern hat ein 397-Milliarden-Parameter-Modell in Coding-Benchmarks übertroffen – ein beeindruckender Fortschritt in Sachen KI-Modell Effizienz.[s]

Kein Tippfehler. Qwen 3.6 27B, mit 55,6 Gigabyte im Vollpräzisionsmodus, schlug Alibabas eigenes Qwen3.5-397B-A17B – ein 807-Gigabyte-Koloss – in mehreren agentenbasierten Coding-Benchmarks.[s] Das Modell steht unter Apache-2.0-Lizenz, mit vollständigen Gewichten auf Hugging Face und ModelScope zur Verfügung.

Was Qwen 3.6 27B wirklich leistet

Die meisten großen KI-Modelle im Jahr 2026 setzen auf die sogenannte Mixture-of-Experts-Architektur (MoE). Diese Modelle verfügen über Milliarden von Parametern, aktivieren jedoch nur einen Bruchteil davon pro Aufgabe. Das 397B-Modell, das Qwen 3.6 27B nun übertrifft, aktiviert trotz seiner enormen Gesamtgröße nur 17 Milliarden Parameter pro TokenDie grundlegenden Texteinheiten, die KI-Sprachmodelle verarbeiten und zählen, typischerweise Wörter, Wortteile oder Satzzeichen repräsentierend..[s]

Qwen 3.6 27B geht einen anderen Weg. Es handelt sich um ein „dichtes“ Modell, bei dem alle 27 Milliarden Parameter bei jedem Inferenzdurchlauf aktiv sind. Das klingt weniger effizient, bietet jedoch praktische Vorteile: einfachere Bereitstellung, besseres Kompressionsverhalten und leichtere Integration in gängige KI-Tools. Diese Architektur zeigt, wie KI-Modell Effizienz durch innovative Ansätze gesteigert werden kann.

Die Benchmark-Ergebnisse

Beim SWE-bench Verified, einem Standardtest für autonome Software-Engineering-Agenten, erreicht Qwen 3.6 27B 77,2 Prozent – im Vergleich zu 76,2 Prozent des 397B-MoE-Modells.[s] Bei anderen Tests wird der Vorsprung deutlicher: Terminal-Bench 2.0 zeigt 59,3 Prozent gegenüber 52,5 Prozent, und SkillsBench springt auf 48,2 Prozent gegenüber 30,0 Prozent.

Im Vergleich zu Anthropics Claude 4.5 Opus fällt das Ergebnis differenzierter aus. Claude führt weiterhin bei SWE-bench Verified (80,9 Prozent) und SWE-bench Pro (57,1 Prozent), doch Qwen 3.6 27B holt bei Terminal-Bench 2.0 mit 59,3 Prozent gleich auf.[s]

Einsatz auf Consumer-Hardware

Der praktische Vorteil liegt in der Hardware-Zugänglichkeit. Das vollständige Modell wiegt 55,6 Gigabyte, doch die Q4_K_M-quantisierte Version von Unsloth schrumpft auf 16,8 Gigabyte. Damit passt das KI-Modell auf eine einzelne RTX 4090 oder 5090, inklusive Kontextspeicher.[s]

Unabhängige Tests bestätigen dies. Der Entwickler Simon Willison führte das quantisierte Modell lokal aus und berichtete von etwa 25 Tokens pro Sekunde Generierungsgeschwindigkeit, ein „herausragendes Ergebnis für ein 16,8-Gigabyte-lokales Modell“, wie er es nannte.[s]

Neuheit: Thinking Preservation

Qwen 3.6 27B führt eine Funktion namens Thinking Preservation ein. Standardmäßig generieren Reasoning-Modelle bei jeder Antwort eine Chain-of-Thought, verwerfen diese jedoch vor dem nächsten Durchlauf. Diese neue Funktion behält die Reasoning-Spuren optional über die gesamte Konversationshistorie hinweg bei, sodass das Modell auf früheren Überlegungen aufbauen kann, statt den Kontext jedes Mal neu abzuleiten.[s]

Für Entwickler, die Coding-Agenten über Dutzende iterative Durchläufe hinweg einsetzen, reduziert dies redundante Token-Generierung und verbessert die Entscheidungskonsistenz – ein weiterer Beleg für die KI-Modell Effizienz von Qwen 3.6 27B.

Die Einschränkungen

Das Qwen-Team beschreibt die Veröffentlichung als Fokus auf „Stabilität und praktischen Nutzen“, geprägt von Community-Feedback statt Benchmark-Optimierung.[s] Allerdings bleibt die unabhängige Überprüfung begrenzt. Die Benchmarks nutzen Qwens internes Agenten-Gerüst, und Drittanbieter-Reproduktionen außerhalb dieser Umgebung stehen noch am Anfang.

Frühe Community-Tests auf Hacker News zeigen vielversprechende Ergebnisse. Ein Entwickler testete Qwen 3.6 27B gegen MiniMax-M2.7 und GLM-5 bei numerischen Berechnungsaufgaben und berichtete, dass das Modell „MiniMax übertraf und 2 von 3 Implementierungen gegen GLM-5 gewann“.[s]

Architektur: Hybride Attention im 3:1-Verhältnis

Qwen 3.6 27B nutzt einen hybriden Attention-Stack, der lineare und quadratische Attention in einem 3:1-Verhältnis abwechselt. Das 64-schichtige Netzwerk ist in 16 wiederholte Blöcke organisiert, wobei jeder Block drei Gated-DeltaNet-Sublayer gefolgt von einem Gated-Attention-Sublayer enthält, jeweils gepaart mit einem Feed-Forward-Netzwerk.[s]

Gated DeltaNet ist eine lineare Attention-Variante mit O(n)-Komplexität, die 48 Value-Heads und 16 Query/Key-Heads mit je 128 Dimensionen verwendet. Die quadratischen Gated-Attention-Schichten nutzen 24 Query-Heads, gepaart mit nur 4 Key/Value-Heads, um den KV-Cache-Overhead bei Langkontext-Inferenz zu minimieren.[s]

Benchmark-Leistung: Die Zahlen

Beim SWE-bench Verified erreicht Qwen 3.6 27B 77,2 Prozent gegenüber 76,2 Prozent des 397B-MoE-Modells und 80,9 Prozent von Claude 4.5 Opus.[s] Terminal-Bench 2.0 zeigt 59,3 Prozent – exakt gleichauf mit Claude 4.5 Opus und deutlich vor den 52,5 Prozent des 397B-MoE. SkillsBench liegt bei 48,2 Prozent gegenüber 30,0 Prozent des MoE-Modells, was einer relativen Verbesserung von 61 Prozent entspricht.

Beim QwenWebBench, einem internen zweisprachigen Benchmark für Frontend-Code-Generierung (Webdesign, Web-Apps, Spiele, SVG, Datenvisualisierung, Animation und 3D), erreicht das Modell 1487 Punkte. Das ist ein deutlicher Sprung gegenüber 1068 Punkten von Qwen3.5-27B und 1397 Punkten von Qwen3.6-35B-A3B.[s] Beim NL2Repo-Test für Repository-Level-Code-Generierung erzielt es 36,2 Prozent gegenüber 27,3 Prozent der Vorgängergeneration.

KontextfensterDie maximale Textmenge, die ein KI-Modell gleichzeitig verarbeiten kann, einschließlich des Gesprächsverlaufs und eigener früherer Ausgaben; älterer Text jenseits dieser Grenze wird vergessen. und multimodale Unterstützung

Das native Kontextfenster beträgt 262.144 TokenDie grundlegenden Texteinheiten, die KI-Sprachmodelle verarbeiten und zählen, typischerweise Wörter, Wortteile oder Satzzeichen repräsentierend. und lässt sich mit YaRN-RoPE-Skalierung auf über eine Million Token erweitern.[s] Das Modell wurde mit Multi-Token Prediction (MTP) trainiert, was spekulatives Decoding zur Durchsatzsteigerung ermöglicht.

Trotz des Fokus auf Coding ist Qwen 3.6 27B nativ multimodal und unterstützt Text-, Bild- und Videoeingaben über einen integrierten Vision-Encoder. Bei Vision-Benchmarks erreicht es 82,9 Punkte im MMMU, 81,4 im MMStar und 70,3 im AndroidWorld für GUI-Agenten-Verhalten.[s]

Thinking Preservation: Persistente Reasoning-Spuren

Die Thinking-Preservation-Funktion, aktivierbar über preserve_thinking: True in den Chat-Template-Kwargs, behält Chain-of-Thought-Reasoning-Spuren über die gesamte Konversationshistorie hinweg bei, statt sie zwischen den Durchläufen zu verwerfen.[s]

Die praktischen Effekte sind reduzierte redundante Token-Generierung, bessere KV-Cache-Nutzung und konsistentere Entscheidungsfindung über lange Agenten-Sessions hinweg. Diese Funktion unterstreicht die Fortschritte in der KI-Modell Effizienz, die mit Qwen 3.6 27B erzielt wurden.[s]

Bereitstellungsoptionen

Zwei Gewichtsversionen stehen zur Verfügung: Qwen3.6-27B in BF16 (55,6 Gigabyte) und Qwen3.6-27B-FP8 mit feingranularer FP8-Quantisierung bei Blockgröße 128. Beide unterstützen SGLang (0.5.10+), vLLM (0.19.0+), KTransformers und Hugging Face Transformers.[s]

Unsloths Q4_K_M-GGUF komprimiert das Modell auf 16,8 Gigabyte.[s] Unabhängige Tests von Simon Willison mit llama-server ergaben eine Generierungsgeschwindigkeit von 25,57 Tokens pro Sekunde, ein herausragendes Ergebnis für ein 16,8-Gigabyte-lokales Modell, wie er es formulierte.[s]

Verifizierungsstatus

Die Benchmarks nutzen Qwens internes Agenten-Gerüst mit Bash- und Dateibearbeitungswerkzeugen. Das Qwen-Team beschreibt die Veröffentlichung als Fokus auf „Stabilität und praktischen Nutzen“ statt Benchmark-Optimierung.[s] Unabhängige Drittanbieter-Verifizierungen außerhalb von Qwens Gerüst sind zum Stand 23. April 2026 noch begrenzt.

Frühe Community-Tests zeigen positive Signale. Auf Hacker News testete ein Entwickler Qwen 3.6 27B gegen MiniMax-M2.7 und GLM-5 bei numerischen Berechnungsimplementierungen und berichtete, dass das Modell „MiniMax übertraf und 2 von 3 Implementierungen gegen GLM-5 gewann“. Ein anderer Nutzer berichtete, das Modell auf einer RTX 5090 mit etwa 29 Gigabyte VRAM-Speicherbedarf zu betreiben.[s]

How was this article?
Share this article

Spot an error? Let us know

Quellen