Actualités & Analyse Politique tech et IA 8 min read

Qwen 3.6 27B : une efficacité dévastatrice, 14 fois supérieure à un géant de 397 milliards de paramètres

Le modèle dense de 27 milliards de paramètres d’Alibaba vient de surpasser son propre modèle Mixture-of-Experts de 397 milliards sur des benchmarks de codage. Le plus impressionnant : il tient sur une seule carte graphique grand public.

This article was automatically translated from English by AI. Read the original English version →
Neural network visualization representing Qwen 3.6 27B AI model architecture
Reading mode

L’équipe Qwen d’Alibaba a lancé Qwen 3.6 27B le 22 avril 2026, et les résultats des tests font sensation dans la communauté de l’IA. Notre rédacteur en chef a insisté pour couvrir cette avancée du modèle IA 27B, et pour cause : un modèle de 27 milliards de paramètres vient de surpasser un modèle de 397 milliards de paramètres sur des benchmarks de codage[s].

Ce n’est pas une erreur. Qwen 3.6 27B, qui pèse 55,6 Go en pleine précision, a battu Qwen3.5-397B-A17B, un monstre de 807 Go, sur plusieurs benchmarks d’agents de codage[s]. Le modèle est distribué sous licence Apache 2.0, avec des poids complets disponibles sur Hugging Face et ModelScope.

Ce que fait vraiment Qwen 3.6 27B

La plupart des grands modèles d’IA en 2026 utilisent une architecture appelée Mixture-of-Experts (MoE). Ces modèles comptent des milliards de paramètres, mais n’en activent qu’une fraction pour chaque tâche. Le modèle de 397 milliards de paramètres que ce modèle IA 27B vient de surpasser n’active que 17 milliards de paramètres par jeton, malgré sa taille totale colossale[s].

Qwen 3.6 27B est différent. Il s’agit d’un modèle « dense », ce qui signifie que ses 27 milliards de paramètres sont tous actifs à chaque passage d’inférence. Cela peut sembler moins efficace, mais présente des avantages pratiques : un déploiement plus simple, un meilleur comportement en compression et une intégration plus facile avec les outils d’IA courants.

Les résultats des benchmarks

Sur SWE-bench Verified, un test standard pour les agents d’ingénierie logicielle autonomes, Qwen 3.6 27B obtient un score de 77,2 %, contre 76,2 % pour le modèle MoE de 397 milliards[s]. L’écart se creuse sur d’autres tests : Terminal-Bench 2.0 affiche 59,3 % contre 52,5 %, et SkillsBench passe à 48,2 % contre 30,0 %.

Face à Claude 4.5 Opus d’Anthropic, la comparaison est plus nuancée. Claude conserve l’avantage sur SWE-bench Verified (80,9 %) et SWE-bench Pro (57,1 %), mais Qwen 3.6 27B le rejoint exactement sur Terminal-Bench 2.0 avec 59,3 %[s].

Exécution sur du matériel grand public

L’attrait pratique réside dans son accessibilité matérielle. Le modèle complet pèse 55,6 Go, mais la version quantifiée Q4_K_M d’Unsloth se réduit à 16,8 Go. Cela tient sur une seule carte graphique RTX 4090 ou 5090, avec de la place pour le contexte[s].

Des tests indépendants confirment ces performances. Le développeur Simon Willison a exécuté le modèle quantifié en local et a rapporté une vitesse de génération d’environ 25 jetons par seconde, qualifiant le résultat de « remarquable pour un modèle local de 16,8 Go »[s].

Nouveauté : la préservation de la réflexion

Qwen 3.6 27B introduit une fonctionnalité appelée Thinking Preservation (préservation de la réflexion). Les modèles de raisonnement standard génèrent une chaîne de penséeTechnique de sollicitation qui guide un modèle de langage à raisonner étape par étape avant de donner une réponse finale, améliorant la précision sur les tâches complexes. à chaque réponse, mais effacent cette réflexion avant le tour suivant. Cette nouvelle fonctionnalité permet de conserver les traces de raisonnement tout au long de l’historique de conversation, permettant au modèle de s’appuyer sur ses réflexions antérieures plutôt que de recalculer le contexte à zéro[s].

Pour les développeurs exécutant des agents de codage sur des dizaines de tours itératifs, cela réduit la génération de jetons redondants et améliore la cohérence des décisions.

Les limites

L’équipe Qwen présente cette version comme privilégiant « la stabilité et l’utilité réelle », façonnée par les retours de la communauté plutôt que par l’optimisation des benchmarks[s]. Cependant, la vérification indépendante reste limitée. Les benchmarks utilisent l’infrastructure interne d’agent de Qwen, et les reproductions tierces en dehors de cet environnement sont encore rares.

Les premiers tests communautaires sur Hacker News sont encourageants. Un développeur a comparé Qwen 3.6 27B à MiniMax-M2.7 et GLM-5 sur des tâches de calcul numérique, rapportant que Qwen « a surpassé MiniMax et remporté 2 des 3 implémentations face à GLM-5 »[s].

Architecture : attention hybride dans un ratio 3:1

Qwen 3.6 27B utilise une pile d’attention hybride qui alterne entre attention linéaire et quadratique dans un ratio 3:1. Le réseau de 64 couches est organisé en 16 blocs répétés, chacun contenant trois sous-couches Gated DeltaNet suivies d’une sous-couche Gated Attention, chaque sous-couche étant associée à un réseau feed-forward[s].

Gated DeltaNet est une variante d’attention linéaire avec une complexité en O(n), utilisant 48 têtes de valeur et 16 têtes de requête/clé de 128 dimensions chacune. Les couches d’attention quadratique Gated Attention utilisent 24 têtes de requête associées à seulement 4 têtes de clé/valeur, minimisant ainsi la surcharge du cache KV lors de l’inférence en contexte long[s].

Performances des benchmarks : les chiffres

Sur SWE-bench Verified, ce modèle IA 27B obtient 77,2 %, contre 76,2 % pour le modèle MoE de 397 milliards et 80,9 % pour Claude 4.5 Opus[s]. Terminal-Bench 2.0 affiche 59,3 %, égalant exactement Claude 4.5 Opus et surpassant les 52,5 % du MoE de 397 milliards. SkillsBench atteint 48,2 % contre 30,0 % pour le MoE, soit une amélioration relative de 61 %.

Sur QwenWebBench, un benchmark interne de génération de code frontal bilingue couvrant la conception web, les applications web, les jeux, le SVG, la visualisation de données, l’animation et la 3D, le modèle obtient un score de 1487. C’est une progression significative par rapport aux 1068 de Qwen3.5-27B et aux 1397 de Qwen3.6-35B-A3B[s]. Sur NL2Repo, qui teste la génération de code au niveau des dépôts, il atteint 36,2 contre 27,3 pour la génération précédente.

Fenêtre de contexteLa quantité maximale de texte qu'un modèle d'IA peut traiter simultanément, incluant l'historique de la conversation et ses propres réponses précédentes ; le texte au-delà est oublié. et support multimodal

La fenêtre de contexte native est de 262 144 jetons, extensible à un peu plus d’un million grâce à la mise à l’échelle YaRN RoPE[s]. Le modèle est entraîné avec une prédiction multi-jetons (MTP), permettant un décodage spéculatifOptimisation d'inférence où un petit modèle génère des tokens brouillons qu'un modèle plus grand valide en parallèle, augmentant la vitesse sans modifier la qualité. lors de l’inférence pour améliorer le débit.

Malgré un marketing axé sur le codage, Qwen 3.6 27B est nativement multimodal, supportant le texte, les images et la vidéo via un encodeur visuel intégré. Les benchmarks visuels affichent 82,9 sur MMMU, 81,4 sur MMStar et 70,3 sur AndroidWorld pour le comportement des agents d’interface graphique[s].

Préservation de la réflexion : traces de raisonnement persistantes

La fonctionnalité Thinking Preservation, activable via preserve_thinking: True dans les arguments du template de chat, conserve les traces de raisonnement en chaîne de penséeTechnique de sollicitation qui guide un modèle de langage à raisonner étape par étape avant de donner une réponse finale, améliorant la précision sur les tâches complexes. tout au long de l’historique de conversation, plutôt que de les effacer entre les tours[s].

Les effets pratiquesTechniques de tournage physiques — prothèses, maquillage, marionnettes, dispositifs mécaniques — qui créent des effets visuels sur le plateau sans images de synthèse. incluent une réduction de la génération de jetons redondants, une meilleure utilisation du cache KV et une prise de décision plus cohérente sur de longues sessions d’agents[s]. L’équipe Qwen recommande de maintenir au moins 128 000 jetons de contexte pour préserver les capacités de réflexion du modèle.

Options de déploiement

Deux variantes de poids sont disponibles : Qwen3.6-27B en BF16 (55,6 Go) et Qwen3.6-27B-FP8 avec quantification FP8 fine à taille de bloc 128. Les deux supportent SGLang (0.5.10+), vLLM (0.19.0+), KTransformers et Hugging Face Transformers[s].

La version GGUF Q4_K_M d’Unsloth compresse le modèle à 16,8 Go[s]. Des tests indépendants menés par Simon Willison avec llama-server ont rapporté une vitesse de génération de 25,57 jetons par seconde, qualifiant le résultat de « remarquable pour un modèle local de 16,8 Go »[s].

Statut de vérification

Les benchmarks utilisent l’infrastructure interne d’agent de Qwen avec des outils bash et d’édition de fichiers. L’équipe Qwen présente cette version comme privilégiant « la stabilité et l’utilité réelle » plutôt que l’optimisation des benchmarks[s]. La vérification tierce indépendante en dehors de l’infrastructure de Qwen reste limitée au 23 avril 2026.

Les premiers tests communautaires sont prometteurs. Sur Hacker News, un développeur a comparé Qwen 3.6 27B à MiniMax-M2.7 et GLM-5 sur des implémentations de calcul numérique, rapportant que Qwen « a surpassé MiniMax et remporté 2 des 3 implémentations face à GLM-5 »[s]. Un autre utilisateur a indiqué exécuter le modèle sur une RTX 5090, utilisant environ 29 Go de mémoire vive graphique[s].

How was this article?
Share this article

Spot an error? Let us know

Sources