Qwen 3.6 27B : un modèle IA 27B 14 fois plus efficace et dangereux que les géants

Reading mode

L’équipe Qwen d’Alibaba a lancé Qwen 3.6 27B le 22 avril 2026, et les résultats des tests font sensation dans la communauté de l’IA. Notre rédacteur en chef a insisté pour couvrir cette avancée du modèle IA 27B, et pour cause : un modèle de 27 milliards de paramètres vient de surpasser un modèle de 397 milliards de paramètres sur des benchmarks de codage^[s].

Ce n’est pas une erreur. Qwen 3.6 27B, qui pèse 55,6 Go en pleine précision, a battu Qwen3.5-397B-A17B, un monstre de 807 Go, sur plusieurs benchmarks d’agents de codage^[s]. Le modèle est distribué sous licence Apache 2.0, avec des poids complets disponibles sur Hugging Face et ModelScope.

Ce que fait vraiment Qwen 3.6 27B

La plupart des grands modèles d’IA en 2026 utilisent une architecture appelée Mixture-of-Experts (MoE). Ces modèles comptent des milliards de paramètres, mais n’en activent qu’une fraction pour chaque tâche. Le modèle de 397 milliards de paramètres que ce modèle IA 27B vient de surpasser n’active que 17 milliards de paramètres par jeton, malgré sa taille totale colossale^[s].

Qwen 3.6 27B est différent. Il s’agit d’un modèle « dense », ce qui signifie que ses 27 milliards de paramètres sont tous actifs à chaque passage d’inférence. Cela peut sembler moins efficace, mais présente des avantages pratiques : un déploiement plus simple, un meilleur comportement en compression et une intégration plus facile avec les outils d’IA courants.

Les résultats des benchmarks

Sur SWE-bench Verified, un test standard pour les agents d’ingénierie logicielle autonomes, Qwen 3.6 27B obtient un score de 77,2 %, contre 76,2 % pour le modèle MoE de 397 milliards^[s]. L’écart se creuse sur d’autres tests : Terminal-Bench 2.0 affiche 59,3 % contre 52,5 %, et SkillsBench passe à 48,2 % contre 30,0 %.

Face à Claude 4.5 Opus d’Anthropic, la comparaison est plus nuancée. Claude conserve l’avantage sur SWE-bench Verified (80,9 %) et SWE-bench Pro (57,1 %), mais Qwen 3.6 27B le rejoint exactement sur Terminal-Bench 2.0 avec 59,3 %^[s].

Exécution sur du matériel grand public

L’attrait pratique réside dans son accessibilité matérielle. Le modèle complet pèse 55,6 Go, mais la version quantifiée Q4_K_M d’Unsloth se réduit à 16,8 Go. Cela tient sur une seule carte graphique RTX 4090 ou 5090, avec de la place pour le contexte^[s].

Des tests indépendants confirment ces performances. Le développeur Simon Willison a exécuté le modèle quantifié en local et a rapporté une vitesse de génération d’environ 25 jetons par seconde, qualifiant le résultat de « remarquable pour un modèle local de 16,8 Go »^[s].

Nouveauté : la préservation de la réflexion

Qwen 3.6 27B introduit une fonctionnalité appelée Thinking Preservation (préservation de la réflexion). Les modèles de raisonnement standard génèrent une chaîne de pensée à chaque réponse, mais effacent cette réflexion avant le tour suivant. Cette nouvelle fonctionnalité permet de conserver les traces de raisonnement tout au long de l’historique de conversation, permettant au modèle de s’appuyer sur ses réflexions antérieures plutôt que de recalculer le contexte à zéro^[s].

Pour les développeurs exécutant des agents de codage sur des dizaines de tours itératifs, cela réduit la génération de jetons redondants et améliore la cohérence des décisions.

Les limites

L’équipe Qwen présente cette version comme privilégiant « la stabilité et l’utilité réelle », façonnée par les retours de la communauté plutôt que par l’optimisation des benchmarks^[s]. Cependant, la vérification indépendante reste limitée. Les benchmarks utilisent l’infrastructure interne d’agent de Qwen, et les reproductions tierces en dehors de cet environnement sont encore rares.

Les premiers tests communautaires sur Hacker News sont encourageants. Un développeur a comparé Qwen 3.6 27B à MiniMax-M2.7 et GLM-5 sur des tâches de calcul numérique, rapportant que Qwen « a surpassé MiniMax et remporté 2 des 3 implémentations face à GLM-5 »^[s].

Architecture : attention hybride dans un ratio 3:1

Qwen 3.6 27B utilise une pile d’attention hybride qui alterne entre attention linéaire et quadratique dans un ratio 3:1. Le réseau de 64 couches est organisé en 16 blocs répétés, chacun contenant trois sous-couches Gated DeltaNet suivies d’une sous-couche Gated Attention, chaque sous-couche étant associée à un réseau feed-forward^[s].

Gated DeltaNet est une variante d’attention linéaire avec une complexité en O(n), utilisant 48 têtes de valeur et 16 têtes de requête/clé de 128 dimensions chacune. Les couches d’attention quadratique Gated Attention utilisent 24 têtes de requête associées à seulement 4 têtes de clé/valeur, minimisant ainsi la surcharge du cache KV lors de l’inférence en contexte long^[s].

Performances des benchmarks : les chiffres

Sur SWE-bench Verified, ce modèle IA 27B obtient 77,2 %, contre 76,2 % pour le modèle MoE de 397 milliards et 80,9 % pour Claude 4.5 Opus^[s]. Terminal-Bench 2.0 affiche 59,3 %, égalant exactement Claude 4.5 Opus et surpassant les 52,5 % du MoE de 397 milliards. SkillsBench atteint 48,2 % contre 30,0 % pour le MoE, soit une amélioration relative de 61 %.

Sur QwenWebBench, un benchmark interne de génération de code frontal bilingue couvrant la conception web, les applications web, les jeux, le SVG, la visualisation de données, l’animation et la 3D, le modèle obtient un score de 1487. C’est une progression significative par rapport aux 1068 de Qwen3.5-27B et aux 1397 de Qwen3.6-35B-A3B^[s]. Sur NL2Repo, qui teste la génération de code au niveau des dépôts, il atteint 36,2 contre 27,3 pour la génération précédente.

Fenêtre de contexte et support multimodal

La fenêtre de contexte native est de 262 144 jetons, extensible à un peu plus d’un million grâce à la mise à l’échelle YaRN RoPE^[s]. Le modèle est entraîné avec une prédiction multi-jetons (MTP), permettant un décodage spéculatif lors de l’inférence pour améliorer le débit.

Malgré un marketing axé sur le codage, Qwen 3.6 27B est nativement multimodal, supportant le texte, les images et la vidéo via un encodeur visuel intégré. Les benchmarks visuels affichent 82,9 sur MMMU, 81,4 sur MMStar et 70,3 sur AndroidWorld pour le comportement des agents d’interface graphique^[s].

Préservation de la réflexion : traces de raisonnement persistantes

La fonctionnalité Thinking Preservation, activable via preserve_thinking: True dans les arguments du template de chat, conserve les traces de raisonnement en chaîne de pensée tout au long de l’historique de conversation, plutôt que de les effacer entre les tours^[s].

Les effets pratiques incluent une réduction de la génération de jetons redondants, une meilleure utilisation du cache KV et une prise de décision plus cohérente sur de longues sessions d’agents^[s]. L’équipe Qwen recommande de maintenir au moins 128 000 jetons de contexte pour préserver les capacités de réflexion du modèle.

Options de déploiement

Deux variantes de poids sont disponibles : Qwen3.6-27B en BF16 (55,6 Go) et Qwen3.6-27B-FP8 avec quantification FP8 fine à taille de bloc 128. Les deux supportent SGLang (0.5.10+), vLLM (0.19.0+), KTransformers et Hugging Face Transformers^[s].

La version GGUF Q4_K_M d’Unsloth compresse le modèle à 16,8 Go^[s]. Des tests indépendants menés par Simon Willison avec llama-server ont rapporté une vitesse de génération de 25,57 jetons par seconde, qualifiant le résultat de « remarquable pour un modèle local de 16,8 Go »^[s].

Statut de vérification

Les benchmarks utilisent l’infrastructure interne d’agent de Qwen avec des outils bash et d’édition de fichiers. L’équipe Qwen présente cette version comme privilégiant « la stabilité et l’utilité réelle » plutôt que l’optimisation des benchmarks^[s]. La vérification tierce indépendante en dehors de l’infrastructure de Qwen reste limitée au 23 avril 2026.

Les premiers tests communautaires sont prometteurs. Sur Hacker News, un développeur a comparé Qwen 3.6 27B à MiniMax-M2.7 et GLM-5 sur des implémentations de calcul numérique, rapportant que Qwen « a surpassé MiniMax et remporté 2 des 3 implémentations face à GLM-5 »^[s]. Un autre utilisateur a indiqué exécuter le modèle sur une RTX 5090, utilisant environ 29 Go de mémoire vive graphique^[s].

Qwen 3.6 27B : une efficacité dévastatrice, 14 fois supérieure à un géant de 397 milliards de paramètres

Ce que fait vraiment Qwen 3.6 27B

Les résultats des benchmarks

Exécution sur du matériel grand public

Nouveauté : la préservation de la réflexion

Les limites

Architecture : attention hybride dans un ratio 3:1

Performances des benchmarks : les chiffres

Fenêtre de contexte et support multimodal

Préservation de la réflexion : traces de raisonnement persistantes

Options de déploiement

Statut de vérification

Sources

Ce que fait vraiment Qwen 3.6 27B

Les résultats des benchmarks

Exécution sur du matériel grand public

Nouveauté : la préservation de la réflexion

Les limites

Architecture : attention hybride dans un ratio 3:1

Performances des benchmarks : les chiffres

Fenêtre de contexteLa quantité maximale de texte qu'un modèle d'IA peut traiter simultanément, incluant l'historique de la conversation et ses propres réponses précédentes ; le texte au-delà est oublié. et support multimodal

Préservation de la réflexion : traces de raisonnement persistantes

Options de déploiement

Statut de vérification

Sources

Articles connexes

Le Danemark s’était préparé à détruire ses propres pistes de Groenland pour stopper une invasion américaine

La crise de la rougeole aux États-Unis n’a pas commencé avec RFK Jr. Elle a commencé au Canada.

La Russie a tenté de rejoindre l’OTAN deux fois et a été rejetée à chaque fois

Comment fonctionnent les grands jurys : la machine à inculpation que les procureurs contrôlent et ne perdent presque jamais

Fenêtre de contexte et support multimodal