Qwen 3.6 27B: Brutal eficiencia 14x supera modelo 397B

Reading mode

El equipo Qwen de Alibaba lanzó Qwen 3.6 27B el 22 de abril de 2026, y los resultados están causando revuelo en la comunidad de inteligencia artificial. El editor destacó este modelo Qwen 3.6 27B para cobertura, y con razón: un modelo denso de 27 mil millones de parámetros acaba de superar a uno de 397 mil millones en pruebas de codificación.^[s]

No es un error. Qwen 3.6 27B, con un tamaño de 55.6 gigabytes en precisión completa, superó a Qwen3.5-397B-A17B de Alibaba, un coloso de 807 gigabytes, en múltiples pruebas de codificación con agentes autónomos.^[s] El modelo se distribuye bajo licencia Apache 2.0, con todos los pesos disponibles en Hugging Face y ModelScope.

Qué hace realmente Qwen 3.6 27B

La mayoría de los modelos grandes de inteligencia artificial en 2026 utilizan una arquitectura llamada Mezcla de Expertos (MoE, por sus siglas en inglés). Estos modelos tienen miles de millones de parámetros, pero solo activan una fracción de ellos para cada tarea. El modelo de 397 mil millones de parámetros que Qwen 3.6 27B acaba de superar solo activa 17 mil millones de parámetros por token, a pesar de su enorme tamaño total.^[s]

Qwen 3.6 27B es diferente. Es un modelo “denso”, lo que significa que todos sus 27 mil millones de parámetros están activos en cada paso de inferencia. Aunque esto parece menos eficiente, ofrece ventajas prácticas: implementación más sencilla, mejor comportamiento de compresión e integración más fácil con herramientas comunes de inteligencia artificial.

Los resultados en pruebas de referencia

En SWE-bench Verified, una prueba estándar para agentes autónomos de ingeniería de software, Qwen 3.6 27B obtiene un 77.2% frente al 76.2% del modelo MoE de 397 mil millones.^[s] La diferencia se amplía en otras pruebas: Terminal-Bench 2.0 muestra un 59.3% frente al 52.5%, y SkillsBench alcanza un 48.2% frente al 30.0%.

Al compararlo con Claude 4.5 Opus de Anthropic, la situación es más matizada. Claude sigue liderando en SWE-bench Verified (80.9%) y SWE-bench Pro (57.1%), pero Qwen 3.6 27B iguala su desempeño en Terminal-Bench 2.0 con un 59.3%.^[s]

Ejecución en hardware de consumo

La ventaja práctica radica en la accesibilidad del hardware. El modelo completo ocupa 55.6 gigabytes, pero la versión cuantizada Q4_K_M de Unsloth se reduce a 16.8 gigabytes. Esto permite ejecutar Qwen 3.6 27B en una sola GPU RTX 4090 o 5090, dejando espacio para el contexto.^[s]

Pruebas independientes respaldan esto. El desarrollador Simon Willison ejecutó el modelo cuantizado localmente y reportó una velocidad de generación de aproximadamente 25 tokens por segundo, calificándolo como “un resultado excepcional para un modelo local de 16.8 gigabytes”.^[s]

Novedad: Preservación del pensamiento

Qwen 3.6 27B introduce una función llamada Preservación del Pensamiento: los modelos de razonamiento estándar generan una cadena de pensamiento durante cada respuesta, pero descartan ese razonamiento antes del siguiente turno. Esta nueva función retiene opcionalmente los rastros de razonamiento a lo largo del historial de conversación, permitiendo que el modelo construya sobre pensamientos anteriores en lugar de volver a derivar el contexto desde cero.^[s]

Para desarrolladores que ejecutan agentes de codificación a través de docenas de turnos iterativos, esto reduce la generación redundante de tokens y mejora la consistencia en las decisiones.

Las advertencias

El equipo de Qwen describe este lanzamiento como una priorización de “estabilidad y utilidad en el mundo real”, moldeado por la retroalimentación de la comunidad en lugar de la optimización de pruebas de referencia.^[s] Sin embargo, la verificación independiente sigue siendo limitada. Las pruebas de referencia utilizan el andamiaje interno de agentes de Qwen, y las reproducciones de terceros fuera de ese entorno aún están en desarrollo.

Pruebas tempranas de la comunidad en Hacker News muestran resultados prometedores. Un desarrollador comparó Qwen 3.6 27B con MiniMax-M2.7 y GLM-5 en tareas de computación numérica, reportando que Qwen “superó a MiniMax y ganó 2 de cada 3 implementaciones frente a GLM-5”.^[s]

Arquitectura: Atención híbrida en proporción 3:1

Qwen 3.6 27B utiliza una pila de atención híbrida que alterna atención lineal y cuadrática en una proporción de 3:1. La red de 64 capas está organizada en 16 bloques repetidos, cada uno con tres subcapas Gated DeltaNet seguidas de una subcapa Gated Attention, y cada subcapa emparejada con una red de alimentación hacia adelante.^[s]

Gated DeltaNet es una variante de atención lineal con complejidad O(n), que utiliza 48 cabezas de valor y 16 cabezas de consulta/clave con 128 dimensiones cada una. Las capas de Gated Attention cuadrática usan 24 cabezas de consulta emparejadas con solo 4 cabezas de clave/valor, minimizando la sobrecarga de la caché KV durante la inferencia de contexto largo.^[s]

Rendimiento en pruebas de referencia: Los números

En SWE-bench Verified, Qwen 3.6 27B obtiene un 77.2% frente al 76.2% del modelo MoE de 397 mil millones y el 80.9% de Claude 4.5 Opus.^[s] Terminal-Bench 2.0 muestra un 59.3%, igualando exactamente a Claude 4.5 Opus y superando el 52.5% del MoE de 397 mil millones. SkillsBench registra un 48.2% frente al 30.0% del MoE, lo que representa una mejora relativa del 61%.

En QwenWebBench, una prueba interna de generación de código front-end bilingüe que abarca Diseño Web, Aplicaciones Web, Juegos, SVG, Visualización de Datos, Animación y 3D, el modelo obtiene 1487 puntos. Esto representa un salto significativo desde los 1068 de Qwen3.5-27B y los 1397 de Qwen3.6-35B-A3B.^[s] En NL2Repo, que evalúa la generación de código a nivel de repositorio, alcanza 36.2 frente a 27.3 de la generación anterior.

Ventana de contexto y soporte multimodal

El contexto nativo es de 262,144 tokens, extensible a poco más de un millón con escalado YaRN RoPE.^[s] El modelo se entrena con Predicción Multi-Token (MTP), lo que permite decodificación especulativa en tiempo de inferencia para mejorar el rendimiento.

A pesar del enfoque en codificación, Qwen 3.6 27B es nativamente multimodal, soportando entradas de texto, imagen y video a través de un codificador de visión integrado. Las pruebas de visión muestran 82.9 en MMMU, 81.4 en MMStar y 70.3 en AndroidWorld para comportamiento de agentes de interfaz gráfica.^[s]

Preservación del pensamiento: Rastros de razonamiento persistentes

La función de Preservación del Pensamiento, habilitada mediante preserve_thinking: True en los argumentos de la plantilla de chat, retiene los rastros de razonamiento de cadena de pensamiento a lo largo del historial de conversación en lugar de descartarlos entre turnos.^[s]

Los efectos prácticos incluyen reducción de generación redundante de tokens, mejor utilización de la caché KV y mayor consistencia en la toma de decisiones durante sesiones largas de agentes.^[s] El equipo de Qwen recomienda mantener al menos 128,000 tokens de contexto para preservar las capacidades de razonamiento del modelo Qwen 3.6 27B.

Opciones de implementación

Hay dos variantes de pesos disponibles: Qwen3.6-27B en BF16 (55.6 gigabytes) y Qwen3.6-27B-FP8 con cuantización FP8 de grano fino en tamaño de bloque 128. Ambas soportan SGLang (0.5.10+), vLLM (0.19.0+), KTransformers y Hugging Face Transformers.^[s]

La versión GGUF Q4_K_M de Unsloth comprime el modelo a 16.8 gigabytes.^[s] Pruebas independientes realizadas por Simon Willison con llama-server reportaron una velocidad de generación de 25.57 tokens por segundo, calificándolo como “un resultado excepcional para un modelo local de 16.8 gigabytes”.^[s]

Estado de verificación

Las pruebas de referencia utilizan el andamiaje interno de agentes de Qwen con herramientas bash y de edición de archivos. El equipo de Qwen describe este lanzamiento como una priorización de “estabilidad y utilidad en el mundo real” sobre la optimización de pruebas de referencia.^[s] La verificación independiente de terceros fuera del andamiaje de Qwen es limitada hasta el 23 de abril de 2026.

Pruebas tempranas de la comunidad muestran señales positivas. En Hacker News, un desarrollador comparó Qwen 3.6 27B con MiniMax-M2.7 y GLM-5 en implementaciones de computación numérica, reportando que Qwen “superó a MiniMax y ganó 2 de cada 3 implementaciones frente a GLM-5”.^[s] Otro usuario reportó ejecutar el modelo en una RTX 5090, utilizando aproximadamente 29 gigabytes de memoria VRAM.^[s]

Qwen 3.6 27B: Eficiencia devastadora 14 veces superior al gigante de 397B

Qué hace realmente Qwen 3.6 27B

Los resultados en pruebas de referencia

Ejecución en hardware de consumo

Novedad: Preservación del pensamiento

Las advertencias

Arquitectura: Atención híbrida en proporción 3:1

Rendimiento en pruebas de referencia: Los números

Ventana de contexto y soporte multimodal

Preservación del pensamiento: Rastros de razonamiento persistentes

Opciones de implementación

Estado de verificación

Fuentes

Qué hace realmente Qwen 3.6 27B

Los resultados en pruebas de referencia

Ejecución en hardware de consumo

Novedad: Preservación del pensamiento

Las advertencias

Arquitectura: Atención híbrida en proporción 3:1

Rendimiento en pruebas de referencia: Los números

Ventana de contextoLa cantidad máxima de texto que un modelo de IA puede procesar a la vez, incluyendo el historial de conversación y sus propias respuestas anteriores; el texto que supera este límite se olvida. y soporte multimodal

Preservación del pensamiento: Rastros de razonamiento persistentes

Opciones de implementación

Estado de verificación

Fuentes

Artículos relacionados

El doomerismo de la IA llega tarde: Skynet ya tiene un departamento de recursos humanos

Agencias de calificación crediticia: 3 conflictos brutales en 96 billones de deuda

Deuda cognitiva: la trampa de la dependencia de la IA que podría inutilizar tu codebase

IA sin censura: lo que el término realmente significa y lo que no

Ventana de contexto y soporte multimodal