IA en el dispositivo: salto 63x del Neural Engine Apple y rumores A20

Modo de lectura

El Neural Engine de Apple ha multiplicado por 63 su potencia de procesamiento en siete años. Esta evolución explica por qué las capacidades de IA en el dispositivo del iPhone han pasado del reconocimiento facial con Face ID a ejecutar modelos de lenguaje con miles de millones de parámetros sin conexión a internet.^[s] Se espera que la próxima generación de iPhones lleve esto aún más lejos, con cambios arquitectónicos que podrían hacer que más tareas de IA se realicen localmente en lugar de depender de la nube.

El cambio hacia la IA en el dispositivo del iPhone

Cuando Apple presentó el A11 Bionic en 2017, su Neural Engine ofrecía 0,6 billones de operaciones por segundo. Era suficiente para alimentar Face ID. Para 2024, el Neural Engine del M4 había alcanzado los 38 billones de operaciones por segundo, lo que permitió al chip ejecutar modelos de lenguaje grandes basados en transformers completamente en el dispositivo.^[s]

El chip A19 del iPhone 17, lanzado en septiembre de 2025, marcó un punto de inflexión específico. Benchmarks independientes de Argmax encontraron mejoras de velocidad de hasta 3,1 veces en cargas de trabajo de inferencia en la GPU en comparación con el iPhone 16 Pro.^[s] El modelo Foundation de Apple, un transformer de 3.000 millones de parámetros, ahora se ejecuta en el Neural Engine para la mayoría de las tareas.^[s]

Esto representa una decisión estratégica. Jon Peddie Research describió el enfoque de Apple: «La estrategia de Apple es habilitar la IA en el dispositivo para mejorar la privacidad y la inmediatez móvil».^[s] La compañía está invirtiendo en IA en el borde porque «los iPhone, iPad y relojes son el borde, donde actualmente reside el ingreso de Apple».^[s]

IA en el dispositivo del iPhone: por qué el ancho de banda de memoria importa más que la potencia de procesamiento

La suposición común es que los dispositivos en el borde carecen de potencia de cómputo. No es así. Según el investigador de Meta AI, Vikas Chandra, «los NPU móviles ahora ofrecen serios TOPS», con el Apple A19 Pro alcanzando aproximadamente 35 billones de operaciones por segundo.^[s]

La limitación más profunda es el ancho de banda de memoria. Los dispositivos móviles tienen entre 50 y 90 GB/s; las GPU de centros de datos tienen entre 2 y 3 TB/s. Chandra señala que «para la inferencia de modelos de lenguaje grandes, esta brecha es decisiva porque la decodificación está limitada por la memoria: se cargan todos los pesos del modelo para cada token generado».^[s]

La RAM disponible suele limitarse a menos de 4 GB incluso en dispositivos de gama alta debido a la necesidad de coexistir con otros servicios.^[s] Esto limita tanto el tamaño máximo del modelo como la idoneidad de enfoques como las arquitecturas de mezcla de expertos.

Apple ha abordado esta limitación mediante dos estrategias. En primer lugar, técnicas de compresión patentadas: la patente US11604975B2 del Neural Engine de Apple cubre modos de cómputo ternario que reducen los requisitos de ancho de banda de memoria en un 50%.^[s] En segundo lugar, una arquitectura de memoria unificada que elimina las penalizaciones por transferencia de datos entre la CPU, la GPU y el Neural Engine.

El M5 establece el modelo a seguir

El chip M5 de Apple, anunciado en octubre de 2025, introdujo aceleradores neuronales directamente en cada núcleo de la GPU. El anuncio oficial afirmaba «más de 4 veces el rendimiento máximo de cómputo de la GPU en comparación con el M4, y más de 6 veces el rendimiento máximo de cómputo de la GPU para IA en comparación con el M1».^[s]

El equipo de investigación de aprendizaje automático de Apple publicó benchmarks utilizando MLX, su framework de código abierto. Los resultados mostraron que el M5 lograba hasta 4 veces más velocidad para el tiempo hasta el primer token en la inferencia de modelos de lenguaje.^[s] El M5 puede generar el primer token de un modelo denso de 14.000 millones de parámetros en menos de 10 segundos, y de un modelo de mezcla de expertos de 30.000 millones en menos de 3 segundos.^[s]

La generación de tokens posteriores sigue estando limitada por el ancho de banda de memoria. El benchmark de Apple mostró una mejora del rendimiento del 19 al 27% en comparación con el M4, lo que coincide con el aumento del 28% en el ancho de banda de memoria unificada, de 120 GB/s a 153 GB/s.^[s]

El M5 optimiza cada bloque de cómputo para IA: «El Neural Engine de 16 núcleos, más rápido, ofrece un potente rendimiento de IA con una eficiencia energética increíble, complementando los aceleradores neuronales en la CPU y la GPU».^[s] Los desarrolladores pueden programar estos aceleradores neuronales directamente utilizando las API Tensor en Metal 4.^[s]

Lo que indican los rumores sobre el iPhone 18

Se espera que el chip A20 Pro del iPhone 18 Pro pase de los 3 nm al primer nodo de 2 nm de TSMC. MacRumors informa que «los chips A20 podrían ser hasta un 15% más rápidos y un 30% más eficientes que los chips A19».^[s]

El cambio más significativo podría estar en el empaquetado. Se espera ampliamente que el A20 utilice tecnología de módulo multichip a nivel de oblea que «colocaría la RAM en la misma oblea que la CPU, la GPU y el Neural Engine».^[s] Este empaquetado «se rumorea que reduce la distancia que recorren los datos entre el Neural Engine y la memoria», lo que resulta en «menor consumo de energía por operación y menor latencia por inferencia».^[s]

Los 12 GB de RAM LPDDR5 que se rumorean para los modelos Pro permitirían «pesos de modelo persistentes más grandes», lo que potencialmente significaría «respuestas de IA que se sienten inmediatas en lugar de retrasadas».^[s]

Este cambio tiene una dimensión de costo. TSMC aparentemente le ha dicho a Apple que «el precio de los chips de 2 nm será al menos un 50% más alto que el de los procesadores de 3 nanómetros».^[s] Esto podría explicar por qué las capacidades avanzadas suelen aparecer primero en los modelos Pro.

Los límites de la IA en el dispositivo

Las capacidades de IA en el dispositivo del iPhone funcionan bien para casos de uso específicos: tareas sensibles a la latencia donde los viajes de ida y vuelta a la nube de 200 a 500 ms arruinan la experiencia, operaciones críticas para la privacidad donde los datos que nunca salen del dispositivo no pueden ser vulnerados, y aplicaciones de alto volumen donde los costos de inferencia en la nube se acumulan rápidamente.

Pero hay límites. Chandra señala: «si su caso de uso requiere razonamiento de vanguardia, conocimiento amplio del mundo o conversaciones largas de múltiples turnos, la nube sigue siendo la mejor opción».^[s]

Esto crea un modelo híbrido. El equipo de Argmax observó que «el Neural Engine seguirá siendo la opción clara para la inferencia en el dispositivo a escala» por su eficiencia energética y aceleración de compresión, mientras que la aceleración basada en GPU permite un mayor control para los desarrolladores.^[s]

El patrón interesante: Apple mejora la GPU y el Neural Engine en años alternos. La generación A19 enfatizó los aceleradores neuronales en la GPU. Según este ritmo, el Neural Engine del A20 podría ser el próximo gran salto.^[s]

Lo que esto cambia

El análisis de la hoja de ruta de PatSnap enmarca la dirección como la capacidad de que el iPhone ejecute modelos de la clase GPT-3.5 completamente en el dispositivo.^[s] Si se logra, esto representaría un cambio de capacidad en el rendimiento de la IA en el dispositivo del iPhone: el teléfono en su bolsillo ejecutando cargas de trabajo de inferencia que típicamente se servían desde sistemas en la nube o centros de datos hace tres años.

A diferencia de las actualizaciones de software que pueden diseñarse para degradar el rendimiento del dispositivo con el tiempo, estas inversiones en hardware representan aumentos permanentes de capacidad. Las mejoras del Neural Engine de cada generación se acumulan.

La arquitectura Apple10 GPU del A19 duplica el rendimiento de FP16 en comparación con diseños anteriores e introduce aceleradores neuronales por núcleo que realizan operaciones de tensor y matriz directamente en el pipeline de la GPU.^[s] Esto permite que los núcleos de gráficos y aprendizaje automático compartan recursos de ejecución mientras los desarrolladores trabajan con un modelo de programación unificado.

Si algo de esto importa dependerá de lo que Apple lance en software. Se rumorea que el A20 construirá capacidad de hardware; el conjunto de funciones de IA de iOS 27 determinará qué la llena.^[s] El chip habilita la capacidad. El sistema operativo decide si los usuarios la ven.

La arquitectura de IA en el dispositivo del iPhone

El Neural Engine de Apple pasó de 0,6 TOPS en el A11 Bionic (2017) a 38 TOPS en el M4 (2024). El salto más dramático ocurrió con el A12 Bionic en 2018: al pasar al proceso de 7 nm de TSMC y expandirse de 2 a 8 núcleos, se lograron 5 TOPS, un aumento de rendimiento de 8,3 veces en una sola generación.^[s]

El A14 Bionic (2020) introdujo la arquitectura de Neural Engine de 16 núcleos que se convirtió en la plantilla para todos los chips M-series posteriores. Ejecutándose en el proceso de 5 nm de TSMC con 11.800 millones de transistores, ofrecía 11 TOPS. El A17 Pro (2023) llevó el mismo diseño de 16 núcleos a 35 TOPS en el proceso N3B de 3 nm de TSMC.^[s]

El chip A19 del iPhone 17 representa un punto de inflexión arquitectónico específico. Benchmarks independientes de Argmax midieron hasta 3,1 veces más velocidad en la GPU frente al iPhone 16 Pro, frente a la afirmación comercial de Apple de hasta 4 veces.^[s] La discrepancia probablemente refleja la diferencia entre el rendimiento teórico máximo y las cargas de trabajo de inferencia del mundo real.

Jon Peddie Research documentó los cambios subyacentes: «Apple10 duplica el rendimiento de FP16 en comparación con diseños anteriores e introduce ‘aceleradores neuronales’ por núcleo que realizan operaciones de tensor y matriz directamente en el pipeline de la GPU».^[s]

El ancho de banda de memoria como limitación fundamental

Los investigadores de Meta AI, Vikas Chandra y Raghuraman Krishnamoorthi, cuantificaron la limitación fundamental en su estudio de 2026 sobre modelos de lenguaje grandes en el dispositivo: «Los dispositivos móviles tienen entre 50 y 90 GB/s de ancho de banda de memoria; las GPU de centros de datos tienen entre 2 y 3 TB/s. Esa es una brecha de 30 a 50 veces».^[s]

Para la inferencia de modelos de lenguaje grandes, esta brecha es decisiva porque la decodificación está limitada por la memoria: los pesos del modelo deben cargarse para cada token generado, dejando las unidades de cómputo inactivas esperando memoria. Chandra señala que «la RAM disponible suele limitarse a menos de 4 GB incluso en dispositivos de gama alta debido a la necesidad de coexistir con otros servicios».^[s]

La respuesta de Apple ha sido arquitectónica. El sistema de memoria unificada elimina las penalizaciones por transferencia de datos entre grupos de memoria discretos. La patente US11604975B2 del Neural Engine de Apple cubre modos de cómputo ternario (−1, 0, +1) para modelos de redes neuronales comprimidos, reduciendo los requisitos de ancho de banda de memoria en un 50%.^[s]

El M5 aumentó el ancho de banda de memoria unificada a 153 GB/s desde los 120 GB/s del M4. Los benchmarks de MLX de Apple mostraron que esto se traducía directamente: «La generación de tokens posteriores está limitada por el ancho de banda de memoria, en lugar de por la capacidad de cómputo. En las arquitecturas que probamos, el M5 ofrece un aumento de rendimiento del 19 al 27% en comparación con el M4, gracias a su mayor ancho de banda de memoria».^[s]

Integración de aceleradores neuronales en el M5

El M5, anunciado en octubre de 2025, introdujo aceleradores neuronales directamente en los núcleos de la GPU. El comunicado de prensa de Apple decía: «La GPU de 10 núcleos cuenta con un acelerador neuronal dedicado en cada núcleo, ofreciendo más de 4 veces el rendimiento máximo de cómputo de la GPU en comparación con el M4, y más de 6 veces el rendimiento máximo de cómputo de la GPU para IA en comparación con el M1».^[s]

El equipo de investigación de aprendizaje automático de Apple publicó benchmarks de MLX. El tiempo hasta el primer token, que está limitado por el cómputo, mostró hasta 4 veces más velocidad en comparación con el M4. El M5 logró un TTFT inferior a 10 segundos para una arquitectura densa de 14B y menos de 3 segundos para un MoE de 30B.^[s]

La arquitectura optimiza cada bloque de cómputo para IA. Apple declaró: «El Neural Engine de 16 núcleos, más rápido, ofrece un potente rendimiento de IA con una eficiencia energética increíble, complementando los aceleradores neuronales en la CPU y la GPU para hacer que el M5 esté totalmente optimizado para cargas de trabajo de IA».^[s]

El modelo de programación es clave para el despliegue de IA en el dispositivo del iPhone. Metal 4 introduce API Tensor que permiten a los desarrolladores programar los aceleradores neuronales directamente.^[s] Esto contrasta con el Neural Engine, que Argmax describió como algo que «parece magia negra para la mayoría de los desarrolladores» cuando se busca el máximo rendimiento.^[s]

Especulaciones sobre la arquitectura del A20

Se espera que el A20 Pro del iPhone 18 Pro pase de los 3 nm al primer nodo de 2 nm de TSMC. MacRumors informa proyecciones de «hasta un 15% más rápido y un 30% más eficiente que los chips A19».^[s]

El cambio arquitectónico más significativo podría ser el empaquetado de módulo multichip a nivel de oblea. Esto «colocaría la RAM en la misma oblea que la CPU, la GPU y el Neural Engine, en lugar de como un chip separado conectado por rutas de señal más largas».^[s]

El empaquetado WMCM «se rumorea que reduce la distancia que recorren los datos entre el Neural Engine y la memoria», lo que resulta en «menor consumo de energía por operación y menor latencia por inferencia».^[s] Dado que la decodificación está limitada por la memoria, una latencia de memoria reducida podría mejorar significativamente las tasas de generación de tokens más allá de lo que sugerirían solo las mejoras en TOPS.

Los 12 GB de RAM LPDDR5 que se rumorean para los modelos Pro abordan la limitación de RAM disponible que Chandra identificó. Los pesos de modelo persistentes más grandes podrían permanecer residentes en lugar de ser expulsados y recargados entre tareas.^[s]

TSMC aparentemente le ha dicho a Apple que «el precio de los chips de 2 nm será al menos un 50% más alto que el de los procesadores de 3 nanómetros debido al costo de fabricación y equipo».^[s] Esta estructura de costos podría restringir los 2 nm solo a los modelos Pro.

Compensaciones entre IA en el dispositivo e IA en la nube

El marco de Chandra identifica dónde tiene sentido la IA en el dispositivo del iPhone: tareas críticas por latencia donde «los viajes de ida y vuelta a la nube añaden entre 200 y 500 ms antes de ver el primer token», operaciones sensibles a la privacidad y aplicaciones de alto volumen donde los costos de inferencia en la nube se acumulan.^[s]

Los límites son claros: «si su caso de uso requiere razonamiento de vanguardia, conocimiento amplio del mundo o conversaciones largas de múltiples turnos, la nube sigue siendo la mejor opción».^[s]

El modelo Foundation de 3.000 millones de parámetros de Apple se ejecuta en el Neural Engine «por varias buenas razones: máxima eficiencia energética para maximizar la duración de la batería, técnicas de compresión avanzadas aceleradas de forma nativa y mayor rendimiento máximo».^[s] El equipo de Argmax observó un patrón alternante en el que Apple mejora la GPU y el Neural Engine en años alternos, lo que hace que el Neural Engine del A20 sea el próximo salto esperado.^[s]

Implicaciones estratégicas

El análisis de la hoja de ruta de PatSnap establece como objetivo estratégico que el iPhone pueda ejecutar modelos de la clase GPT-3.5 completamente en el dispositivo.^[s] Esto representaría una convergencia de capacidades entre lo móvil y las cargas de trabajo que típicamente se servían desde sistemas en la nube o centros de datos alrededor de 2023.

Jon Peddie Research enmarca la lógica empresarial: «Apple está invirtiendo en IA en el borde. Y los iPhone, iPad y relojes son el borde, donde actualmente reside el ingreso de Apple».^[s]

La arquitectura Apple10 GPU permite que «los núcleos de gráficos y aprendizaje automático compartan recursos de ejecución y ancho de banda de memoria mientras los desarrolladores trabajan con un modelo de programación unificado».^[s] Esta integración reduce las penalizaciones por cambio de contexto al programar tareas entre la CPU, el Neural Engine y la GPU.

El hardware construye capacidad; el software determina su uso. Los rumores sobre el chip A20 describen mejoras arquitectónicas; las funciones de Apple Intelligence que incluya iOS 27 determinarán si los usuarios experimentan esas mejoras.^[s] Investigadores como Yann LeCun han propuesto arquitecturas alternativas de IA que cuestionan si los enfoques basados en transformers seguirán siendo dominantes, pero la hoja de ruta actual de hardware de Apple está optimizada para las cargas de trabajo de inferencia de transformers que definen el momento actual.

El iPhone con IA en el dispositivo: un salto de 63x en el Neural Engine y rumores sobre el chip A20

El cambio hacia la IA en el dispositivo del iPhone

IA en el dispositivo del iPhone: por qué el ancho de banda de memoria importa más que la potencia de procesamiento

El M5 establece el modelo a seguir

Lo que indican los rumores sobre el iPhone 18

Los límites de la IA en el dispositivo

Lo que esto cambia

La arquitectura de IA en el dispositivo del iPhone

El ancho de banda de memoria como limitación fundamental

Integración de aceleradores neuronales en el M5

Especulaciones sobre la arquitectura del A20

Compensaciones entre IA en el dispositivo e IA en la nube

Implicaciones estratégicas

Fuentes

El cambio hacia la IA en el dispositivo del iPhone

IA en el dispositivo del iPhone: por qué el ancho de banda de memoria importa más que la potencia de procesamiento

El M5 establece el modelo a seguir

Lo que indican los rumores sobre el iPhone 18

Los límites de la IA en el dispositivo

Lo que esto cambia

La arquitectura de IA en el dispositivo del iPhone

El ancho de banda de memoria como limitación fundamental

Integración de aceleradores neuronales en el M5

Especulaciones sobre la arquitectura del A20

Compensaciones entre IA en el dispositivo e IA en la nube

Implicaciones estratégicas

Fuentes

Artículos relacionados

Síndrome de Basura Espacial: 5 Números Devastadores que Atrapan la Órbita

La arquitectura del agujero de la memoria: Cómo las plataformas CMS modernas hacen que el borrado del historial digital sea trivial

Cómo funciona realmente la fijación de precios farmacéuticos en Estados Unidos

La brecha de conformidad: por qué los agentes de IA ignoran sus instrucciones