IA embarquée Apple : bond 63x du Neural Engine et rumeurs A20

Mode de lecture

Le Neural Engine d’Apple a été multiplié par 63 en puissance de traitement sur sept ans. Cette trajectoire explique pourquoi les capacités d’IA embarquée sur iPhone ont évolué de l’authentification Face ID à l’exécution de modèles de langage à plusieurs milliards de paramètres sans connexion Internet.^[s] La prochaine génération d’iPhones devrait aller plus loin, avec des changements architecturaux susceptibles de rendre davantage de tâches d’IA locales plutôt que dépendantes du cloud.

Le virage de l’IA embarquée sur iPhone

Lorsqu’Apple a présenté le A11 Bionic en 2017, son Neural Engine délivrait 0,6 trillion d’opérations par seconde. C’était suffisant pour alimenter Face ID. En 2024, le Neural Engine du M4 avait atteint 38 trillions d’opérations par seconde, permettant à la puce d’exécuter des grands modèles de langage basés sur les transformeurs entièrement en local.^[s]

La puce A19 de l’iPhone 17, sortie en septembre 2025, a marqué un point d’inflexion précis. Des benchmarks indépendants d’Argmax ont relevé des améliorations de vitesse allant jusqu’à 3,1 fois sur les charges de travail d’inférence GPU par rapport à l’iPhone 16 Pro.^[s] Le Foundation Model d’Apple, un transformeur à 3 milliards de paramètres, s’exécute désormais sur le Neural Engine pour la plupart des tâches.^[s]

Cela représente un choix stratégique. Jon Peddie Research a caractérisé l’approche d’Apple : « La stratégie d’Apple consiste à activer l’IA sur l’appareil, en renforçant la confidentialité et l’immédiateté mobile. »^[s] L’entreprise mise sur l’IA en périphérie parce que « les iPhone, iPad et montres sont la périphérie, là où se trouvent actuellement les revenus d’Apple. »^[s]

IA embarquée sur iPhone : pourquoi la bande passante mémoire compte plus que la puissance de calcul

L’hypothèse courante est que les appareils périphériques manquent de puissance de calcul. Ce n’est pas le cas. Selon le chercheur Meta AI Vikas Chandra, « les NPU mobiles délivrent désormais de sérieux TOPS », le Apple A19 Pro atteignant environ 35 trillions d’opérations par seconde.^[s]

La contrainte plus profonde est la bande passante mémoire. Les appareils mobiles disposent de 50 à 90 Go/s ; les GPU de centres de données ont 2 à 3 To/s. Chandra note que « pour l’inférence LLM, cet écart est décisif car le décodage est limité par la mémoire : vous chargez l’intégralité des poids du modèle pour chaque token généré ».^[s]

La RAM disponible est généralement limitée à moins de 4 Go sur les appareils haut de gamme, en raison de la nécessité de coexister avec d’autres services.^[s] Cela limite à la fois la taille maximale des modèles et l’adéquation d’approches telles que les architectures de mélange d’experts.

Apple a répondu à cette contrainte par deux approches. Premièrement, des techniques de compression brevetées : le brevet du Neural Engine d’Apple US11604975B2 couvre des modes de calcul ternaires qui réduisent de 50 % les exigences en bande passante mémoire.^[s] Deuxièmement, une architecture de mémoire unifiée qui élimine les pénalités de transfert de données entre le CPU, le GPU et le Neural Engine.

Le M5 fixe le modèle

La puce M5 d’Apple, annoncée en octobre 2025, a introduit des Neural Accelerators directement dans chaque cœur GPU. L’annonce officielle affirmait « plus de 4 fois la puissance de calcul GPU maximale par rapport au M4, et plus de 6 fois la puissance de calcul GPU maximale pour les performances d’IA par rapport au M1 ».^[s]

L’équipe de recherche en apprentissage automatique d’Apple a publié des benchmarks utilisant MLX, leur cadre open source. Les résultats ont montré que le M5 atteint une accélération jusqu’à 4 fois pour le temps du premier token dans l’inférence de modèles de langage.^[s] Le M5 peut générer le premier token à partir d’un modèle dense à 14 milliards de paramètres en moins de 10 secondes, et à partir d’un modèle de mélange d’experts à 30 milliards en moins de 3 secondes.^[s]

La génération de tokens suivants reste limitée par la bande passante mémoire. Le benchmark d’Apple a montré une amélioration des performances de 19 à 27 % par rapport au M4, correspondant à l’augmentation de 28 % de la bande passante mémoire unifiée, passant de 120 Go/s à 153 Go/s.^[s]

Le M5 optimise chaque bloc de calcul pour l’IA : « Le Neural Engine 16 cœurs plus rapide offre de puissantes performances d’IA avec une efficacité énergétique remarquable, complétant les Neural Accelerators dans le CPU et le GPU. »^[s] Les développeurs peuvent programmer ces Neural Accelerators directement à l’aide des API Tensor dans Metal 4.^[s]

Ce que laissent entrevoir les rumeurs sur l’iPhone 18

La puce A20 Pro attendue dans l’iPhone 18 Pro devrait passer du nœud 3 nm au nœud 2 nm de première génération de TSMC. MacRumors rapporte que « les puces A20 pourraient être jusqu’à 15 % plus rapides et 30 % plus efficaces que les puces A19 ».^[s]

Le changement le plus important pourrait être le packaging. Il est largement attendu que l’A20 utilise une technologie de module multi-puce au niveau de la tranche qui placerait « la RAM sur la même tranche que le CPU, le GPU et le Neural Engine ».^[s] Ce packaging « est censé réduire la distance parcourue par les données entre le Neural Engine et la mémoire », entraînant « une consommation d’énergie par opération plus faible et une latence par inférence réduite ».^[s]

Les 12 Go de RAM LPDDR5 évoqués pour les modèles Pro permettraient des « poids de modèle persistants plus importants », signifiant potentiellement des « réponses d’IA qui semblent immédiates plutôt que différées ».^[s]

Cette transition a une dimension économique. TSMC aurait indiqué à Apple que « le prix des puces 2 nm sera au moins 50 % plus élevé que celui des processeurs 3 nanomètres ».^[s] Cela pourrait expliquer pourquoi les capacités avancées tendent à apparaître en premier dans les modèles Pro.

Les limites de l’embarqué

Les capacités d’IA embarquée sur iPhone fonctionnent bien pour des cas d’usage spécifiques : les tâches sensibles à la latence où des allers-retours cloud de 200 à 500 ms brisent l’expérience, les opérations critiques pour la confidentialité où les données qui ne quittent jamais l’appareil ne peuvent pas être compromises, et les applications à fort volume où les coûts d’inférence cloud s’accumulent rapidement.

Mais il existe des limites. Chandra note : « si votre cas d’usage nécessite un raisonnement de pointe, une connaissance étendue du monde ou de longues conversations en plusieurs tours, le cloud reste le meilleur choix ».^[s]

Cela crée un modèle hybride. L’équipe Argmax a observé que « le Neural Engine restera le choix évident pour l’inférence embarquée à grande échelle » pour l’efficacité énergétique et l’accélération de compression, tandis que l’accélération GPU offre plus de contrôle aux développeurs.^[s]

Le schéma notable : Apple améliore le GPU et le Neural Engine en alternance. La génération A19 a mis l’accent sur les accélérateurs neuraux GPU. Sur la base de cette cadence, le Neural Engine de l’A20 pourrait être le prochain bond significatif.^[s]

Ce que cela change

L’analyse de la feuille de route de PatSnap cadre la direction comme permettant à l’iPhone d’exécuter des modèles de classe GPT-3.5 entièrement en local.^[s] Si cet objectif est atteint, cela représenterait un changement de capacité dans les performances d’IA embarquée sur iPhone : le téléphone dans votre poche exécutant des charges de travail d’inférence qui étaient généralement servies depuis des systèmes cloud ou des centres de données il y a trois ans.

Contrairement aux mises à jour logicielles qui peuvent être conçues pour dégrader les performances des appareils au fil du temps, ces investissements matériels représentent des augmentations permanentes de capacité. Les améliorations du Neural Engine de chaque génération s’accumulent.

L’architecture GPU Apple10 dans l’A19 double le débit FP16 par rapport aux conceptions précédentes et introduit des accélérateurs neuraux par cœur qui effectuent des opérations tensorielles et matricielles directement sur le pipeline GPU.^[s] Cela permet aux noyaux graphiques et d’apprentissage automatique de partager les ressources d’exécution tandis que les développeurs travaillent avec un modèle de programmation unifié.

Que tout cela compte ou non dépend de ce qu’Apple embarque dans les logiciels. L’A20 est pressenti pour accroître la capacité matérielle ; l’ensemble des fonctionnalités d’IA d’iOS 27 déterminera ce qui la remplira.^[s] La puce active la capacité. Le système d’exploitation décide si les utilisateurs la voient.

L’architecture d’IA embarquée sur iPhone

Le Neural Engine d’Apple est passé de 0,6 TOPS dans le A11 Bionic (2017) à 38 TOPS dans le M4 (2024). Le bond individuel le plus spectaculaire est venu avec le A12 Bionic en 2018 : le passage au procédé 7 nm de TSMC et l’expansion de 2 à 8 cœurs ont produit 5 TOPS, soit une augmentation des performances de 8,3 fois en une génération.^[s]

Le A14 Bionic (2020) a introduit l’architecture Neural Engine à 16 cœurs qui est devenue le modèle pour toutes les puces M-series ultérieures. Fonctionnant sur le procédé 5 nm de TSMC avec 11,8 milliards de transistors, il délivrait 11 TOPS. Le A17 Pro (2023) a poussé le même design à 16 cœurs à 35 TOPS sur le procédé N3B 3 nm de TSMC.^[s]

La puce A19 de l’iPhone 17 représente une inflexion architecturale précise. Des benchmarks indépendants d’Argmax ont mesuré une accélération GPU allant jusqu’à 3,1 fois par rapport à l’iPhone 16 Pro, contre la revendication commerciale d’Apple de jusqu’à 4 fois.^[s] L’écart reflète probablement la différence entre le débit théorique maximal et les charges de travail d’inférence réelles.

Jon Peddie Research a documenté les changements sous-jacents : « Apple10 double le débit FP16 par rapport aux conceptions précédentes et introduit des « accélérateurs neuraux » par cœur qui effectuent des opérations tensorielles et matricielles directement sur le pipeline GPU. »^[s]

La bande passante mémoire comme contrainte déterminante

Les chercheurs Meta AI Vikas Chandra et Raghuraman Krishnamoorthi ont quantifié la limitation fondamentale dans leur enquête 2026 sur les LLM embarqués : « Les appareils mobiles ont une bande passante mémoire de 50 à 90 Go/s ; les GPU de centres de données ont 2 à 3 To/s. C’est un écart de 30 à 50 fois. »^[s]

Pour l’inférence LLM, cet écart est décisif car le décodage est limité par la mémoire : les poids du modèle doivent être chargés pour chaque token généré, laissant les unités de calcul inactives en attente de la mémoire. Chandra note que « la RAM disponible est généralement limitée à moins de 4 Go, même sur les appareils haut de gamme, en raison de la nécessité de coexister avec d’autres services ».^[s]

La réponse d’Apple a été architecturale. Le système de mémoire unifiée élimine les pénalités de transfert de données entre les pools de mémoire distincts. Le brevet du Neural Engine d’Apple US11604975B2 couvre des modes de calcul ternaires (−1, 0, +1) pour les modèles de réseaux de neurones compressés, réduisant de 50 % les exigences en bande passante mémoire.^[s]

Le M5 a augmenté la bande passante mémoire unifiée à 153 Go/s contre 120 Go/s pour le M4. Les benchmarks MLX d’Apple ont confirmé cette relation directe : « La génération de tokens suivants est limitée par la bande passante mémoire, plutôt que par la capacité de calcul. Sur les architectures testées, le M5 offre une amélioration des performances de 19 à 27 % par rapport au M4, grâce à sa plus grande bande passante mémoire. »^[s]

Intégration des Neural Accelerators dans le M5

Le M5, annoncé en octobre 2025, a introduit des Neural Accelerators directement dans les cœurs GPU. Communiqué de presse d’Apple : « Le GPU à 10 cœurs dispose d’un Neural Accelerator dédié dans chaque cœur, offrant plus de 4 fois la puissance de calcul GPU maximale par rapport au M4, et plus de 6 fois la puissance de calcul GPU maximale pour les performances d’IA par rapport au M1. »^[s]

L’équipe de recherche en apprentissage automatique d’Apple a publié des benchmarks MLX. Le temps du premier token, qui est limité par le calcul, a montré une accélération jusqu’à 4 fois par rapport au M4. Le M5 a atteint un TTFT inférieur à 10 secondes pour une architecture dense à 14 milliards de paramètres et inférieur à 3 secondes pour un modèle de mélange d’experts à 30 milliards.^[s]

L’architecture optimise chaque bloc de calcul pour l’IA. Apple a déclaré : « Le Neural Engine 16 cœurs plus rapide offre de puissantes performances d’IA avec une efficacité énergétique remarquable, complétant les Neural Accelerators dans le CPU et le GPU pour rendre le M5 entièrement optimisé pour les charges de travail d’IA. »^[s]

Le modèle de programmation est important pour le déploiement d’IA embarquée sur iPhone. Metal 4 introduit des API Tensor qui permettent aux développeurs de programmer les Neural Accelerators directement.^[s] Cela contraste avec le Neural Engine, qu’Argmax a caractérisé comme ressemblant à « de la magie noire pour la plupart des développeurs » pour atteindre les performances maximales.^[s]

Spéculations sur l’architecture de l’A20

L’A20 Pro attendu dans l’iPhone 18 Pro devrait passer du nœud 3 nm au nœud 2 nm de première génération de TSMC. MacRumors rapporte des projections de « jusqu’à 15 % plus rapide et 30 % plus efficace que les puces A19 ».^[s]

Le changement architectural le plus important pourrait être le packaging en module multi-puce au niveau de la tranche. Cela placerait « la RAM sur la même tranche que le CPU, le GPU et le Neural Engine, plutôt que sur une puce séparée connectée par des chemins de signal plus longs ».^[s]

Le packaging WMCM « est censé réduire la distance parcourue par les données entre le Neural Engine et la mémoire », entraînant « une consommation d’énergie par opération plus faible et une latence par inférence réduite ».^[s] Étant donné que le décodage est limité par la mémoire, une latence mémoire réduite pourrait améliorer significativement les taux de génération de tokens au-delà de ce que les améliorations de TOPS seules suggéreraient.

Les 12 Go de RAM LPDDR5 évoqués pour les modèles Pro répondent à la contrainte de RAM disponible identifiée par Chandra. Des poids de modèle persistants plus importants pourraient rester en mémoire plutôt que d’être évincés et rechargés entre les tâches.^[s]

TSMC aurait indiqué à Apple que « le prix des puces 2 nm sera au moins 50 % plus élevé que celui des processeurs 3 nanomètres en raison des coûts de fabrication et d’équipement ».^[s] Cette structure de coûts pourrait restreindre le 2 nm aux seuls modèles Pro.

Compromis entre l’embarqué et le cloud

Le cadre de Chandra identifie où l’IA embarquée sur iPhone a du sens : les tâches critiques pour la latence où « les allers-retours cloud ajoutent 200 à 500 ms avant de voir le premier token », les opérations sensibles à la confidentialité, et les applications à fort volume où les coûts d’inférence cloud s’accumulent.^[s]

Les limites sont explicites : « si votre cas d’usage nécessite un raisonnement de pointe, une connaissance étendue du monde ou de longues conversations en plusieurs tours, le cloud reste le meilleur choix ».^[s]

Le Foundation Model d’Apple à 3 milliards de paramètres s’exécute sur le Neural Engine « pour plusieurs bonnes raisons : une efficacité énergétique maximale pour prolonger la durée de vie de la batterie, des techniques de compression avancées accélérées nativement et un débit maximal plus élevé ».^[s] L’équipe Argmax a observé un schéma alterné où Apple améliore le GPU et le Neural Engine en alternance, faisant du Neural Engine de l’A20 le prochain bond attendu.^[s]

Implications stratégiques

L’analyse de la feuille de route de PatSnap énonce l’objectif stratégique comme permettant à l’iPhone d’exécuter des modèles de classe GPT-3.5 entièrement en local.^[s] Cela représenterait une convergence de capacités entre les appareils mobiles et les charges de travail qui étaient généralement servies depuis des systèmes cloud ou des centres de données vers 2023.

Jon Peddie Research cadre la logique commerciale : « Apple mise sur l’IA en périphérie. Et les iPhone, iPad et montres sont la périphérie, là où se trouvent actuellement les revenus d’Apple. »^[s]

L’architecture GPU Apple10 permet « aux noyaux graphiques et d’apprentissage automatique de partager les ressources d’exécution et la bande passante mémoire tandis que les développeurs travaillent avec un modèle de programmation unifié ».^[s] Cette intégration réduit les pénalités de changement de contexte lors de la planification des tâches sur le CPU, le Neural Engine et le GPU.

Le matériel construit la capacité ; le logiciel en détermine l’utilisation. Les rumeurs sur la puce A20 décrivent des améliorations architecturales ; ce que les fonctionnalités Apple Intelligence d’iOS 27 embarqueront déterminera si les utilisateurs bénéficient de ces améliorations.^[s] Des chercheurs comme Yann LeCun ont proposé des architectures d’IA alternatives qui remettent en question la prédominance des approches basées sur les transformeurs, mais la feuille de route matérielle actuelle d’Apple est optimisée pour les charges de travail d’inférence de transformeurs qui définissent le moment présent.

IA embarquée sur iPhone : bond 63x du Neural Engine et rumeurs A20

Le virage de l’IA embarquée sur iPhone

IA embarquée sur iPhone : pourquoi la bande passante mémoire compte plus que la puissance de calcul

Le M5 fixe le modèle

Ce que laissent entrevoir les rumeurs sur l’iPhone 18

Les limites de l’embarqué

Ce que cela change

L’architecture d’IA embarquée sur iPhone

La bande passante mémoire comme contrainte déterminante

Intégration des Neural Accelerators dans le M5

Spéculations sur l’architecture de l’A20

Compromis entre l’embarqué et le cloud

Implications stratégiques

Sources

Le virage de l’IA embarquée sur iPhone

IA embarquée sur iPhone : pourquoi la bande passante mémoire compte plus que la puissance de calcul

Le M5 fixe le modèle

Ce que laissent entrevoir les rumeurs sur l’iPhone 18

Les limites de l’embarqué

Ce que cela change

L’architecture d’IA embarquée sur iPhone

La bande passante mémoire comme contrainte déterminante

Intégration des Neural Accelerators dans le M5

Spéculations sur l’architecture de l’A20

Compromis entre l’embarqué et le cloud

Implications stratégiques

Sources

Articles connexes

Théorie de l’esprit : comment votre cerveau modélise les pensées des autres

L’effet d’îlot de chaleur urbain : pourquoi les villes sont structurellement plus chaudes

Neurosciences Deuil : 60% Résilients Malgré le Mythe Mortel des 5 Étapes

Le discours sur l’IA est bancal. Le bon cadrage : « gifted toddler ».