Zum Inhalt springen
Erklärt Künstliche Intelligenz 12 Min. Lesezeit

On-Device-KI im iPhone: 63-facher Neural-Engine-Sprung und A20-Gerüchte

Apples Neural Engine wuchs in sieben Jahren um das 63-Fache, von der Face-ID-Authentifizierung bis zu On-Device-Modellen mit 3 Milliarden Parametern. Gerüchte zum A20-Chip deuten auf Wafer-Level-Speicherintegration hin, die die lokale Inferenz weiter vorantreiben könnte.

Dieser Artikel wurde von KI automatisch aus dem Englischen übersetzt. Englisches Original lesen →
Macro view of on-device AI processor chip
Lesemodus

Die Neural Engine von Apple hat ihre Rechenleistung in sieben Jahren um das 63-Fache gesteigert. Diese Entwicklung erklärt, warum die On-Device-KI-Fähigkeiten des iPhones von der Gesichtserkennung Face ID bis hin zum Ausführen von Sprachmodellen mit Milliarden Parametern ohne Internetverbindung reichen.[s] Die nächste iPhone-Generation dürfte diese Entwicklung weiter vorantreiben, mit architektonischen Änderungen, die mehr KI-Aufgaben lokal statt cloudbasiert ermöglichen könnten.

Der Wandel zur On-Device-KI im iPhone

Als Apple 2017 den A11 Bionic vorstellte, lieferte dessen Neural Engine 0,6 Billionen Rechenoperationen pro Sekunde. Das reichte für Face ID. Bis 2024 hatte die Neural Engine des M4 bereits 38 Billionen Operationen pro Sekunde erreicht, genug, um transformerbasierte große Sprachmodelle vollständig auf dem Gerät auszuführen.[s]

Der im September 2025 veröffentlichte A19-Chip des iPhone 17 markierte einen entscheidenden Wendepunkt. Unabhängige Benchmarks von Argmax zeigten bis zu 3,1-fache Geschwindigkeitsverbesserungen bei GPU-Inferenz-Workloads im Vergleich zum iPhone 16 Pro.[s] Apples Foundation Model, ein Transformer mit 3 Milliarden Parametern, läuft nun für die meisten Aufgaben auf der Neural Engine.[s]

Dies ist eine strategische Entscheidung. Jon Peddie Research beschreibt Apples Ansatz so: „Apples Strategie besteht darin, KI auf dem Gerät zu ermöglichen, um Datenschutz und mobile Unmittelbarkeit zu verbessern.“[s] Das Unternehmen setzt seine Investitionen in Edge-KI, weil „iPhones, iPads und Apple Watches der Edge sind, wo sich Apples Umsätze derzeit konzentrieren.“[s]

On-Device-KI im iPhone: Warum Speicherbandbreite wichtiger ist als Rechenleistung

Die gängige Annahme ist, dass Edge-Geräte zu wenig Rechenleistung haben. Dem ist nicht so. Laut Meta-KI-Forscher Vikas Chandra „liefern mobile NPUs mittlerweile ernsthafte TOPS“, wobei der Apple A19 Pro etwa 35 Billionen Operationen pro Sekunde erreicht.[s]

Der eigentliche Engpass ist die Speicherbandbreite. Mobile Geräte verfügen über 50-90 GB/s, während Rechenzentrums-GPUs 2-3 TB/s bieten. Chandra stellt fest, dass „dieser Unterschied bei der LLM-Inferenz entscheidend ist, weil der Decodierungsprozess speichergebunden ist: Für jedes generierte Token müssen die gesamten Modellgewichte geladen werden.“[s]

Der verfügbare Arbeitsspeicher ist typischerweise auf unter 4 GB selbst bei High-End-Geräten begrenzt, da er mit anderen Diensten geteilt werden muss.[s] Dies schränkt sowohl die maximale Modellgröße als auch die Eignung von Ansätzen wie Mixture-of-Experts-Architekturen ein.

Apple hat diesen Engpass auf zwei Wegen angegangen. Erstens durch patentierte Kompressionstechniken: Apples Neural-Engine-Patent US11604975B2 deckt ternäre Rechenmodi ab, die den Speicherbandbreitenbedarf um 50 % reduzieren.[s] Zweitens durch eine Unified-Memory-Architektur, die Datenübertragungsverluste zwischen CPU, GPU und Neural Engine eliminiert.

Der M5 setzt Maßstäbe

Der im Oktober 2025 vorgestellte M5-Chip von Apple integrierte Neural Accelerators direkt in jeden GPU-Kern. Die offizielle Ankündigung versprach „über 4-fache GPU-Spitzenleistung im Vergleich zum M4 und über 6-fache GPU-Spitzenleistung für KI im Vergleich zum M1.“[s]

Apples Machine-Learning-Forschungsteam veröffentlichte Benchmarks mit MLX, ihrem Open-Source-Framework. Die Ergebnisse zeigten, dass der M5 die Zeit bis zum ersten Token bei der Sprachmodell-Inferenz um bis zu 4-fach verkürzte.[s] Der M5 kann das erste Token eines dichten 14-Milliarden-Parameter-Modells in unter 10 Sekunden generieren und eines 30-Milliarden-Mixture-of-Experts-Modells in unter 3 Sekunden.[s]

Die Generierung nachfolgender Token bleibt speicherbandbreitengebunden. Apples Benchmark zeigte eine 19-27 %ige Leistungssteigerung im Vergleich zum M4, was der 28 %igen Erhöhung der Unified-Memory-Bandbreite von 120 GB/s auf 153 GB/s entspricht.[s]

Der M5 macht jeden Rechenblock KI-optimiert: „Die schnellere 16-Kern-Neural-Engine liefert leistungsstarke KI-Leistung mit unglaublicher Energieeffizienz und ergänzt die Neural Accelerators in CPU und GPU.“[s] Entwickler können diese Neural Accelerators direkt über Tensor-APIs in Metal 4 programmieren.[s]

Was die Gerüchte zum iPhone 18 verraten

Der für das iPhone 18 Pro erwartete A20-Pro-Chip soll von 3 nm auf TSMCs erste 2-nm-Generation wechseln. MacRumors berichtet, dass „die A20-Chips bis zu 15 % schneller und 30 % effizienter sein könnten als A19-Chips.“[s]

Die bedeutendere Änderung könnte das Packaging betreffen. Der A20 soll voraussichtlich Wafer-Level-Multi-Chip-Modul-Technologie nutzen, die „den Arbeitsspeicher auf demselben Wafer wie CPU, GPU und Neural Engine platziert.“[s] Dieses Packaging „soll die Distanz verringern, die Daten zwischen der Neural Engine und dem Speicher zurücklegen müssen“, was zu „geringerem Stromverbrauch pro Operation und geringerer Latenz pro Inferenz“ führen könnte.[s]

Die für Pro-Modelle erwarteten 12 GB LPDDR5-Arbeitsspeicher würden „größere persistente Modellgewichte“ ermöglichen, was potenziell „KI-Antworten sofort statt verzögert“ erscheinen ließe.[s]

Diese Entwicklung hat jedoch auch eine Kostendimension. TSMC hat Apple offenbar mitgeteilt, dass „2-nm-Chips mindestens 50 % teurer sein werden als 3-Nanometer-Prozessoren.“[s] Dies könnte erklären, warum fortschrittliche Funktionen zunächst in Pro-Modellen erscheinen.

Die Grenzen von On-Device-KI

On-Device-KI im iPhone eignet sich besonders für bestimmte Anwendungsfälle: latenzkritische Aufgaben, bei denen 200-500 ms Cloud-Roundtrips das Nutzererlebnis beeinträchtigen, datenschutzkritische Operationen, bei denen Daten das Gerät nie verlassen, und Anwendungen mit hohem Volumen, bei denen Cloud-Inferenzkosten schnell ansteigen.

Doch es gibt Grenzen. Chandra stellt fest: „Wenn Ihr Anwendungsfall hochmoderne Schlussfolgerungen, breites Weltwissen oder lange Gespräche mit mehreren Turns erfordert, ist die Cloud nach wie vor die bessere Wahl.“[s]

Dies führt zu einem Hybridmodell. Das Argmax-Team beobachtete, dass „die Neural Engine für On-Device-Inferenz im großen Maßstab die klare Wahl bleiben wird“, und zwar wegen ihrer Energieeffizienz und Beschleunigung durch Kompression, während GPU-basierte Beschleunigung mehr Kontrolle für Entwickler bietet.[s]

Das interessante Muster: Apple verbessert GPU und Neural Engine in abwechselnden Jahren. Die A19-Generation legte den Fokus auf GPU-Neural-Accelerators. Basierend auf diesem Rhythmus könnte die Neural Engine des A20 der nächste große Sprung sein.[s]

Was sich dadurch ändert

Die Roadmap-Analyse von PatSnap beschreibt die Richtung als Möglichkeit, dass das iPhone Modelle der GPT-3.5-Klasse vollständig auf dem Gerät ausführen kann.[s] Falls erreicht, würde dies einen Fähigkeitssprung bei der On-Device-KI-Leistung des iPhones bedeuten: Das Smartphone in Ihrer Tasche führt Inferenz-Workloads aus, die typischerweise vor drei Jahren noch von Cloud- oder Rechenzentrumssystemen bedient wurden.

Im Gegensatz zu Software-Updates, die die Leistung eines Geräts im Laufe der Zeit gezielt verschlechtern können, stellen diese Hardware-Investitionen dauerhafte Fähigkeitssteigerungen dar. Die Verbesserungen der Neural Engine jeder Generation summieren sich.

Die Apple10-GPU-Architektur im A19 verdoppelt den FP16-Durchsatz im Vergleich zu früheren Designs und führt pro Kern Neural Accelerators ein, die Tensor- und Matrixoperationen direkt in der GPU-Pipeline ausführen.[s] Dies ermöglicht es Grafik- und Machine-Learning-Kernels, Ausführungsressourcen gemeinsam zu nutzen, während Entwickler mit einem einheitlichen Programmiermodell arbeiten.

Ob dies von Bedeutung ist, hängt davon ab, was Apple in der Software ausliefert. Der A20 soll Hardware-Kapazitäten aufbauen; der KI-Funktionsumfang von iOS 27 wird entscheiden, was davon für Sie sichtbar wird.[s] Der Chip ermöglicht die Fähigkeit. Das Betriebssystem entscheidet, ob Sie sie erleben.

Die Architektur der On-Device-KI im iPhone

Apples Neural Engine wuchs von 0,6 TOPS im A11 Bionic (2017) auf 38 TOPS im M4 (2024). Der dramatischste Einzelsprung erfolgte mit dem A12 Bionic 2018: Der Wechsel zu TSMCs 7-nm-Prozess und die Erweiterung von 2 auf 8 Kerne ergaben 5 TOPS, eine 8,3-fache Leistungssteigerung in einer Generation.[s]

Der A14 Bionic (2020) führte die 16-Kern-Neural-Engine-Architektur ein, die zum Vorbild für alle nachfolgenden M-Serie-Chips wurde. Mit TSMCs 5-nm-Prozess und 11,8 Milliarden Transistoren lieferte er 11 TOPS. Der A17 Pro (2023) trieb dasselbe 16-Kern-Design auf 35 TOPS mit TSMCs 3-nm-N3B-Prozess.[s]

Der A19-Chip des iPhone 17 markiert einen architektonischen Wendepunkt. Unabhängige Benchmarks von Argmax maßen bis zu 3,1-fache GPU-Beschleunigung im Vergleich zum iPhone 16 Pro, während Apple bis zu 4-fache Steigerung bewirbt.[s] Die Diskrepanz spiegelt wahrscheinlich den Unterschied zwischen theoretischer Spitzenleistung und realen Inferenz-Workloads wider.

Jon Peddie Research dokumentierte die zugrundeliegenden Änderungen: „Apple10 verdoppelt den FP16-Durchsatz im Vergleich zu früheren Designs und führt pro Kern ‚Neural Accelerators‘ ein, die Tensor- und Matrixoperationen direkt in der GPU-Pipeline ausführen.“[s]

Speicherbandbreite als entscheidender Engpass

Meta-KI-Forscher Vikas Chandra und Raghuraman Krishnamoorthi quantifizierten die grundlegende Limitation in ihrer 2026er-Studie zu On-Device-LLMs: „Mobile Geräte verfügen über 50-90 GB/s Speicherbandbreite; Rechenzentrums-GPUs haben 2-3 TB/s. Das ist ein 30-50-facher Unterschied.“[s]

Für die LLM-Inferenz ist dieser Unterschied entscheidend, weil der Decodierungsprozess speichergebunden ist: Die Modellgewichte müssen für jedes generierte Token geladen werden, sodass Recheneinheiten auf Speicher warten. Chandra stellt fest, dass „der verfügbare Arbeitsspeicher selbst bei High-End-Geräten typischerweise auf unter 4 GB begrenzt ist, da er mit anderen Diensten geteilt werden muss.“[s]

Apples Antwort darauf war architektonisch. Das Unified-Memory-System eliminiert Datenübertragungsverluste zwischen separaten Speicherpools. Apples Neural-Engine-Patent US11604975B2 deckt ternäre Rechenmodi (−1, 0, +1) für komprimierte neuronale Netzwerkmodelle ab, die den Speicherbandbreitenbedarf um 50 % reduzieren.[s]

Der M5 erhöhte die Unified-Memory-Bandbreite auf 153 GB/s gegenüber 120 GB/s beim M4. Apples MLX-Benchmarks zeigten, dass sich dies direkt auswirkte: „Die Generierung nachfolgender Token ist speicherbandbreitengebunden, nicht rechenleistungsgebunden. Bei den getesteten Architekturen bietet der M5 eine 19-27 %ige Leistungssteigerung gegenüber dem M4, dank seiner höheren Speicherbandbreite.“[s]

Integration der Neural Accelerators im M5

Der im Oktober 2025 vorgestellte M5 integrierte Neural Accelerators direkt in die GPU-Kerne. Apples Pressemitteilung: „Die 10-Kern-GPU verfügt über einen dedizierten Neural Accelerator in jedem Kern und liefert über 4-fache GPU-Spitzenleistung im Vergleich zum M4 und über 6-fache GPU-Spitzenleistung für KI im Vergleich zum M1.“[s]

Apples Machine-Learning-Forschungsteam veröffentlichte MLX-Benchmarks. Die Zeit bis zum ersten Token (Time-to-First-Token, TTFT), die rechenleistungsgebunden ist, zeigte bis zu 4-fache Beschleunigung gegenüber dem M4. Der M5 erreichte TTFT unter 10 Sekunden für eine dichte 14B-Architektur und unter 3 Sekunden für ein 30B-Mixture-of-Experts-Modell.[s]

Die Architektur macht jeden Rechenblock KI-optimiert. Apple erklärte: „Die schnellere 16-Kern-Neural-Engine liefert leistungsstarke KI-Leistung mit unglaublicher Energieeffizienz und ergänzt die Neural Accelerators in CPU und GPU, um den M5 vollständig für KI-Workloads zu optimieren.“[s]

Das Programmiermodell ist entscheidend für die On-Device-KI-Implementierung im iPhone. Metal 4 führt Tensor-APIs ein, mit denen Entwickler Neural Accelerators direkt programmieren können.[s] Dies steht im Kontrast zur Neural Engine, die Argmax als „für die meisten Entwickler wie schwarze Magie“ für Spitzenleistung beschrieb.[s]

Spekulationen zur A20-Architektur

Der für das iPhone 18 Pro erwartete A20-Pro-Chip soll von 3 nm auf TSMCs erste 2-nm-Generation wechseln. MacRumors berichtet von Prognosen, dass „die A20-Chips bis zu 15 % schneller und 30 % effizienter sein könnten als A19-Chips.“[s]

Die bedeutendere architektonische Änderung könnte das Wafer-Level-Multi-Chip-Modul-Packaging (WMCM) sein. Dieses würde „den Arbeitsspeicher auf demselben Wafer wie CPU, GPU und Neural Engine platzieren, statt als separaten Chip mit längeren Signalwegen.“[s]

WMCM-Packaging „soll die Distanz verringern, die Daten zwischen der Neural Engine und dem Speicher zurücklegen müssen“, was zu „geringerem Stromverbrauch pro Operation und geringerer Latenz pro Inferenz“ führen könnte.[s] Da der Decodierungsprozess speichergebunden ist, könnte eine reduzierte Speicherlatenz die Token-Generierungsraten über das hinaus verbessern, was allein durch TOPS-Steigerungen möglich wäre.

Die für Pro-Modelle erwarteten 12 GB LPDDR5-Arbeitsspeicher adressieren die von Chandra identifizierte Begrenzung des verfügbaren Arbeitsspeichers. Größere persistente Modellgewichte könnten resident bleiben, statt zwischen Aufgaben ausgelagert und neu geladen zu werden.[s]

TSMC hat Apple offenbar mitgeteilt, dass „2-nm-Chips aufgrund der Herstellungskosten und der benötigten Ausrüstung mindestens 50 % teurer sein werden als 3-Nanometer-Prozessoren.“[s] Diese Kostenstruktur könnte 2-nm-Chips auf Pro-Modelle beschränken.

Abwägungen zwischen On-Device und Cloud

Chandras Framework identifiziert, wo On-Device-KI im iPhone sinnvoll ist: latenzkritische Aufgaben, bei denen „Cloud-Roundtrips 200-500 ms bis zum ersten Token benötigen“, datenschutzkritische Operationen und Anwendungen mit hohem Volumen, bei denen Cloud-Inferenzkosten schnell ansteigen.[s]

Die Grenzen sind klar: „Wenn Ihr Anwendungsfall hochmoderne Schlussfolgerungen, breites Weltwissen oder lange Gespräche mit mehreren Turns erfordert, ist die Cloud nach wie vor die bessere Wahl.“[s]

Apples 3-Milliarden-Parameter-Foundation-Model läuft aus mehreren Gründen auf der Neural Engine: „Beste Energieeffizienz zur Maximierung der Akkulaufzeit, native Beschleunigung fortschrittlicher Kompressionstechniken und höhere Spitzenleistung.“[s] Das Argmax-Team beobachtete ein abwechselndes Muster, bei dem Apple GPU und Neural Engine in aufeinanderfolgenden Jahren verbessert, sodass die Neural Engine des A20 der nächste erwartete Sprung sein könnte.[s]

Strategische Implikationen

Die Roadmap-Analyse von PatSnap beschreibt das strategische Ziel, das iPhone in die Lage zu versetzen, Modelle der GPT-3.5-Klasse vollständig auf dem Gerät auszuführen.[s] Dies würde eine Konvergenz der Fähigkeiten zwischen mobilen Geräten und Workloads bedeuten, die typischerweise um 2023 noch von Cloud- oder Rechenzentrumssystemen bedient wurden.

Jon Peddie Research beschreibt die geschäftliche Logik: „Apple investiert in KI am Edge. Und iPhones, iPads und Apple Watches sind der Edge, wo sich Apples Umsätze derzeit konzentrieren.“[s]

Die Apple10-GPU-Architektur ermöglicht „Grafik- und ML-Kernels, Ausführungsressourcen und Speicherbandbreite gemeinsam zu nutzen, während Entwickler mit einem einheitlichen Programmiermodell arbeiten.“[s] Diese Integration reduziert Kontextwechsel-Strafen beim Scheduling von Aufgaben zwischen CPU, Neural Engine und GPU.

Hardware schafft Kapazitäten; Software entscheidet über die Nutzung. Die Gerüchte zum A20-Chip beschreiben architektonische Verbesserungen; welche Apple-Intelligence-Funktionen iOS 27 mitbringt, wird entscheiden, ob Sie diese Verbesserungen erleben.[s] Forscher wie Yann LeCun haben alternative KI-Architekturen vorgeschlagen, die infrage stellen, ob transformerbasierte Ansätze dominant bleiben werden. Apples aktuelle Hardware-Roadmap ist jedoch auf die Transformer-Inferenz-Workloads optimiert, die den gegenwärtigen Stand definieren.

Wie war dieser Artikel?
Artikel teilen

Fehler entdeckt? Sagen Sie uns Bescheid

Quellen