- Le modèle open source Gemma 4 de Google peut s’exécuter nativement sur iPhone sans connexion Internet et effectuer une inférence totalement hors ligne
- Le modèle 31B de Gemma 4 affiche des performances comparables à celles du modèle 27B de Qwen 3.5, avec environ 4 milliards de paramètres supplémentaires
- Les variantes E2B et E4B sont des modèles mobiles optimisés pour la vitesse et la maîtrise de la chauffe, et l’application de Google recommande par défaut l’usage de E2B
- Les utilisateurs peuvent choisir un modèle via l’application Google AI Edge Gallery et exécuter une inférence sur l’appareil sans API ni cloud
- Cette exécution montre que le basculement vers l’IA on-device devient une réalité et est considéré comme une étape importante dans l’expansion de l’écosystème de l’edge AI
Exécution on-device de Google Gemma 4 sur iPhone
- Le modèle open source Gemma 4 de Google prend en charge une inférence entièrement hors ligne sur iPhone et fonctionne nativement
- Il permet une inférence locale sans connexion Internet
- Le déploiement de l’edge AI n’est plus un enjeu d’avenir, mais une réalité technologique déjà en cours
- En comparaison de performances, la variante 31B de Gemma 4 est jugée d’un niveau similaire au modèle 27B de Qwen 3.5
- Gemma dispose d’environ 4 milliards de paramètres de plus
- Les deux modèles ont chacun leurs points forts selon les tâches, sans supériorité absolue
- Les variantes E2B et E4B, des modèles optimisés pour le mobile, retiennent particulièrement l’attention
- Axées sur l’efficacité, elles sont avantageuses en matière de vitesse, légèreté et contrôle de la chauffe
- L’application de Google recommande par défaut l’utilisation de E2B
- L’application Google AI Edge Gallery peut être téléchargée depuis l’App Store et utilisée immédiatement
- Les utilisateurs peuvent choisir une variante du modèle et exécuter directement l’inférence sur l’appareil
- Aucun appel d’API ni dépendance au cloud
- L’application va au-delà d’une simple interface textuelle et inclut la reconnaissance d’image, l’interaction vocale et un framework Skills extensible
- Elle a été conçue comme une plateforme d’expérimentation de l’IA on-device, exploitable par les développeurs et les utilisateurs avancés
Architecture technique et performances
- Gemma 4 utilise un chemin d’inférence via le GPU de l’iPhone
- La latence de réponse très faible prouve qu’il est possible de traiter des workloads IA haute performance même sur du matériel grand public
- Cela est considéré comme un cas clé montrant la viabilité commerciale du déploiement local de l’IA
- Les fonctions hors ligne élargissent fortement les usages en environnement professionnel
- Utilisation possible sur le terrain, en contexte médical ou dans des domaines où la confidentialité des données est cruciale, sans dépendance au cloud
Signification et perspectives
- L’exécution de Gemma 4 sur iPhone n’est pas une simple démonstration technique, mais symbolise l’arrivée de l’ère de l’IA on-device
- Google accélère véritablement l’expansion de l’écosystème de l’edge AI via Gemma
- Comme le suggère l’expression selon laquelle « Gemma est sortie de la bouteille », la transition vers une IA localisée a déjà commencé
1 commentaires
Avis sur Hacker News
Le style de l’article donnait l’impression d’avoir été écrit par un LLM
Des tournures comme « It’s not mere X — it’s Y » revenaient plusieurs fois
Il a été constaté que l’inférence se fait via le GPU, et non via l’Apple Neural Engine
Les ingénieurs de Google semblent avoir renoncé à compiler des kernels personnalisés pour les blocs tensoriels propriétaires d’Apple. Metal facilite le portage, mais consomme beaucoup de batterie. Tant qu’un backend ANE n’aura pas été réécrit, cela restera surtout une simple démo technique
Une application de code hors ligne (pucky) a été créée avec Gemma 4 et exécutée sur iPhone
Voir le lien GitHub. Le modèle 4B fonctionne aussi, mais à cause des contraintes mémoire, l’application utilise 2B par défaut. Elle génère un fichier TypeScript unique puis le compile avec oxc. Il est difficile de passer la revue de l’App Store, donc il faut compiler directement avec Xcode
Apple semble restreindre les LLM locaux sur l’App Store. Quelqu’un dit avoir tenté de distribuer son application directement, mais s’être heurté à la clause 2.5.2
Partage du fil connexe Gemma 4 on iPhone
Sur iPhone 16 Plus, la vitesse est très élevée, mais elle chute fortement sur les longs messages, sans que ce soit dû au thermal throttling. Souhait de voir les données de diagnostic
L’application iOS Edge Gallery avec Gemma 4 était attendue, mais elle est peu pratique à cause des restrictions d’accès aux intents et du besoin de plugins personnalisés pour la recherche web. ChatMCP, basé sur API, reste à peu près utilisable
Installation de Google AI Edge Gallery sur un iPhone 16 Pro et exécution d’un benchmark
Résultats partagés côté GPU : Prefill 231t/s, Decode 16t/s, 1,16 seconde jusqu’au premier token, 20 secondes d’initialisation
Il faut rester prudent avec les petits modèles
À la question « un chien peut-il manger de l’avocat ? », le modèle a répondu avec assurance : « Yes ». Il faut garder en tête les limites du modèle
Même hors ligne, certains soupçonnent Google de collecter les données saisies ou des informations sur l’appareil