3 points par GN⁺ 14 일 전 | 1 commentaires | Partager sur WhatsApp
  • Le modèle open source Gemma 4 de Google peut s’exécuter nativement sur iPhone sans connexion Internet et effectuer une inférence totalement hors ligne
  • Le modèle 31B de Gemma 4 affiche des performances comparables à celles du modèle 27B de Qwen 3.5, avec environ 4 milliards de paramètres supplémentaires
  • Les variantes E2B et E4B sont des modèles mobiles optimisés pour la vitesse et la maîtrise de la chauffe, et l’application de Google recommande par défaut l’usage de E2B
  • Les utilisateurs peuvent choisir un modèle via l’application Google AI Edge Gallery et exécuter une inférence sur l’appareil sans API ni cloud
  • Cette exécution montre que le basculement vers l’IA on-device devient une réalité et est considéré comme une étape importante dans l’expansion de l’écosystème de l’edge AI

Exécution on-device de Google Gemma 4 sur iPhone

  • Le modèle open source Gemma 4 de Google prend en charge une inférence entièrement hors ligne sur iPhone et fonctionne nativement
    • Il permet une inférence locale sans connexion Internet
    • Le déploiement de l’edge AI n’est plus un enjeu d’avenir, mais une réalité technologique déjà en cours
  • En comparaison de performances, la variante 31B de Gemma 4 est jugée d’un niveau similaire au modèle 27B de Qwen 3.5
    • Gemma dispose d’environ 4 milliards de paramètres de plus
    • Les deux modèles ont chacun leurs points forts selon les tâches, sans supériorité absolue
  • Les variantes E2B et E4B, des modèles optimisés pour le mobile, retiennent particulièrement l’attention
    • Axées sur l’efficacité, elles sont avantageuses en matière de vitesse, légèreté et contrôle de la chauffe
    • L’application de Google recommande par défaut l’utilisation de E2B
  • L’application Google AI Edge Gallery peut être téléchargée depuis l’App Store et utilisée immédiatement
    • Les utilisateurs peuvent choisir une variante du modèle et exécuter directement l’inférence sur l’appareil
    • Aucun appel d’API ni dépendance au cloud
  • L’application va au-delà d’une simple interface textuelle et inclut la reconnaissance d’image, l’interaction vocale et un framework Skills extensible
    • Elle a été conçue comme une plateforme d’expérimentation de l’IA on-device, exploitable par les développeurs et les utilisateurs avancés

Architecture technique et performances

  • Gemma 4 utilise un chemin d’inférence via le GPU de l’iPhone
    • La latence de réponse très faible prouve qu’il est possible de traiter des workloads IA haute performance même sur du matériel grand public
    • Cela est considéré comme un cas clé montrant la viabilité commerciale du déploiement local de l’IA
  • Les fonctions hors ligne élargissent fortement les usages en environnement professionnel
    • Utilisation possible sur le terrain, en contexte médical ou dans des domaines où la confidentialité des données est cruciale, sans dépendance au cloud

Signification et perspectives

  • L’exécution de Gemma 4 sur iPhone n’est pas une simple démonstration technique, mais symbolise l’arrivée de l’ère de l’IA on-device
    • Google accélère véritablement l’expansion de l’écosystème de l’edge AI via Gemma
    • Comme le suggère l’expression selon laquelle « Gemma est sortie de la bouteille », la transition vers une IA localisée a déjà commencé

1 commentaires

 
GN⁺ 14 일 전
Avis sur Hacker News
  • Le style de l’article donnait l’impression d’avoir été écrit par un LLM
    Des tournures comme « It’s not mere X — it’s Y » revenaient plusieurs fois

    • Plaisanterie sur le fait qu’il est incroyable de remettre en question les standards moraux de « gizmoweek dot com »
    • Peu importe que l’auteur soit un humain ou un LLM. Le vrai problème, c’est l’absence de détails : aucun benchmark par modèle d’iPhone, et un contenu quasiment vide
    • Testé avec plusieurs modèles comme Claude et Grok, qui ont tous relevé les problèmes typiques des fermes à contenu : absence de sources, phrases répétitives, etc. Impossible même de prouver que l’auteur existe réellement
    • L’émoticône « :v » a donné l’impression réjouissante de retrouver enfin un millennial
    • Impression que l’IA est en train de nous dresser à éviter certains schémas de langage. Refus de devenir l’otage d’un langage affaibli
  • Il a été constaté que l’inférence se fait via le GPU, et non via l’Apple Neural Engine
    Les ingénieurs de Google semblent avoir renoncé à compiler des kernels personnalisés pour les blocs tensoriels propriétaires d’Apple. Metal facilite le portage, mais consomme beaucoup de batterie. Tant qu’un backend ANE n’aura pas été réécrit, cela restera surtout une simple démo technique

    • L’ANE n’est pas vraiment adapté à l’exécution de LLM. L’écosystème LLM est standardisé autour du CPU/GPU, et même MLX d’Apple ne prend pas en charge l’ANE
    • Mention de l’article de 9to5mac annonçant qu’un framework Core AI remplaçant CoreML pourrait être présenté à la WWDC dans quelques mois, avec un certain enthousiasme
    • L’ANE n’est efficace qu’à partir de groupes d’au moins 128 vecteurs. C’est inefficace pour la génération de tokens, mais les techniques récentes comme Flash-MoE ou DFlash rendent la situation plus prometteuse qu’avant
    • La consommation électrique est acceptable, mais des fonctions comme l’écoute permanente en arrière-plan posent problème du point de vue du contrôle de la vie privée
    • L’application AI Edge Gallery sur Android n’utilise elle aussi que le GPU. Le problème semble moins venir des blocs tensoriels d’Apple que du fait que Google ne s’y est pas vraiment intéressé de manière générale
  • Une application de code hors ligne (pucky) a été créée avec Gemma 4 et exécutée sur iPhone
    Voir le lien GitHub. Le modèle 4B fonctionne aussi, mais à cause des contraintes mémoire, l’application utilise 2B par défaut. Elle génère un fichier TypeScript unique puis le compile avec oxc. Il est difficile de passer la revue de l’App Store, donc il faut compiler directement avec Xcode

    • Référence à un ancien fil HN, avec la suggestion de passer de React Native à Swift
  • Apple semble restreindre les LLM locaux sur l’App Store. Quelqu’un dit avoir tenté de distribuer son application directement, mais s’être heurté à la clause 2.5.2

    • Prévision qu’Apple va durcir progressivement sa réglementation autour des LLM. Si les utilisateurs peuvent créer eux-mêmes leurs applications, cela menace le modèle économique d’Apple
    • Mais les règles manquent de cohérence. Sur son téléphone, Google Edge Gallery et Locally AI fonctionnent déjà normalement
    • Citation de l’intégralité de la guideline 2.5.2 de l’App Store, avec la question de savoir pourquoi un LLM local tomberait sous cette règle
    • Sa propre application embarquait un LLM optimisé pour l’ANE, fonctionnait entièrement hors ligne et a été approuvée en une seule journée. Analyse selon laquelle Apple chercherait surtout à filtrer les applications IA spam. L’article de MacRumors est aussi mentionné
    • Question sur le fait de savoir si les applications liées à Cactus Compute rencontrent le même problème
  • Partage du fil connexe Gemma 4 on iPhone

  • Sur iPhone 16 Plus, la vitesse est très élevée, mais elle chute fortement sur les longs messages, sans que ce soit dû au thermal throttling. Souhait de voir les données de diagnostic

    • L’inférence LLM a une complexité O(tokens²), donc il est normal qu’elle ralentisse avec la longueur
  • L’application iOS Edge Gallery avec Gemma 4 était attendue, mais elle est peu pratique à cause des restrictions d’accès aux intents et du besoin de plugins personnalisés pour la recherche web. ChatMCP, basé sur API, reste à peu près utilisable

  • Installation de Google AI Edge Gallery sur un iPhone 16 Pro et exécution d’un benchmark
    Résultats partagés côté GPU : Prefill 231t/s, Decode 16t/s, 1,16 seconde jusqu’au premier token, 20 secondes d’initialisation

  • Il faut rester prudent avec les petits modèles
    À la question « un chien peut-il manger de l’avocat ? », le modèle a répondu avec assurance : « Yes ». Il faut garder en tête les limites du modèle

    • Réponse en plaisantant : « Techniquement, il peut en manger… »
  • Même hors ligne, certains soupçonnent Google de collecter les données saisies ou des informations sur l’appareil

    • D’après le code source GitHub, le contenu des messages n’est pas collecté, mais des statistiques d’usage des modèles sont enregistrées
    • Anecdote amusante sur des supports de formation internes chez Google utilisant un produit fictif appelé « gShoe » pour illustrer les problèmes de confidentialité liés à la collecte de données
    • Mention qu’Apple paierait 1 milliard de dollars à Google tout en poursuivant une stratégie d’IA on-device, et que cela pourrait en être un avant-goût