21 points par xguru 2026-04-06 | 2 commentaires | Partager sur WhatsApp
  • Application iOS/Android spécialisée dans l’exécution d’IA générative on-device, permettant de faire tourner des LLM dans un environnement entièrement hors ligne et privé, sans connexion Internet
  • Ajout du support officiel de la famille Gemma 4 — permet de tester des capacités avancées de raisonnement, de logique et de création sans envoi vers un serveur
  • Agent Skills : aller au-delà de la conversation avec un LLM pour en faire un assistant proactif
    • Extension des capacités du LLM avec des outils comme la recherche de faits sur Wikipedia, des cartes interactives et des cartes de résumé visuel
    • Prise en charge du chargement de skills modulaires depuis une URL et de l’exploration de skills communautaires via GitHub Discussions
  • Thinking Mode : permet de visualiser le processus de raisonnement étape par étape du modèle pendant un chat IA (actuellement limité aux modèles pris en charge, dont la famille Gemma 4)
  • Ask Image : reconnaissance d’objets multimodale, casse-têtes visuels et génération de descriptions détaillées à partir de l’appareil photo et de la galerie photo
  • Audio Scribe : transcription et traduction vocales en temps réel avec un modèle on-device
  • Prompt Lab : espace de travail dédié pour tester des prompts en ajustant finement des paramètres comme temperature et top-k
  • Mobile Actions : automatisation du contrôle de l’appareil hors ligne basée sur un modèle fine-tuné FunctionGemma 270m
  • Tiny Garden : mini-jeu en langage naturel
  • Model Management & Benchmark : prise en charge du téléchargement de modèles open source, du chargement de modèles personnalisés et de tests de benchmark selon le matériel
  • LiteRT runtime léger + intégration Hugging Face pour la découverte de modèles et l’exécution optimisée
  • Compatible Android 12+, iOS 17+ / installation disponible via Google Play et l’App Store / dans les environnements sans accès à Google Play, installation directe de l’APK possible depuis les releases GitHub
  • Licence : Apache-2.0 / Langage de développement : Kotlin

2 commentaires

 
lastorder 2026-04-06

https://github.com/google-ai-edge/gallery/issues/437

On dirait que la compatibilité avec Exynos est mauvaise. Sur le Galaxy Quantum 5 (A55), il y a un problème où il répond en répétant indéfiniment des caractères chinois.

 
GN⁺ 2026-04-06
Réactions sur Hacker News
  • C’est vraiment un modèle impressionnant. Je le fais tourner sur Mac en ce moment, donc le fait qu’on puisse désormais l’exécuter en local sur iPhone me donne envie de le tester
    J’ai essayé de faire du dealignment (désalignement / levée de censure) sur ce modèle avec le script heretic, et ça a vraiment bien marché. J’ai même créé mon propre dépôt gemma4-heretical pour tout regrouper
    On peut aussi en faire une version MLX ; c’est un peu plus rapide sur Mac, mais ça ne fonctionne pas dans Ollama (peut-être que ça marcherait dans LM Studio)
    Ça tourne très bien sur un Macbook Pro M4 128 Go, et ça devrait aussi aller sans problème sur 64 Go. Avec moins de mémoire, il faut baisser le niveau de quantification
    J’aime ce genre de modèles locaux non alignés. Au lieu d’être censuré par une plateforme externe, on peut expérimenter librement sur son propre appareil. Ça permet des conversations « sensibles mais productives »
    J’ai essayé de le connecter à OpenClaw mais j’ai eu un problème. Bien sûr, ce type d’approche peut être détourné, mais je pense qu’il y a bien plus d’utilisateurs de bonne foi

    • Sur Mac, je fais tourner des modèles MLX avec omlx, et ça fonctionne très bien
    • J’ai vu le script abliterate, mais je ne comprends pas exactement ce qu’il fait. Je me demande quel type de conversations cela rend possible
    • Je l’ai testé pour coder sur Mac, et je ne l’ai pas trouvé plus impressionnant que Qwen. Il est peut-être meilleur dans certains domaines, mais pour l’instant je ne sais pas encore
    • Je n’ai encore rien construit avec la plateforme agent skills, mais c’est assez intéressant. Sur Android, le sandbox charge index.html dans une WebView et interagit via des entrées/sorties textuelles standardisées. Ça ressemble à une première version d’un sandbox d’agent en edge computing du futur
    • Je me demande si tu peux donner des exemples du type de « conversations sensibles » que tu prévois d’avoir avec un LLM local
  • Cette appli est sympa, mais elle ne montre pas vraiment tout le potentiel du modèle E2B
    Sur mon M3 Pro, j’ai créé une IA audio/vidéo en temps réel avec Gemma E2B, et je l’ai postée sur /r/LocalLLaMA sous le nom Parlor. Ça a eu pas mal d’écho
    Je le fais tourner sur Macbook, mais d’après ce benchmark, ce serait tout à fait possible aussi sur un iPhone 17 Pro

    • Parlor est vraiment génial. Et en plus tu l’as publié gratuitement, c’est remarquable. Je pense que c’est un excellent exemple d’usage d’un LLM local
  • J’ai testé le modèle sur iPhone et j’ai obtenu des résultats plutôt corrects. Ce n’est pas au niveau de Gemini dans le cloud, mais c’est largement utilisable
    La fonction « actions mobiles » est intéressante, car elle permet du contrôle de l’appareil comme allumer la lampe torche ou ouvrir la carte. Ce serait vraiment bien si ça s’intégrait à Siri Shortcuts
    Comme je développe une appli pour les enseignants, je suis ravi de voir la généralisation des modèles locaux. À cause des lois sur la protection des données, l’exécution côté client est importante. Il existe aussi des API de modèles on-device sur iOS ou Chrome, mais la qualité reste encore faible

    • Pour moi, les hallucinations de ce modèle donnent l’impression de revenir quelques années en arrière. Malgré tout, c’est impressionnant de voir ce niveau tourner en local. J’espère qu’on pourra continuer à faire tourner en local, même à l’avenir, des modèles au moins du niveau de ceux d’il y a quelques années
  • Je pense qu’il n’y a que deux futurs réalistes pour l’IA — une exécution locale gratuite sur l’appareil, ou des services cloud coûteux
    Le second cas ne sera utilisé que pour des tâches où l’humain serait encore plus cher ou plus lent. Les modèles Gemma 4 montrent la possibilité d’un Siri du futur intégré à l’iPhone et à macOS, une sorte d’assistant à la “Her”

    • Je me demande pourquoi tu penses que le cloud va coûter plus cher. Les grandes entreprises font déjà des bénéfices à l’étape de l’inférence. Le matériel dédié au cloud est plus efficace, et le faire tourner sur un téléphone ne fera que vider la batterie
    • Si l’on peut faire tourner gratuitement des modèles sur des appareils grand public, les fournisseurs cloud ne pourraient-ils pas proposer en plus une meilleure qualité et davantage de valeur ajoutée ?
    • Même si on exécute un modèle local sur un téléphone contrôlé par un vendeur, ce n’est pas une véritable autonomie locale au sens fort
    • Ce n’est pas le premier pas vers le futur dont tu rêves
    • Après avoir vu “Her”, j’aimerais vraiment savoir si tu souhaites sincèrement qu’un tel futur arrive
  • Je partage le lien de la version anglaise de l’appli
    Google AI Edge Gallery pour iOS
    Version Android
    C’est une appli de démonstration du projet Edge de Google

  • La plupart des modèles ne sont pas encore téléchargeables. J’espère qu’ils seront publiés bientôt

  • Quelqu’un se demande si la page web de l’App Store a l’air fausse. Le texte du header est pixellisé, l’arrière-plan clignote et la qualité des icônes est médiocre

    • La même page de la version américaine a elle aussi une qualité de design médiocre. On dirait qu’Apple ne considère plus le design comme une force clé
    • Vu le /nl/ dans l’URL, c’est la version néerlandaise. La page principale de l’App Store est un peu meilleure, mais reste étrange
    • C’est probablement un problème de qualité de localisation. Sur mon iPhone, quand ça s’ouvre dans l’app App Store, ça a l’air normal
    • Je n’ai pas ce problème dans Firefox
    • Sur Firefox de GrapheneOS, le rendu est parfait
  • J’ai testé le modèle Gemma-4-E2B-it sur un iPhone 16 Pro, et j’obtenais environ 30 tokens par seconde. Le téléphone a pas mal chauffé, mais les performances étaient impressionnantes. Je vais essayer de l’intégrer à mon appli

  • Mon fils a commencé à utiliser le modèle 2B sur Android. Ça tourne bien même sur un Motorola bon marché, et il s’en sert pour s’exercer à lire et écrire dans des langues étrangères. La légèreté du modèle est vraiment impressionnante

  • Les nouveaux modèles sont très impressionnants. AI Edge Gallery tourne sur GPU, mais le NPU des puces récentes est bien plus rapide
    Par exemple, la puce A16 dispose d’un Neural Engine à 35 TOPS, tandis que le GPU est autour de 7 TFLOPS. Chez Qualcomm, on observe quelque chose de similaire

    • C’est impressionnant d’avoir ce niveau de performance sur des puces aussi sobres en énergie. J’ai hâte de voir une version pour les puces M. On dirait que l’ère des TPU ultra-rapides sur desktop et sur téléphone approche