Google AI Edge Gallery - application galerie LLM entièrement hors ligne open source
(github.com/google-ai-edge)- Application iOS/Android spécialisée dans l’exécution d’IA générative on-device, permettant de faire tourner des LLM dans un environnement entièrement hors ligne et privé, sans connexion Internet
- Ajout du support officiel de la famille Gemma 4 — permet de tester des capacités avancées de raisonnement, de logique et de création sans envoi vers un serveur
- Agent Skills : aller au-delà de la conversation avec un LLM pour en faire un assistant proactif
- Extension des capacités du LLM avec des outils comme la recherche de faits sur Wikipedia, des cartes interactives et des cartes de résumé visuel
- Prise en charge du chargement de skills modulaires depuis une URL et de l’exploration de skills communautaires via GitHub Discussions
- Thinking Mode : permet de visualiser le processus de raisonnement étape par étape du modèle pendant un chat IA (actuellement limité aux modèles pris en charge, dont la famille Gemma 4)
- Ask Image : reconnaissance d’objets multimodale, casse-têtes visuels et génération de descriptions détaillées à partir de l’appareil photo et de la galerie photo
- Audio Scribe : transcription et traduction vocales en temps réel avec un modèle on-device
- Prompt Lab : espace de travail dédié pour tester des prompts en ajustant finement des paramètres comme
temperatureettop-k - Mobile Actions : automatisation du contrôle de l’appareil hors ligne basée sur un modèle fine-tuné FunctionGemma 270m
- Tiny Garden : mini-jeu en langage naturel
- Model Management & Benchmark : prise en charge du téléchargement de modèles open source, du chargement de modèles personnalisés et de tests de benchmark selon le matériel
- LiteRT runtime léger + intégration Hugging Face pour la découverte de modèles et l’exécution optimisée
- Compatible Android 12+, iOS 17+ / installation disponible via Google Play et l’App Store / dans les environnements sans accès à Google Play, installation directe de l’APK possible depuis les releases GitHub
- Licence : Apache-2.0 / Langage de développement : Kotlin
2 commentaires
https://github.com/google-ai-edge/gallery/issues/437
On dirait que la compatibilité avec Exynos est mauvaise. Sur le Galaxy Quantum 5 (A55), il y a un problème où il répond en répétant indéfiniment des caractères chinois.
Réactions sur Hacker News
C’est vraiment un modèle impressionnant. Je le fais tourner sur Mac en ce moment, donc le fait qu’on puisse désormais l’exécuter en local sur iPhone me donne envie de le tester
J’ai essayé de faire du dealignment (désalignement / levée de censure) sur ce modèle avec le script heretic, et ça a vraiment bien marché. J’ai même créé mon propre dépôt gemma4-heretical pour tout regrouper
On peut aussi en faire une version MLX ; c’est un peu plus rapide sur Mac, mais ça ne fonctionne pas dans Ollama (peut-être que ça marcherait dans LM Studio)
Ça tourne très bien sur un Macbook Pro M4 128 Go, et ça devrait aussi aller sans problème sur 64 Go. Avec moins de mémoire, il faut baisser le niveau de quantification
J’aime ce genre de modèles locaux non alignés. Au lieu d’être censuré par une plateforme externe, on peut expérimenter librement sur son propre appareil. Ça permet des conversations « sensibles mais productives »
J’ai essayé de le connecter à OpenClaw mais j’ai eu un problème. Bien sûr, ce type d’approche peut être détourné, mais je pense qu’il y a bien plus d’utilisateurs de bonne foi
index.htmldans une WebView et interagit via des entrées/sorties textuelles standardisées. Ça ressemble à une première version d’un sandbox d’agent en edge computing du futurCette appli est sympa, mais elle ne montre pas vraiment tout le potentiel du modèle E2B
Sur mon M3 Pro, j’ai créé une IA audio/vidéo en temps réel avec Gemma E2B, et je l’ai postée sur /r/LocalLLaMA sous le nom Parlor. Ça a eu pas mal d’écho
Je le fais tourner sur Macbook, mais d’après ce benchmark, ce serait tout à fait possible aussi sur un iPhone 17 Pro
J’ai testé le modèle sur iPhone et j’ai obtenu des résultats plutôt corrects. Ce n’est pas au niveau de Gemini dans le cloud, mais c’est largement utilisable
La fonction « actions mobiles » est intéressante, car elle permet du contrôle de l’appareil comme allumer la lampe torche ou ouvrir la carte. Ce serait vraiment bien si ça s’intégrait à Siri Shortcuts
Comme je développe une appli pour les enseignants, je suis ravi de voir la généralisation des modèles locaux. À cause des lois sur la protection des données, l’exécution côté client est importante. Il existe aussi des API de modèles on-device sur iOS ou Chrome, mais la qualité reste encore faible
Je pense qu’il n’y a que deux futurs réalistes pour l’IA — une exécution locale gratuite sur l’appareil, ou des services cloud coûteux
Le second cas ne sera utilisé que pour des tâches où l’humain serait encore plus cher ou plus lent. Les modèles Gemma 4 montrent la possibilité d’un Siri du futur intégré à l’iPhone et à macOS, une sorte d’assistant à la “Her”
Je partage le lien de la version anglaise de l’appli
Google AI Edge Gallery pour iOS
Version Android
C’est une appli de démonstration du projet Edge de Google
La plupart des modèles ne sont pas encore téléchargeables. J’espère qu’ils seront publiés bientôt
Quelqu’un se demande si la page web de l’App Store a l’air fausse. Le texte du header est pixellisé, l’arrière-plan clignote et la qualité des icônes est médiocre
/nl/dans l’URL, c’est la version néerlandaise. La page principale de l’App Store est un peu meilleure, mais reste étrangeJ’ai testé le modèle Gemma-4-E2B-it sur un iPhone 16 Pro, et j’obtenais environ 30 tokens par seconde. Le téléphone a pas mal chauffé, mais les performances étaient impressionnantes. Je vais essayer de l’intégrer à mon appli
Mon fils a commencé à utiliser le modèle 2B sur Android. Ça tourne bien même sur un Motorola bon marché, et il s’en sert pour s’exercer à lire et écrire dans des langues étrangères. La légèreté du modèle est vraiment impressionnante
Les nouveaux modèles sont très impressionnants. AI Edge Gallery tourne sur GPU, mais le NPU des puces récentes est bien plus rapide
Par exemple, la puce A16 dispose d’un Neural Engine à 35 TOPS, tandis que le GPU est autour de 7 TFLOPS. Chez Qualcomm, on observe quelque chose de similaire