Google dévoile Gemma 3n, une nouvelle IA multimodale on-device
(developers.googleblog.com)- Gemma 3n est le dernier modèle d’IA multimodale on-device pour les environnements mobiles et edge, capable de traiter images, audio, vidéo et texte
- Grâce à une architecture axée sur l’efficacité et à des innovations architecturales (MatFormer, Per-Layer Embeddings, MobileNet-V5, etc.), il offre des performances proches de celles des grands modèles cloud existants avec seulement 2 à 3 Go de mémoire
- Deux tailles de modèle sont proposées, E2B et E4B, avec en plus une prise en charge de tailles personnalisées fines adaptées au matériel via l’approche Mix-n-Match
- Applicable immédiatement à de nombreux usages d’IA on-device, comme la reconnaissance vocale, la traduction, l’analyse visuelle en temps réel et le traitement multilingue dans 140 langues
- Large intégration avec les principaux écosystèmes open source IA comme Hugging Face, Ollama et llama.cpp, avec une utilisation immédiate via divers outils, API et SDK
Vue d’ensemble et contexte
- Le premier modèle Gemma, lancé au début de l’année dernière, a dépassé les 160 millions de téléchargements et a donné naissance à un écosystème baptisé Gemmaverse
- Cet écosystème comprend divers modèles spécialisés, notamment en sécurité et santé, ainsi que de nombreux cas d’usage innovants issus des contributions de la communauté
- Fort de ce succès, Google annonce la sortie officielle de Gemma 3n, conçu avant tout pour le mobile
- Il propose une intégration étendue avec un écosystème et des outils pensés pour les développeurs, dont Hugging Face Transformers, llama.cpp, Google AI Edge et Ollama
- L’article présente en profondeur, du point de vue développeur, les innovations clés, les benchmarks et les méthodes de développement autour de Gemma 3n
What’s new in Gemma 3n?
- Gemma 3n marque une nouvelle avancée pour l’IA on-device
- Il offre une prise en charge multimodale native des entrées texte, image, audio et vidéo, avec sortie texte
- Conçu pour maximiser l’efficacité, il est disponible en deux tailles, E2B (5B paramètres) et E4B (8B paramètres), et peut fonctionner avec peu de mémoire (2 Go ou 3 Go)
- Il intègre des architectures innovantes comme MatFormer, Per Layer Embeddings, LAuReL et AltUp, ainsi que de nouveaux encodeurs audio et vision
- Prise en charge de 140 langues, compréhension multimodale dans 35 langues, meilleures capacités en mathématiques, code et raisonnement, et un score LMArena supérieur à 1300 pour E4B
MatFormer : un seul modèle, plusieurs tailles
- L’architecture MatFormer (🪆Matryoshka Transformer) est une nouvelle structure de transformer conçue pour l’extensibilité et la flexibilité
- Elle exploite le principe des poupées russes Matriochka, où de petits modèles sont intégrés de manière autonome à l’intérieur d’un grand modèle
- Lors de l’entraînement de E4B, le sous-modèle E2B est optimisé en même temps, ce qui permet d’éviter le téléchargement d’un modèle pré-extrait séparé et d’obtenir jusqu’à 2x plus de vitesse en inférence
- Avec l’approche Mix-n-Match, il est possible de créer des modèles intermédiaires personnalisés adaptés aux contraintes matérielles, en utilisant des réseaux feed-forward ou des sauts de couches
- MatFormer Lab permet de vérifier les réglages optimaux sur la base de benchmarks et de générer des modèles
- À l’avenir, la prise en charge de l’elastic execution (changement dynamique de la taille du modèle en temps réel) est également prévue
Per-Layer Embeddings (PLE) : efficacité mémoire maximale on-device
- Les Per-Layer Embeddings (embeddings par couche) améliorent la qualité en déploiement on-device tout en minimisant l’usage mémoire
- Sur l’ensemble des paramètres (5B/8B), seuls les embeddings sont chargés et traités efficacement sur CPU, tandis que le cœur transformer (2B/4B) reste en VRAM
- Cela permet de fonctionner sans perte de qualité avec une mémoire bien plus réduite qu’auparavant, l’accélérateur n’ayant à gérer qu’environ 2B paramètres
KV Cache Sharing : optimisation des entrées à long contexte
- Gemma 3n ajoute une fonctionnalité de KV Cache Sharing pour traiter rapidement les entrées séquentielles longues, comme l’audio ou la vidéo
- Lors de l’étape de prefill (traitement initial de l’entrée), le cache KV des couches intermédiaires est partagé directement avec les couches supérieures, ce qui améliore les performances de plus de 2x
- Les prompts à longue séquence sont ainsi traités plus vite qu’auparavant, ce qui améliore la réactivité des applications multimodales en temps réel
Reconnaissance audio : prise en charge du STT et de la traduction
- Il intègre un encodeur audio basé sur le Universal Speech Model (USM), qui utilise des tokens audio par tranches de 160 ms comme entrée du modèle de langage
- Il permet de mettre en œuvre on-device une reconnaissance vocale haute qualité (ASR) et une traduction vocale (AST)
- De hautes performances ont été observées sur des paires de langues majeures, notamment anglais↔espagnol, français, italien et portugais
- L’utilisation de prompts de type Chain-of-Thought peut améliorer la qualité de traduction
- À son lancement, l’encodeur audio prend en charge des clips jusqu’à 30 secondes, avec une extension prévue vers des traitements en streaming plus longs
MobileNet-V5 : encodeur vision de dernière génération
- MobileNet-V5-300M, intégré à Gemma 3n, est un encodeur vision à haute efficacité offrant de solides performances même sur les appareils edge
- Il prend en charge différentes résolutions d’entrée, comme 256x256, 512x512 et 768x768 pixels, pour ajuster le niveau de détail et les performances selon les besoins
- Grâce à un entraînement conjoint sur de vastes jeux de données multimodaux, il offre une compréhension étendue des images et vidéos et de bonnes capacités sur des tâches visuelles précises
- Une analyse temps réel à 60 images par seconde est possible sur Google Pixel
- Côté architecture, il applique de nombreuses innovations, comme des blocs basés sur MobileNet-V4 (universal inverted bottleneck, Mobile MQA), une structure pyramidale hybride et un adaptateur VLM Multi-Scale Fusion
- Par rapport à SoViT (baseline de Gemma 3), il est 13x plus rapide, réduit les paramètres de 46 %, utilise 4x moins de mémoire et atteint une meilleure précision
- Des informations supplémentaires sur l’architecture, les stratégies d’extension des données et les techniques de distillation deep learning seront publiées dans le rapport technique
Mise en pratique et utilisation
- Essayer directement dans AI Studio : https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
- Téléchargement/déploiement du modèle : disponible immédiatement sur Hugging Face, Kaggle, Ollama, llama.cpp, etc.
- Intégration avec outils et frameworks : prise en charge de Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth et de la plupart des autres environnements
- Déploiement API et cloud : disponible dans divers environnements comme Google GenAI API, Vertex AI et NVIDIA API
Principaux scénarios d’usage on-device
- Assistant IA temps réel sur smartphone ou appareil edge, traducteur vocal, chatbot multimodal, analyse visuelle en temps réel, IoT
- Intégration de services IA dans des environnements à ressources limitées
- Innovation IA dans des environnements hors ligne ou contraints par le réseau
Ressources développeur
- Documentation officielle
- Téléchargement du modèle (HF)
- MatFormer Lab
- Essayer dans Google AI Studio
- Intégration avec l’écosystème open source, Ollama, MLX, llama.cpp, etc.
Gemma 3n Impact Challenge
- Organisation d’un concours de développement de produits à impact social concret exploitant les capacités on-device, hors ligne et multimodales
- Prix de $150,000, soumission vidéo et démo requise : https://www.kaggle.com/competitions/google-gemma-3n-hackathon
1 commentaires
Avis Hacker News
./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0. Je prépare aussi une démo Colab pour l’inference + le finetuning. Gemma 3N prend en charge l’audio, le texte et la vision, ce qui est vraiment impressionnant. Plus de détails ici : https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tunejinjaici