Google dévoile Gemma 4, son modèle ouvert
(deepmind.google)- Google DeepMind a annoncé Gemma 4, le modèle d’IA ouvert de nouvelle génération basé sur la technologie de Gemini 3, conçu avec une architecture qui maximise l’efficacité de l’intelligence par paramètre
- Le modèle est proposé en quatre tailles, E2B, E4B, 26B et 31B, et prend en charge une large plage d’exécution, du mobile et de l’IoT jusqu’aux environnements GPU personnels
- Il inclut comme fonctions clés le raisonnement multimodal, la prise en charge de 140 langues, les workflows agentiques, le fine-tuning de précision et une architecture efficace
- Les performances ont fortement progressé par rapport à Gemma 3 dans les domaines des mathématiques, du code et de la compréhension multimodale, tout en conservant des standards de sécurité et de fiabilité au même niveau que les modèles commerciaux de Google
- Les poids du modèle peuvent être téléchargés depuis Hugging Face, Ollama, Kaggle, LM Studio, Docker, avec prise en charge d’une exécution intégrée en local comme dans le cloud
Gemma 4 — le modèle d’IA ouvert de nouvelle génération
- Gemma 4 est le dernier modèle ouvert de Google DeepMind, développé à partir des recherches et technologies de Gemini 3, avec une architecture qui maximise l’efficacité de l’intelligence par paramètre (intelligence-per-parameter)
- Le modèle est disponible en quatre tailles, E2B, E4B, 26B et 31B, et peut être exécuté dans des environnements variés, du mobile et de l’IoT jusqu’aux stations de travail personnelles
- Il intègre comme fonctions principales le raisonnement multimodal, la prise en charge de 140 langues, les workflows agentiques, le fine-tuning de précision et une architecture efficace
- Dans les benchmarks de performance, il enregistre une progression globale par rapport à Gemma 3, avec notamment de très bons scores en mathématiques, en code et en compréhension multimodale
- Les standards de sécurité et de fiabilité restent au même niveau que ceux des modèles commerciaux de Google, et les poids du modèle peuvent être téléchargés depuis Hugging Face, Ollama, Kaggle, LM Studio, Docker, etc.
Composition du modèle et efficacité
- Gemma 4 est conçu sur la base technologique de Gemini 3 et adopte une architecture de modèle ouvert pensée pour maximiser l’efficacité de l’intelligence
- Le modèle se décline en quatre versions, E2B, E4B, 26B et 31B, chacune optimisée selon les ressources de calcul et l’efficacité mémoire
- E2B et E4B : pour les appareils mobiles et IoT, avec efficacité maximale et exécution hors ligne
- 26B et 31B : fournissent des capacités de raisonnement de niveau frontier dans des environnements GPU personnels
Fonctions clés
-
Agentic workflows
- Prend en charge nativement le function calling, ce qui permet de construire des agents autonomes capables de planifier, naviguer dans des applications et exécuter des tâches à la place de l’utilisateur
-
Multimodal reasoning
- Combine des capacités de compréhension audio et visuelle pour faciliter le développement d’applications multimodales riches
-
Support for 140 languages
- Permet de créer des expériences multilingues allant au-delà de la simple traduction, avec prise en compte du contexte culturel
-
Fine tuning
- Permet un fine-tuning avec les frameworks et méthodes préférés de l’utilisateur afin d’améliorer les performances sur des tâches spécifiques
-
Efficient architecture
- Peut s’exécuter sur du matériel interne/propre et offre un environnement de développement et de déploiement efficace
Performances
- Gemma 4 a été évalué à partir de divers jeux de données et métriques liés à la génération de texte
- Principaux résultats de benchmark (sur la base de Gemma 4 31B IT) :
- Arena AI (text) : 1452 (contre 1365 pour Gemma 3 27B)
- MMMLU (Q&R multilingue) : 85.2%
- MMMU Pro (raisonnement multimodal) : 76.9%
- AIME 2026 (mathématiques) : 89.2%
- LiveCodeBench v6 (problèmes de code) : 80.0%
- GPQA Diamond (connaissances scientifiques) : 84.3%
- τ2-bench (utilisation d’outils par des agents) : 86.4%
- Globalement, Gemma 4 affiche une amélioration des performances sur tous les indicateurs par rapport à Gemma 3, avec des progrès particulièrement marqués en mathématiques, code et compréhension multimodale
E2B et E4B — pour le mobile et l’IoT
- La prise en charge audio et vision permet un traitement en temps réel sur des appareils edge
- Offre une exécution entièrement hors ligne et une latence quasi nulle sur des appareils comme les smartphones, Raspberry Pi et Jetson Nano
- Peut être testé via Google AI Edge Gallery
26B et 31B — IA locale haute performance
- Fournissent des capacités avancées de raisonnement adaptées aux IDE, assistants de code et workflows agentiques
- Optimisés pour les GPU grand public, ils permettent aux étudiants, chercheurs et développeurs de mettre en place un environnement de serveur IA local
- Peuvent être exécutés directement dans Google AI Studio
Sécurité et fiabilité
- Gemma 4 applique les mêmes protocoles de sécurité d’infrastructure que les modèles commerciaux de Google
- Fournit une base transparente et fiable utilisable par les entreprises et les organismes publics
- Propose des fonctions d’IA de pointe tout en respectant les plus hauts standards de sécurité et de fiabilité
Téléchargement et exécution
-
Téléchargement des poids du modèle
- Les poids de Gemma 4 sont disponibles sur Hugging Face, Ollama, Kaggle, LM Studio et Docker Hub
-
Support pour l’entraînement et le déploiement
- Intégration avec diverses plateformes comme Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine et Ollama
- La documentation officielle et les API permettent de configurer des environnements d’entraînement, de déploiement et d’inférence
Communauté Gemmaverse
- Gemmaverse permet d’explorer des projets construits avec Gemma par des développeurs du monde entier
- Les dernières mises à jour sont diffusées via les canaux X, Instagram, YouTube, LinkedIn et GitHub de Google DeepMind
- Il est possible de s’abonner pour recevoir les dernières nouveautés en matière d’innovation IA
2 commentaires
Avis Hacker News
Publication d’une version de Gemma 4 qui intègre le reasoning, le multimodal et l’appel d’outils
Les modèles quantifiés peuvent être téléchargés depuis la collection Hugging Face, avec en complément le guide Unsloth
Les paramètres recommandés sont temperature=1.0, top_p=0.95, top_k=64, l’EOS est
"et la trace de réflexion utilise<|channel>thought\nJ’ai mis en place un pipeline OCR·embeddings·résumé pour rendre consultables des registres fonciers du XIXe siècle
Grâce à GGUF et llama.cpp, la recherche multilingue est devenue possible, et un temps d’attente d’une minute par traitement ne me pose aucun problème
--reasoning-budget 0et--chat-template-kwargs '{"enable_thinking":false}'ne fonctionnaient pasJ’ai découvert qu’il fallait utiliser le nouveau flag
--reasoning offJ’ai testé unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL sur un MacBook Air M4 (32 Go), et c’était bien plus impressionnant que qwen3.5-35b-a3b
PowerShell avait installé plusieurs composants puis demandé d’ouvrir une URL
localhost, mais juste après cela a échouéJe ne suis pas développeur et j’ai du mal avec PowerShell, donc ce serait bien d’avoir une distribution sous forme de fichier exécutable unique (.exe)
J’ai testé les modèles Gemma 4 dans LM Studio
Les modèles 2B et 4B ont produit d’étranges images de pélican, tandis que le modèle 26B-A4B a donné les meilleurs résultats que j’aie vus jusqu’ici
Je partage les résultats des tests
Le modèle 31B n’affichait que "---\n" en local, mais fonctionnait normalement via l’API AI Studio
Par exemple : clocks.brianmoore.com
J’ai préparé un tableau comparatif des benchmarks de Gemma 4 et Qwen 3.5
Il inclut divers indicateurs comme MMLU-Pro, GPQA et Codeforces ELO
En comparant Qwen 3.5-27B avec Gemma 4 26B/31B, certains résultats sont inversés
Le fait que l’équipe Unsloth ait publié rapidement les GGUF est impressionnant, et si Gemma 4 est du niveau de Qwen 3.5, c’est très encourageant
Les petits modèles Gemma sont bien plus faibles que les petits modèles de Qwen
Voir Qwen3.5-4B et le thread Reddit sur Gemma 4
Je fais partie de l’équipe Gemma et j’ai participé à cette release majeure
Je peux répondre aux questions si besoin
Voir le blog associé
J’attendais un modèle intermédiaire capable de concurrencer Qwen3.5 9B
Peut-être que les benchmarks eux-mêmes biaisent la comparaison
Lien de comparaison
J’ai comparé Gemma 4 et Qwen 3.5 avec un prompt de calcul de timestamp Unix
Qwen a réfléchi plus de 8 minutes avant de donner la bonne réponse, tandis que Gemma a donné un mauvais résultat en 30 secondes
Gemma a écrit un script Python sans pouvoir l’exécuter, ce qui a conduit à une mauvaise réponse
Sinon, il ne peut que deviner
datefonctionne correctement dans un environnement GNUSur macOS, il faut installer
gdate(brew install coreutils)Lien gist
Le modèle n’avait fait que les « exécuter » en imagination
MAX nightly de Modular est l’implémentation open source la plus rapide sur Blackwell et AMD MI355
Selon le blog de Modular, il s’installe directement via pip
Le benchmark centré sur l’ELO de Gemma 4 est susceptible d’induire en erreur
Sur la plupart des indicateurs, il est en dessous de Qwen 3.5 27B
En revanche, les modèles 2B et 4B sont intéressants pour l’ASR ou l’OCR
Personnellement, je fais davantage confiance aux scores Lmarena (évaluation humaine)
Lien de comparaison
La release que j’attendais est enfin arrivée
Avec encore une ou deux itérations, elle pourrait répondre à la plupart des besoins, même en self-hosting
Avant, un simple système de questions-réponses me suffisait, mais maintenant j’en attends un niveau de coding agent
Les modèles ouverts n’en sont pas encore là, mais cette release est prometteuse
Ils prennent en charge l’essentiel de mes tâches de traduction, classification et catégorisation
Le meilleur point de cette release, c’est la licence Apache 2.0
Il y a les modèles E2B·E4B (mobile), 26B-A4B (MoE) et 31B (grand dense)
Les versions mobiles prennent en charge l’entrée audio, et le 31B est performant pour les tâches agentiques
Le 26B-A4B a une efficacité VRAM comparable mais une vitesse d’inférence bien supérieure
J’ai comparé Gemma 4 26B et Qwen 3.5 27B sur un petit projet Rust
Qwen a abandonné après plus d’une heure, Gemma après 20 minutes
D’après le résumé de Codex, Qwen présente une meilleure complétude structurelle, tandis que Gemma est plus rapide mais inachevé
Je suis d’accord avec cette évaluation
Voir la PR associée et l’issue
Il ne faut pas se précipiter pour juger au tout début de la sortie
Le 26B-A4B devrait être comparé à Qwen 3.5 35B-A3B
La rumeur des 120b n’était malheureusement pas vraie.