Google dévoile Gemma 4, son modèle ouvert

(deepmind.google)

10 points par GN⁺ 2026-04-03 | 2 commentaires | Partager sur WhatsApp

Google DeepMind a annoncé Gemma 4, le modèle d’IA ouvert de nouvelle génération basé sur la technologie de Gemini 3, conçu avec une architecture qui maximise l’efficacité de l’intelligence par paramètre
Le modèle est proposé en quatre tailles, E2B, E4B, 26B et 31B, et prend en charge une large plage d’exécution, du mobile et de l’IoT jusqu’aux environnements GPU personnels
Il inclut comme fonctions clés le raisonnement multimodal, la prise en charge de 140 langues, les workflows agentiques, le fine-tuning de précision et une architecture efficace
Les performances ont fortement progressé par rapport à Gemma 3 dans les domaines des mathématiques, du code et de la compréhension multimodale, tout en conservant des standards de sécurité et de fiabilité au même niveau que les modèles commerciaux de Google
Les poids du modèle peuvent être téléchargés depuis Hugging Face, Ollama, Kaggle, LM Studio, Docker, avec prise en charge d’une exécution intégrée en local comme dans le cloud

Gemma 4 — le modèle d’IA ouvert de nouvelle génération

Gemma 4 est le dernier modèle ouvert de Google DeepMind, développé à partir des recherches et technologies de Gemini 3, avec une architecture qui maximise l’efficacité de l’intelligence par paramètre (intelligence-per-parameter)
Le modèle est disponible en quatre tailles, E2B, E4B, 26B et 31B, et peut être exécuté dans des environnements variés, du mobile et de l’IoT jusqu’aux stations de travail personnelles
Il intègre comme fonctions principales le raisonnement multimodal, la prise en charge de 140 langues, les workflows agentiques, le fine-tuning de précision et une architecture efficace
Dans les benchmarks de performance, il enregistre une progression globale par rapport à Gemma 3, avec notamment de très bons scores en mathématiques, en code et en compréhension multimodale
Les standards de sécurité et de fiabilité restent au même niveau que ceux des modèles commerciaux de Google, et les poids du modèle peuvent être téléchargés depuis Hugging Face, Ollama, Kaggle, LM Studio, Docker, etc.

Composition du modèle et efficacité

Gemma 4 est conçu sur la base technologique de Gemini 3 et adopte une architecture de modèle ouvert pensée pour maximiser l’efficacité de l’intelligence
Le modèle se décline en quatre versions, E2B, E4B, 26B et 31B, chacune optimisée selon les ressources de calcul et l’efficacité mémoire
- E2B et E4B : pour les appareils mobiles et IoT, avec efficacité maximale et exécution hors ligne
- 26B et 31B : fournissent des capacités de raisonnement de niveau frontier dans des environnements GPU personnels

Fonctions clés

Agentic workflows
- Prend en charge nativement le function calling, ce qui permet de construire des agents autonomes capables de planifier, naviguer dans des applications et exécuter des tâches à la place de l’utilisateur
Multimodal reasoning
- Combine des capacités de compréhension audio et visuelle pour faciliter le développement d’applications multimodales riches
Support for 140 languages
- Permet de créer des expériences multilingues allant au-delà de la simple traduction, avec prise en compte du contexte culturel
Fine tuning
- Permet un fine-tuning avec les frameworks et méthodes préférés de l’utilisateur afin d’améliorer les performances sur des tâches spécifiques
Efficient architecture
- Peut s’exécuter sur du matériel interne/propre et offre un environnement de développement et de déploiement efficace

Performances

Gemma 4 a été évalué à partir de divers jeux de données et métriques liés à la génération de texte
Principaux résultats de benchmark (sur la base de Gemma 4 31B IT) :
- Arena AI (text) : 1452 (contre 1365 pour Gemma 3 27B)
- MMMLU (Q&R multilingue) : 85.2%
- MMMU Pro (raisonnement multimodal) : 76.9%
- AIME 2026 (mathématiques) : 89.2%
- LiveCodeBench v6 (problèmes de code) : 80.0%
- GPQA Diamond (connaissances scientifiques) : 84.3%
- τ2-bench (utilisation d’outils par des agents) : 86.4%
Globalement, Gemma 4 affiche une amélioration des performances sur tous les indicateurs par rapport à Gemma 3, avec des progrès particulièrement marqués en mathématiques, code et compréhension multimodale

E2B et E4B — pour le mobile et l’IoT

La prise en charge audio et vision permet un traitement en temps réel sur des appareils edge
Offre une exécution entièrement hors ligne et une latence quasi nulle sur des appareils comme les smartphones, Raspberry Pi et Jetson Nano
Peut être testé via Google AI Edge Gallery

26B et 31B — IA locale haute performance

Fournissent des capacités avancées de raisonnement adaptées aux IDE, assistants de code et workflows agentiques
Optimisés pour les GPU grand public, ils permettent aux étudiants, chercheurs et développeurs de mettre en place un environnement de serveur IA local
Peuvent être exécutés directement dans Google AI Studio

Sécurité et fiabilité

Gemma 4 applique les mêmes protocoles de sécurité d’infrastructure que les modèles commerciaux de Google
Fournit une base transparente et fiable utilisable par les entreprises et les organismes publics
Propose des fonctions d’IA de pointe tout en respectant les plus hauts standards de sécurité et de fiabilité

Téléchargement et exécution

Téléchargement des poids du modèle
- Les poids de Gemma 4 sont disponibles sur Hugging Face, Ollama, Kaggle, LM Studio et Docker Hub
Support pour l’entraînement et le déploiement
- Intégration avec diverses plateformes comme Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine et Ollama
- La documentation officielle et les API permettent de configurer des environnements d’entraînement, de déploiement et d’inférence

Communauté Gemmaverse

Gemmaverse permet d’explorer des projets construits avec Gemma par des développeurs du monde entier
Les dernières mises à jour sont diffusées via les canaux X, Instagram, YouTube, LinkedIn et GitHub de Google DeepMind
Il est possible de s’abonner pour recevoir les dernières nouveautés en matière d’innovation IA

2 commentaires

GN⁺ 2026-04-03

Avis Hacker News

Publication d’une version de Gemma 4 qui intègre le reasoning, le multimodal et l’appel d’outils
Les modèles quantifiés peuvent être téléchargés depuis la collection Hugging Face, avec en complément le guide Unsloth
Les paramètres recommandés sont temperature=1.0, top_p=0.95, top_k=64, l’EOS est " et la trace de réflexion utilise <|channel>thought\n
- Le travail de Daniel est en train de changer le monde
  J’ai mis en place un pipeline OCR·embeddings·résumé pour rendre consultables des registres fonciers du XIXe siècle
  Grâce à GGUF et llama.cpp, la recherche multilingue est devenue possible, et un temps d’attente d’une minute par traitement ne me pose aucun problème
- J’ai essayé de désactiver le « thinking » dans llama.cpp, mais --reasoning-budget 0 et --chat-template-kwargs '{"enable_thinking":false}' ne fonctionnaient pas
  J’ai découvert qu’il fallait utiliser le nouveau flag --reasoning off
  J’ai testé unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL sur un MacBook Air M4 (32 Go), et c’était bien plus impressionnant que qwen3.5-35b-a3b
- La capture d’écran de l’étape « Search and download Gemma 4 » dans le guide montre qwen3.5, et dans Unsloth Studio on ne voit que les modèles Gemma 3
- Question de débutant, mais je me demande pourquoi il faudrait utiliser cette version plutôt que le modèle d’origine
- En installant Gemma 4 avec Unsloth sur Windows 11, une erreur s’est produite à l’étape de définition du mot de passe
  PowerShell avait installé plusieurs composants puis demandé d’ouvrir une URL localhost, mais juste après cela a échoué
  Je ne suis pas développeur et j’ai du mal avec PowerShell, donc ce serait bien d’avoir une distribution sous forme de fichier exécutable unique (.exe)
J’ai testé les modèles Gemma 4 dans LM Studio
Les modèles 2B et 4B ont produit d’étranges images de pélican, tandis que le modèle 26B-A4B a donné les meilleurs résultats que j’aie vus jusqu’ici
Je partage les résultats des tests
Le modèle 31B n’affichait que "---\n" en local, mais fonctionnait normalement via l’API AI Studio
- Grâce au benchmark du pélican, je vais vérifier les commentaires Hacker News à chaque sortie de modèle
- Je me demande si le pélican ne fait pas désormais partie des données d’entraînement
- Ce serait bien d’avoir une page galerie pour voir toutes les images de pélican d’un coup
  Par exemple : clocks.brianmoore.com
- En utilisant la version instruction-tuned, la qualité des pélicans serait sans doute bien meilleure
- Je me demande sur quelle configuration de laptop cela a tourné
J’ai préparé un tableau comparatif des benchmarks de Gemma 4 et Qwen 3.5
Il inclut divers indicateurs comme MMLU-Pro, GPQA et Codeforces ELO
- Le score ELO diffère fortement du graphique de tfa
  En comparant Qwen 3.5-27B avec Gemma 4 26B/31B, certains résultats sont inversés
  Le fait que l’équipe Unsloth ait publié rapidement les GGUF est impressionnant, et si Gemma 4 est du niveau de Qwen 3.5, c’est très encourageant
- Avec un GPU de 24 Go, je ne sais pas très bien quel modèle choisir à partir de ce tableau
- Inverser l’axe et retirer certains modèles peut au contraire induire en erreur
  Les petits modèles Gemma sont bien plus faibles que les petits modèles de Qwen
  Voir Qwen3.5-4B et le thread Reddit sur Gemma 4
Je fais partie de l’équipe Gemma et j’ai participé à cette release majeure
Je peux répondre aux questions si besoin
- Je me demande s’il est prévu de sortir une version avec quantization-aware training (QAT) comme pour Gemma 3
  Voir le blog associé
- Je me demande pourquoi la version 12B a disparu cette fois
  J’attendais un modèle intermédiaire capable de concurrencer Qwen3.5 9B
- Je me demande si une « release à numéro majeur » signifie réellement une augmentation de l’échelle de calcul, ou plutôt un passage à une nouvelle architecture
- On demande s’il y a une raison au score plus faible sur les benchmarks autres que l’ELO
  Peut-être que les benchmarks eux-mêmes biaisent la comparaison
- Dans mes tests personnels, les performances étaient presque équivalentes à Gemini 3 Pro, pour un coût dix fois inférieur
  Lien de comparaison
J’ai comparé Gemma 4 et Qwen 3.5 avec un prompt de calcul de timestamp Unix
Qwen a réfléchi plus de 8 minutes avant de donner la bonne réponse, tandis que Gemma a donné un mauvais résultat en 30 secondes
Gemma a écrit un script Python sans pouvoir l’exécuter, ce qui a conduit à une mauvaise réponse
- Pour qu’un modèle exécute réellement du code, il faut un environnement agentic harness avec sandboxing et spécification fournie
  Sinon, il ne peut que deviner
- La commande date fonctionne correctement dans un environnement GNU
  Sur macOS, il faut installer gdate (brew install coreutils)
- Sur une RX 9070 XT (24 Go de VRAM), j’ai obtenu le bon résultat même sans outils
  Lien gist
- L’auteur du commentaire initial n’avait pas réellement donné au modèle le droit d’exécuter des commandes
  Le modèle n’avait fait que les « exécuter » en imagination
- La dernière phrase m’a fait rire
MAX nightly de Modular est l’implémentation open source la plus rapide sur Blackwell et AMD MI355
Selon le blog de Modular, il s’installe directement via pip
- On demande si c’est plus rapide que TensorRT-LLM, ou s’il y a une raison de ne pas considérer TensorRT-LLM comme open source
- Je me demande quel est le gain de vitesse par rapport à PyTorch
Le benchmark centré sur l’ELO de Gemma 4 est susceptible d’induire en erreur
Sur la plupart des indicateurs, il est en dessous de Qwen 3.5 27B
En revanche, les modèles 2B et 4B sont intéressants pour l’ASR ou l’OCR
- Les benchmarks publics sont faciles à manipuler
  Personnellement, je fais davantage confiance aux scores Lmarena (évaluation humaine)
- Dans mes tests personnels, les résultats étaient plutôt bons hors codage
  Lien de comparaison
- Les modèles chinois ont de mauvaises performances sur des tests privés comme arc-agi 2
- Les benchmarks ne sont qu’un repère ; le plus fiable reste de tester directement sur ses propres cas d’usage
- On ne voit pas clairement ce que signifie exactement « ELO Score » comme indicateur
La release que j’attendais est enfin arrivée
Avec encore une ou deux itérations, elle pourrait répondre à la plupart des besoins, même en self-hosting
- Je suis d’accord, mais mes « besoins quotidiens » deviennent plus complexes chaque année
  Avant, un simple système de questions-réponses me suffisait, mais maintenant j’en attends un niveau de coding agent
  Les modèles ouverts n’en sont pas encore là, mais cette release est prometteuse
- Gemma3:27b et Qwen3-vl:30b-a3b sont les LLM locaux que j’utilise le plus souvent
  Ils prennent en charge l’essentiel de mes tâches de traduction, classification et catégorisation
- Je me demande pour quels types de tâches le self-hosting est utilisé
Le meilleur point de cette release, c’est la licence Apache 2.0
Il y a les modèles E2B·E4B (mobile), 26B-A4B (MoE) et 31B (grand dense)
Les versions mobiles prennent en charge l’entrée audio, et le 31B est performant pour les tâches agentiques
Le 26B-A4B a une efficacité VRAM comparable mais une vitesse d’inférence bien supérieure
J’ai comparé Gemma 4 26B et Qwen 3.5 27B sur un petit projet Rust
Qwen a abandonné après plus d’une heure, Gemma après 20 minutes
D’après le résumé de Codex, Qwen présente une meilleure complétude structurelle, tandis que Gemma est plus rapide mais inachevé
Je suis d’accord avec cette évaluation
- En ce moment, un bug de chat template rend l’appel d’outils instable
  Voir la PR associée et l’issue
  Il ne faut pas se précipiter pour juger au tout début de la sortie
- Qwen 3.5 27B est un modèle dense, donc la bonne comparaison est avec Gemma 4 31B
  Le 26B-A4B devrait être comparé à Qwen 3.5 35B-A3B
- Qwen est dense, tandis que Gemma utilise une architecture MoE, donc la comparaison directe est difficile

eoeoe 2026-04-03

La rumeur des 120b n’était malheureusement pas vraie.

Google dévoile Gemma 4, son modèle ouvert

Gemma 4 — le modèle d’IA ouvert de nouvelle génération

Composition du modèle et efficacité

Fonctions clés

Agentic workflows

Multimodal reasoning

Support for 140 languages

Fine tuning

Efficient architecture

Performances

E2B et E4B — pour le mobile et l’IoT

26B et 31B — IA locale haute performance

Sécurité et fiabilité

Téléchargement et exécution

Téléchargement des poids du modèle

Support pour l’entraînement et le déploiement

Communauté Gemmaverse

À lire aussi

2 commentaires

Avis Hacker News