10 points par GN⁺ 28 일 전 | 2 commentaires | Partager sur WhatsApp
  • Google DeepMind a annoncé Gemma 4, le modèle d’IA ouvert de nouvelle génération basé sur la technologie de Gemini 3, conçu avec une architecture qui maximise l’efficacité de l’intelligence par paramètre
  • Le modèle est proposé en quatre tailles, E2B, E4B, 26B et 31B, et prend en charge une large plage d’exécution, du mobile et de l’IoT jusqu’aux environnements GPU personnels
  • Il inclut comme fonctions clés le raisonnement multimodal, la prise en charge de 140 langues, les workflows agentiques, le fine-tuning de précision et une architecture efficace
  • Les performances ont fortement progressé par rapport à Gemma 3 dans les domaines des mathématiques, du code et de la compréhension multimodale, tout en conservant des standards de sécurité et de fiabilité au même niveau que les modèles commerciaux de Google
  • Les poids du modèle peuvent être téléchargés depuis Hugging Face, Ollama, Kaggle, LM Studio, Docker, avec prise en charge d’une exécution intégrée en local comme dans le cloud

Gemma 4 — le modèle d’IA ouvert de nouvelle génération

  • Gemma 4 est le dernier modèle ouvert de Google DeepMind, développé à partir des recherches et technologies de Gemini 3, avec une architecture qui maximise l’efficacité de l’intelligence par paramètre (intelligence-per-parameter)
  • Le modèle est disponible en quatre tailles, E2B, E4B, 26B et 31B, et peut être exécuté dans des environnements variés, du mobile et de l’IoT jusqu’aux stations de travail personnelles
  • Il intègre comme fonctions principales le raisonnement multimodal, la prise en charge de 140 langues, les workflows agentiques, le fine-tuning de précision et une architecture efficace
  • Dans les benchmarks de performance, il enregistre une progression globale par rapport à Gemma 3, avec notamment de très bons scores en mathématiques, en code et en compréhension multimodale
  • Les standards de sécurité et de fiabilité restent au même niveau que ceux des modèles commerciaux de Google, et les poids du modèle peuvent être téléchargés depuis Hugging Face, Ollama, Kaggle, LM Studio, Docker, etc.

Composition du modèle et efficacité

  • Gemma 4 est conçu sur la base technologique de Gemini 3 et adopte une architecture de modèle ouvert pensée pour maximiser l’efficacité de l’intelligence
  • Le modèle se décline en quatre versions, E2B, E4B, 26B et 31B, chacune optimisée selon les ressources de calcul et l’efficacité mémoire
    • E2B et E4B : pour les appareils mobiles et IoT, avec efficacité maximale et exécution hors ligne
    • 26B et 31B : fournissent des capacités de raisonnement de niveau frontier dans des environnements GPU personnels

Fonctions clés

  • Agentic workflows

    • Prend en charge nativement le function calling, ce qui permet de construire des agents autonomes capables de planifier, naviguer dans des applications et exécuter des tâches à la place de l’utilisateur
  • Multimodal reasoning

    • Combine des capacités de compréhension audio et visuelle pour faciliter le développement d’applications multimodales riches
  • Support for 140 languages

    • Permet de créer des expériences multilingues allant au-delà de la simple traduction, avec prise en compte du contexte culturel
  • Fine tuning

    • Permet un fine-tuning avec les frameworks et méthodes préférés de l’utilisateur afin d’améliorer les performances sur des tâches spécifiques
  • Efficient architecture

    • Peut s’exécuter sur du matériel interne/propre et offre un environnement de développement et de déploiement efficace

Performances

  • Gemma 4 a été évalué à partir de divers jeux de données et métriques liés à la génération de texte
  • Principaux résultats de benchmark (sur la base de Gemma 4 31B IT) :
    • Arena AI (text) : 1452 (contre 1365 pour Gemma 3 27B)
    • MMMLU (Q&R multilingue) : 85.2%
    • MMMU Pro (raisonnement multimodal) : 76.9%
    • AIME 2026 (mathématiques) : 89.2%
    • LiveCodeBench v6 (problèmes de code) : 80.0%
    • GPQA Diamond (connaissances scientifiques) : 84.3%
    • τ2-bench (utilisation d’outils par des agents) : 86.4%
  • Globalement, Gemma 4 affiche une amélioration des performances sur tous les indicateurs par rapport à Gemma 3, avec des progrès particulièrement marqués en mathématiques, code et compréhension multimodale

E2B et E4B — pour le mobile et l’IoT

  • La prise en charge audio et vision permet un traitement en temps réel sur des appareils edge
  • Offre une exécution entièrement hors ligne et une latence quasi nulle sur des appareils comme les smartphones, Raspberry Pi et Jetson Nano
  • Peut être testé via Google AI Edge Gallery

26B et 31B — IA locale haute performance

  • Fournissent des capacités avancées de raisonnement adaptées aux IDE, assistants de code et workflows agentiques
  • Optimisés pour les GPU grand public, ils permettent aux étudiants, chercheurs et développeurs de mettre en place un environnement de serveur IA local
  • Peuvent être exécutés directement dans Google AI Studio

Sécurité et fiabilité

  • Gemma 4 applique les mêmes protocoles de sécurité d’infrastructure que les modèles commerciaux de Google
  • Fournit une base transparente et fiable utilisable par les entreprises et les organismes publics
  • Propose des fonctions d’IA de pointe tout en respectant les plus hauts standards de sécurité et de fiabilité

Téléchargement et exécution

  • Téléchargement des poids du modèle

    • Les poids de Gemma 4 sont disponibles sur Hugging Face, Ollama, Kaggle, LM Studio et Docker Hub
  • Support pour l’entraînement et le déploiement

    • Intégration avec diverses plateformes comme Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine et Ollama
    • La documentation officielle et les API permettent de configurer des environnements d’entraînement, de déploiement et d’inférence

Communauté Gemmaverse

  • Gemmaverse permet d’explorer des projets construits avec Gemma par des développeurs du monde entier
  • Les dernières mises à jour sont diffusées via les canaux X, Instagram, YouTube, LinkedIn et GitHub de Google DeepMind
  • Il est possible de s’abonner pour recevoir les dernières nouveautés en matière d’innovation IA

2 commentaires

 
GN⁺ 28 일 전
Avis Hacker News
  • Publication d’une version de Gemma 4 qui intègre le reasoning, le multimodal et l’appel d’outils
    Les modèles quantifiés peuvent être téléchargés depuis la collection Hugging Face, avec en complément le guide Unsloth
    Les paramètres recommandés sont temperature=1.0, top_p=0.95, top_k=64, l’EOS est " et la trace de réflexion utilise <|channel>thought\n

    • Le travail de Daniel est en train de changer le monde
      J’ai mis en place un pipeline OCR·embeddings·résumé pour rendre consultables des registres fonciers du XIXe siècle
      Grâce à GGUF et llama.cpp, la recherche multilingue est devenue possible, et un temps d’attente d’une minute par traitement ne me pose aucun problème
    • J’ai essayé de désactiver le « thinking » dans llama.cpp, mais --reasoning-budget 0 et --chat-template-kwargs '{"enable_thinking":false}' ne fonctionnaient pas
      J’ai découvert qu’il fallait utiliser le nouveau flag --reasoning off
      J’ai testé unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL sur un MacBook Air M4 (32 Go), et c’était bien plus impressionnant que qwen3.5-35b-a3b
    • La capture d’écran de l’étape « Search and download Gemma 4 » dans le guide montre qwen3.5, et dans Unsloth Studio on ne voit que les modèles Gemma 3
    • Question de débutant, mais je me demande pourquoi il faudrait utiliser cette version plutôt que le modèle d’origine
    • En installant Gemma 4 avec Unsloth sur Windows 11, une erreur s’est produite à l’étape de définition du mot de passe
      PowerShell avait installé plusieurs composants puis demandé d’ouvrir une URL localhost, mais juste après cela a échoué
      Je ne suis pas développeur et j’ai du mal avec PowerShell, donc ce serait bien d’avoir une distribution sous forme de fichier exécutable unique (.exe)
  • J’ai testé les modèles Gemma 4 dans LM Studio
    Les modèles 2B et 4B ont produit d’étranges images de pélican, tandis que le modèle 26B-A4B a donné les meilleurs résultats que j’aie vus jusqu’ici
    Je partage les résultats des tests
    Le modèle 31B n’affichait que "---\n" en local, mais fonctionnait normalement via l’API AI Studio

    • Grâce au benchmark du pélican, je vais vérifier les commentaires Hacker News à chaque sortie de modèle
    • Je me demande si le pélican ne fait pas désormais partie des données d’entraînement
    • Ce serait bien d’avoir une page galerie pour voir toutes les images de pélican d’un coup
      Par exemple : clocks.brianmoore.com
    • En utilisant la version instruction-tuned, la qualité des pélicans serait sans doute bien meilleure
    • Je me demande sur quelle configuration de laptop cela a tourné
  • J’ai préparé un tableau comparatif des benchmarks de Gemma 4 et Qwen 3.5
    Il inclut divers indicateurs comme MMLU-Pro, GPQA et Codeforces ELO

    • Le score ELO diffère fortement du graphique de tfa
      En comparant Qwen 3.5-27B avec Gemma 4 26B/31B, certains résultats sont inversés
      Le fait que l’équipe Unsloth ait publié rapidement les GGUF est impressionnant, et si Gemma 4 est du niveau de Qwen 3.5, c’est très encourageant
    • Avec un GPU de 24 Go, je ne sais pas très bien quel modèle choisir à partir de ce tableau
    • Inverser l’axe et retirer certains modèles peut au contraire induire en erreur
      Les petits modèles Gemma sont bien plus faibles que les petits modèles de Qwen
      Voir Qwen3.5-4B et le thread Reddit sur Gemma 4
  • Je fais partie de l’équipe Gemma et j’ai participé à cette release majeure
    Je peux répondre aux questions si besoin

    • Je me demande s’il est prévu de sortir une version avec quantization-aware training (QAT) comme pour Gemma 3
      Voir le blog associé
    • Je me demande pourquoi la version 12B a disparu cette fois
      J’attendais un modèle intermédiaire capable de concurrencer Qwen3.5 9B
    • Je me demande si une « release à numéro majeur » signifie réellement une augmentation de l’échelle de calcul, ou plutôt un passage à une nouvelle architecture
    • On demande s’il y a une raison au score plus faible sur les benchmarks autres que l’ELO
      Peut-être que les benchmarks eux-mêmes biaisent la comparaison
    • Dans mes tests personnels, les performances étaient presque équivalentes à Gemini 3 Pro, pour un coût dix fois inférieur
      Lien de comparaison
  • J’ai comparé Gemma 4 et Qwen 3.5 avec un prompt de calcul de timestamp Unix
    Qwen a réfléchi plus de 8 minutes avant de donner la bonne réponse, tandis que Gemma a donné un mauvais résultat en 30 secondes
    Gemma a écrit un script Python sans pouvoir l’exécuter, ce qui a conduit à une mauvaise réponse

    • Pour qu’un modèle exécute réellement du code, il faut un environnement agentic harness avec sandboxing et spécification fournie
      Sinon, il ne peut que deviner
    • La commande date fonctionne correctement dans un environnement GNU
      Sur macOS, il faut installer gdate (brew install coreutils)
    • Sur une RX 9070 XT (24 Go de VRAM), j’ai obtenu le bon résultat même sans outils
      Lien gist
    • L’auteur du commentaire initial n’avait pas réellement donné au modèle le droit d’exécuter des commandes
      Le modèle n’avait fait que les « exécuter » en imagination
    • La dernière phrase m’a fait rire
  • MAX nightly de Modular est l’implémentation open source la plus rapide sur Blackwell et AMD MI355
    Selon le blog de Modular, il s’installe directement via pip

    • On demande si c’est plus rapide que TensorRT-LLM, ou s’il y a une raison de ne pas considérer TensorRT-LLM comme open source
    • Je me demande quel est le gain de vitesse par rapport à PyTorch
  • Le benchmark centré sur l’ELO de Gemma 4 est susceptible d’induire en erreur
    Sur la plupart des indicateurs, il est en dessous de Qwen 3.5 27B
    En revanche, les modèles 2B et 4B sont intéressants pour l’ASR ou l’OCR

    • Les benchmarks publics sont faciles à manipuler
      Personnellement, je fais davantage confiance aux scores Lmarena (évaluation humaine)
    • Dans mes tests personnels, les résultats étaient plutôt bons hors codage
      Lien de comparaison
    • Les modèles chinois ont de mauvaises performances sur des tests privés comme arc-agi 2
    • Les benchmarks ne sont qu’un repère ; le plus fiable reste de tester directement sur ses propres cas d’usage
    • On ne voit pas clairement ce que signifie exactement « ELO Score » comme indicateur
  • La release que j’attendais est enfin arrivée
    Avec encore une ou deux itérations, elle pourrait répondre à la plupart des besoins, même en self-hosting

    • Je suis d’accord, mais mes « besoins quotidiens » deviennent plus complexes chaque année
      Avant, un simple système de questions-réponses me suffisait, mais maintenant j’en attends un niveau de coding agent
      Les modèles ouverts n’en sont pas encore là, mais cette release est prometteuse
    • Gemma3:27b et Qwen3-vl:30b-a3b sont les LLM locaux que j’utilise le plus souvent
      Ils prennent en charge l’essentiel de mes tâches de traduction, classification et catégorisation
    • Je me demande pour quels types de tâches le self-hosting est utilisé
  • Le meilleur point de cette release, c’est la licence Apache 2.0
    Il y a les modèles E2B·E4B (mobile), 26B-A4B (MoE) et 31B (grand dense)
    Les versions mobiles prennent en charge l’entrée audio, et le 31B est performant pour les tâches agentiques
    Le 26B-A4B a une efficacité VRAM comparable mais une vitesse d’inférence bien supérieure

  • J’ai comparé Gemma 4 26B et Qwen 3.5 27B sur un petit projet Rust
    Qwen a abandonné après plus d’une heure, Gemma après 20 minutes
    D’après le résumé de Codex, Qwen présente une meilleure complétude structurelle, tandis que Gemma est plus rapide mais inachevé
    Je suis d’accord avec cette évaluation

    • En ce moment, un bug de chat template rend l’appel d’outils instable
      Voir la PR associée et l’issue
      Il ne faut pas se précipiter pour juger au tout début de la sortie
    • Qwen 3.5 27B est un modèle dense, donc la bonne comparaison est avec Gemma 4 31B
      Le 26B-A4B devrait être comparé à Qwen 3.5 35B-A3B
    • Qwen est dense, tandis que Gemma utilise une architecture MoE, donc la comparaison directe est difficile
 
eoeoe 28 일 전

La rumeur des 120b n’était malheureusement pas vraie.