Publication du modèle GLM-4.7-Flash
(huggingface.co)- GLM-4.7-Flash est un grand modèle de langage doté d’une architecture MoE 30B-A3B, qui offre un équilibre entre performances et efficacité en tant que modèle léger pour le déploiement
- Il a obtenu d’excellents scores dans divers benchmarks comme AIME 25, GPQA et SWE-bench, avec des résultats compétitifs face à des modèles de la même catégorie (Qwen3-30B/GPT-OSS-20B)
- Il vise un niveau de performance parmi les meilleurs des modèles de classe 30B et constitue une avancée importante pour la recherche en IA open source et l’optimisation de l’efficacité du déploiement
Introduction
- GLM-4.7-Flash est un modèle Mixture-of-Experts (MoE) 30B-A3B, conçu pour viser les meilleures performances parmi les modèles de classe 30B
- Il propose une option légère de déploiement axée sur l’équilibre entre performances et efficacité
- Sa conception permet une utilisation plus efficace des grands modèles
Performances sur les benchmarks
- Présentation des performances de GLM-4.7-Flash dans divers benchmarks standards
- AIME 25 : 91.6 (Qwen3-30B-A3B-Thinking-2507 obtient 85.0, GPT-OSS-20B 91.7)
- GPQA : 75.2 (supérieur aux modèles de comparaison)
- LCB v6 : 64.0
- HLE : 14.4
- SWE-bench Verified : 59.2 (écart important par rapport aux autres modèles)
- τ²-Bench : 79.5
- BrowseComp : 42.8
- Sur plusieurs critères, il affiche de meilleurs résultats que Qwen3-30B-A3B-Thinking-2507 et GPT-OSS-20B
Déployer GLM-4.7-Flash en local
- GLM-4.7-Flash prend en charge les frameworks d’inférence vLLM et SGLang
- Les deux frameworks sont pris en charge uniquement sur la branche principale
- Consulter les instructions de déploiement dans le dépôt GitHub officiel (zai-org/GLM-4.5)
4 commentaires
Pour 30B… il faut combien de VRAM ? T_T
Comme c’est un 30B A3B, ce n’est pas si lourd que ça.
Il faut quand même disposer d’un espace pour 30B, mais une fois cet espace assuré, les paramètres actifs ne sont que de 3B, donc c’est rapide.
Du coup, il me semble avoir déjà vu des méthodes d’optimisation qui consistent à ne charger dans la VRAM que les couches les plus utilisées.
VRAM 24 Go..? Ou, sur un Mac, 32 Go de RAM semblent être le minimum.
Avis Hacker News
J’ai assez de VRAM pour utiliser confortablement un contexte de 128k
Jusqu’ici, Qwen3-coder m’a donné les meilleurs résultats. Nemotron 3 Nano est censé être meilleur sur les benchmarks, mais pour mon usage principal, à savoir « écrire du code de test », je n’ai pas senti de grande différence
Je l’essaierai si quelqu’un le quantifie en 4bit GGUF. Codex a une qualité élevée mais il est trop lent. J’espère que les petits modèles continueront à s’améliorer non seulement sur les benchmarks simples, mais aussi en qualité réelle
J’utilise à la fois claude-code et opencode, mais récemment je me sers davantage d’opencode. claude-code est optimisé pour les modèles d’Anthropic
Cette version est la déclinaison « -Flash » ; après la 4.5-Flash, ils ont sauté la 4.6-Flash pour passer directement à celle-ci. D’après la documentation, c’est un modèle équivalent à Haiku, défini comme
ANTHROPIC_DEFAULT_HAIKU_MODELLes modèles ouverts ont encore environ un an de retard sur les benchmarks, mais à long terme c’est intéressant
GLM a 355B paramètres dont seulement 31B activés, donc le self-host est difficile, mais je pense que c’est un bon candidat pour être utilisé via un endpoint Cerebras
Les tokens mis en cache sont aussi facturés, donc j’ai dépensé 4 $ pour une seule tâche simple. Avec GPT-5.2-Codex, ça m’aurait coûté moins de 0,5 $
Sur deux prompts de code, il a généré du code incorrect et des boucles infinies. C’est peut-être un problème de quantification dans LMStudio, mais la première impression n’est pas bonne
Liens utiles : llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends Ensuite, on peut discuter via http://127.0.0.1:8080 ou y accéder via une API compatible OpenAI
En revanche, juste après la sortie d’un nouveau modèle, il peut y avoir des bugs, donc je recommande d’attendre quelques jours avant de mettre à jour
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. C’est rapide, mais le template n’est pas encore finalisé, donc la sortie est désordonnée. J’attends qu’un template officiel arrive sur ollama.com« GLM-4.7-Flash est un modèle léger et à haute efficacité, la version gratuite de GLM-4.7, et il offre une faible latence et un haut débit pour les tâches de code, de raisonnement et de génération.
Il affiche aussi de solides performances en traduction, roleplay et génération esthétique. »
Voir les détails dans les notes de release officielles
il est désormais possible de faire tourner localement sur un MacBook avec 32 Go de RAM une IA du niveau de GPT-5-mini
Et le coût du LLM-as-a-service devient bien plus bas — autour de 1/10 du prix de Haiku 4.5
GLM 4.7 est suffisant au quotidien, mais son compréhension des consignes est parfois frustrante