Publication du modèle GLM-4.7-Flash

(huggingface.co)

11 points par GN⁺ 2026-01-20 | Aucun commentaire pour le moment. | Partager sur WhatsApp

GLM-4.7-Flash est un grand modèle de langage doté d’une architecture MoE 30B-A3B, qui offre un équilibre entre performances et efficacité en tant que modèle léger pour le déploiement
Il a obtenu d’excellents scores dans divers benchmarks comme AIME 25, GPQA et SWE-bench, avec des résultats compétitifs face à des modèles de la même catégorie (Qwen3-30B/GPT-OSS-20B)
Il vise un niveau de performance parmi les meilleurs des modèles de classe 30B et constitue une avancée importante pour la recherche en IA open source et l’optimisation de l’efficacité du déploiement

Introduction

GLM-4.7-Flash est un modèle Mixture-of-Experts (MoE) 30B-A3B, conçu pour viser les meilleures performances parmi les modèles de classe 30B
- Il propose une option légère de déploiement axée sur l’équilibre entre performances et efficacité
- Sa conception permet une utilisation plus efficace des grands modèles

Présentation des performances de GLM-4.7-Flash dans divers benchmarks standards
- AIME 25 : 91.6 (Qwen3-30B-A3B-Thinking-2507 obtient 85.0, GPT-OSS-20B 91.7)
- GPQA : 75.2 (supérieur aux modèles de comparaison)
- LCB v6 : 64.0
- HLE : 14.4
- SWE-bench Verified : 59.2 (écart important par rapport aux autres modèles)
- τ²-Bench : 79.5
- BrowseComp : 42.8
Sur plusieurs critères, il affiche de meilleurs résultats que Qwen3-30B-A3B-Thinking-2507 et GPT-OSS-20B

GLM-4.7-Flash prend en charge les frameworks d’inférence vLLM et SGLang
- Les deux frameworks sont pris en charge uniquement sur la branche principale
- Consulter les instructions de déploiement dans le dépôt GitHub officiel (zai-org/GLM-4.5)