- GLM-4.7-Flash est un grand modèle de langage doté d’une architecture MoE 30B-A3B, qui offre un équilibre entre performances et efficacité en tant que modèle léger pour le déploiement
- Il a obtenu d’excellents scores dans divers benchmarks comme AIME 25, GPQA et SWE-bench, avec des résultats compétitifs face à des modèles de la même catégorie (Qwen3-30B/GPT-OSS-20B)
- Il vise un niveau de performance parmi les meilleurs des modèles de classe 30B et constitue une avancée importante pour la recherche en IA open source et l’optimisation de l’efficacité du déploiement
Introduction
- GLM-4.7-Flash est un modèle Mixture-of-Experts (MoE) 30B-A3B, conçu pour viser les meilleures performances parmi les modèles de classe 30B
- Il propose une option légère de déploiement axée sur l’équilibre entre performances et efficacité
- Sa conception permet une utilisation plus efficace des grands modèles
Performances sur les benchmarks
- Présentation des performances de GLM-4.7-Flash dans divers benchmarks standards
- AIME 25 : 91.6 (Qwen3-30B-A3B-Thinking-2507 obtient 85.0, GPT-OSS-20B 91.7)
- GPQA : 75.2 (supérieur aux modèles de comparaison)
- LCB v6 : 64.0
- HLE : 14.4
- SWE-bench Verified : 59.2 (écart important par rapport aux autres modèles)
- τ²-Bench : 79.5
- BrowseComp : 42.8
- Sur plusieurs critères, il affiche de meilleurs résultats que Qwen3-30B-A3B-Thinking-2507 et GPT-OSS-20B
Déployer GLM-4.7-Flash en local
- GLM-4.7-Flash prend en charge les frameworks d’inférence vLLM et SGLang
Aucun commentaire pour le moment.