- Le modèle d’ingénierie agentique de nouvelle génération GLM-5.1 est une version flagship qui renforce fortement les capacités de codage et de résolution de problèmes, conçue autour de l’optimisation à long terme et de l’amélioration continue
- Il affiche des performances de tout premier plan sur des benchmarks majeurs comme SWE-Bench Pro, NL2Repo et Terminal-Bench 2.0, tout en conservant une persistance productive même lors d’exécutions itératives de longue durée
- Sur VectorDBBench, KernelBench et des scénarios de création de web apps, il continue d’améliorer ses performances au fil de centaines à milliers d’itérations, en éliminant les goulets d’étranglement grâce à l’analyse de ses propres logs et à l’ajustement de sa stratégie
- Le modèle fonctionne efficacement même sur des tâches complexes de software engineering grâce à l’auto-évaluation et aux changements structurels, et la qualité des résultats s’améliore régulièrement au cours des exécutions longues
- Publié en open source sous licence MIT, il peut être utilisé sur diverses plateformes et frameworks, et est présenté comme une nouvelle référence pour les modèles d’IA optimisés pour le long terme
Vue d’ensemble de GLM-5.1
- GLM-5.1 est un modèle de nouvelle génération d’ingénierie agentique (agentic engineering), et le modèle flagship dont les performances en codage progressent fortement par rapport à la version précédente
- Il atteint les meilleures performances sur SWE-Bench Pro et prend aussi une nette avance sur GLM-5 dans NL2Repo (création de dépôts) et Terminal-Bench 2.0 (travail réel en terminal)
- Au-delà des performances en une seule exécution, il a été conçu en mettant l’accent sur la capacité d’optimisation à long terme et la résolution continue de problèmes
- Il juge mieux les problèmes ambigus, maintient sa productivité dans les longues sessions et continue d’améliorer ses performances même après des centaines d’itérations grâce à des expérimentations répétées et des ajustements de stratégie
- Sa structure est conçue pour améliorer les résultats à mesure que le temps d’exécution s’allonge, avec comme caractéristique centrale une capacité long-horizon
Tâches complexes de software engineering
- GLM-5.1 atteint des performances de premier plan sur des tâches complexes de software engineering
- Là où les modèles précédents stagnent rapidement après une amélioration initiale, GLM-5.1 conserve son efficacité même dans des tâches agentiques de longue durée
- Le modèle découpe les problèmes, mène des expérimentations, analyse les résultats pour identifier les goulets d’étranglement, puis ajuste sa stratégie via un raisonnement itératif
- Cela est démontré sur trois tâches progressivement moins structurées
- Problème d’optimisation de recherche vectorielle (sur la base d’un indicateur numérique unique)
- Benchmark de noyaux GPU (mesure du gain de vitesse par problème)
- Construction d’une application web (amélioration fondée sur son propre jugement, sans métrique explicite)
Scénario 1 : optimisation d’une base de données vectorielle en 600 itérations
- VectorDBBench est un challenge open source qui évalue les capacités de codage d’un modèle pour construire une base de données haute performance destinée à la recherche approximative de plus proches voisins
- Le modèle reçoit un squelette de code en Rust et des endpoints d’API HTTP, puis effectue lecture/écriture de fichiers, compilation, tests et profiling dans une limite de 50 tool calls
- La meilleure performance précédente était de 3 547 QPS (Recall ≥ 95 %) pour Claude Opus 4.6
- GLM-5.1 ajoute une boucle d’optimisation externe pour effectuer plus de 600 itérations (plus de 6 000 tool calls) et atteint finalement 21.5k QPS
- Soit une amélioration d’environ 6× par rapport à une session unique de 50 appels
- Le processus d’amélioration des performances suit un schéma en escalier, alternant réglages progressifs et changements structurels
- Vers la 90e itération : introduction de l’exploration de clusters IVF + compression vectorielle f16 → 6.4k QPS
- Vers la 240e itération : introduction d’un pipeline en deux étapes u8 prescoring + reranking f16 → 13.4k QPS
- Au total, 6 changements structurels ont eu lieu, chacun résultant de l’identification de goulets d’étranglement par le modèle à partir de l’analyse de ses propres logs
- Les points où le Recall tombe sous 95 % se concentrent principalement lors de l’exploration de nouvelles stratégies
Scénario 2 : optimisation de workloads de machine learning sur plus de 1 000 itérations
- KernelBench évalue la capacité d’un modèle à transformer une implémentation de référence PyTorch en un noyau GPU plus rapide produisant la même sortie
- Il est composé de trois niveaux (Level 1 à 3), le Level 3 incluant l’optimisation de modèles complets comme MobileNet, VGG, MiniGPT et Mamba
- La configuration par défaut de
torch.compileatteint un gain de vitesse de 1.15×, etmax-autotunede 1.49× - GLM-5.1 enregistre un gain de vitesse de 3.6× au Level 3 et maintient des optimisations utiles beaucoup plus longtemps que GLM-5
- GLM-5 grimpe rapidement au début puis stagne, tandis que Claude Opus 4.5 dure plus longtemps mais ralentit en fin de parcours
- Claude Opus 4.6 conserve finalement la meilleure performance avec 4.2×, tout en laissant encore de la marge pour des améliorations supplémentaires
Scénario 3 : création d’une web app de bureau Linux sur 8 heures
- La création de sites web est une tâche subjective sans métrique numérique explicite, où les critères d’évaluation sont le niveau d’aboutissement, la qualité visuelle et la qualité des interactions
- Prompt de test : « Construire un environnement de bureau de style Linux sous forme d’application web »
- Démarrage sans code initial, sans design et sans feedback intermédiaire
- La plupart des modèles se contentent de générer une UI basique puis s’arrêtent, mais GLM-5.1 poursuit une amélioration continue via une boucle de revue et d’amélioration de ses propres résultats
- Il itère pendant 8 heures, en passant d’un layout initial simple à un environnement de bureau complet
- Ajout d’un explorateur de fichiers, d’un terminal, d’un éditeur de texte, d’un moniteur système, d’une calculatrice, de jeux, etc.
- Chaque fonctionnalité est intégrée dans une UI cohérente, tandis que le style et la qualité des interactions s’améliorent progressivement
- Le résultat final est un environnement de bureau complet et visuellement cohérent fonctionnant dans le navigateur
Sens et défis de l’optimisation à long terme
- Dans les trois scénarios, la variable essentielle n’est pas le temps d’exécution lui-même, mais le fait de savoir si le temps supplémentaire reste réellement utile
- GLM-5.1 étend fortement le productive horizon par rapport à GLM-5
- Cependant, certaines tâches comme KernelBench laissent encore une marge d’amélioration
- Défis restants
- Échapper aux optima locaux lorsque le réglage progressif atteint ses limites
- Maintenir la cohérence sur des milliers de tool calls
- Assurer une auto-évaluation fiable sur les tâches sans métrique numérique explicite
- GLM-5.1 est présenté comme une première étape vers cette direction d’optimisation à long terme
Résumé comparatif des benchmarks
- GLM-5.1 surpasse GLM-5 sur les principaux benchmarks de codage, notamment SWE-Bench Pro 58.4, NL2Repo 42.7 et Terminal-Bench 2.0 63.5
- Il se classe parmi les meilleurs face aux modèles concurrents sur l’ensemble des dimensions Reasoning, Coding et Agentic
- Face à des modèles récents comme Claude Opus 4.6, Gemini 3.1 Pro et GPT-5.4, il est proche ou supérieur sur de nombreux points
Publication et mode d’utilisation
- Publication en open source sous licence MIT
- Disponible sur api.z.ai et BigModel.cn, avec compatibilité Claude Code et OpenClaw
- Les abonnés à GLM Coding Plan peuvent l’utiliser immédiatement en changeant le nom du modèle en
"GLM-5.1"- Aux heures de pointe (UTC+8 14:00–18:00), le quota consommé est de 3×, et hors pointe de 2×
- Jusqu’à fin avril, une promotion applique 1× hors pointe
- Z Code est proposé comme environnement GUI, avec prise en charge du développement à distance via SSH et du travail sur mobile
- Les poids du modèle sont publiés sur HuggingFace et ModelScope
- Prise en charge des principaux frameworks d’inférence comme vLLM et SGLang, avec un guide de déploiement disponible sur GitHub
- Disponibilité prochaine également sur la plateforme de chat Z.ai
Paramètres d’évaluation et notes
- HLE et autres tâches de raisonnement : génération maximale de 163 840 tokens, avec GPT-5.2 utilisé comme modèle d’évaluation
- SWE-Bench Pro : fenêtre de contexte de 200K, exécution basée sur OpenHands
- NL2Repo : inclut la détection et le blocage de commandes malveillantes
- Terminal-Bench 2.0 : limite de 16 CPU, 32GB RAM, timeout de 3 heures
- KernelBench Level 3 : environnement GPU H100, limite de 1 200 tool calls, audit indépendant réalisé
- Évaluations indépendantes réalisées sur divers benchmarks externes comme CyberGym, MCP-Atlas, τ³-bench et Vending Bench 2
Aucun commentaire pour le moment.