GLM-5.1 : une évolution vers l’exécution de tâches de long terme

(z.ai)

8 points par GN⁺ 22 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le modèle d’ingénierie agentique de nouvelle génération GLM-5.1 est une version flagship qui renforce fortement les capacités de codage et de résolution de problèmes, conçue autour de l’optimisation à long terme et de l’amélioration continue
Il affiche des performances de tout premier plan sur des benchmarks majeurs comme SWE-Bench Pro, NL2Repo et Terminal-Bench 2.0, tout en conservant une persistance productive même lors d’exécutions itératives de longue durée
Sur VectorDBBench, KernelBench et des scénarios de création de web apps, il continue d’améliorer ses performances au fil de centaines à milliers d’itérations, en éliminant les goulets d’étranglement grâce à l’analyse de ses propres logs et à l’ajustement de sa stratégie
Le modèle fonctionne efficacement même sur des tâches complexes de software engineering grâce à l’auto-évaluation et aux changements structurels, et la qualité des résultats s’améliore régulièrement au cours des exécutions longues
Publié en open source sous licence MIT, il peut être utilisé sur diverses plateformes et frameworks, et est présenté comme une nouvelle référence pour les modèles d’IA optimisés pour le long terme

Vue d’ensemble de GLM-5.1

GLM-5.1 est un modèle de nouvelle génération d’ingénierie agentique (agentic engineering), et le modèle flagship dont les performances en codage progressent fortement par rapport à la version précédente
Il atteint les meilleures performances sur SWE-Bench Pro et prend aussi une nette avance sur GLM-5 dans NL2Repo (création de dépôts) et Terminal-Bench 2.0 (travail réel en terminal)
Au-delà des performances en une seule exécution, il a été conçu en mettant l’accent sur la capacité d’optimisation à long terme et la résolution continue de problèmes
Il juge mieux les problèmes ambigus, maintient sa productivité dans les longues sessions et continue d’améliorer ses performances même après des centaines d’itérations grâce à des expérimentations répétées et des ajustements de stratégie
Sa structure est conçue pour améliorer les résultats à mesure que le temps d’exécution s’allonge, avec comme caractéristique centrale une capacité long-horizon

Tâches complexes de software engineering

GLM-5.1 atteint des performances de premier plan sur des tâches complexes de software engineering
Là où les modèles précédents stagnent rapidement après une amélioration initiale, GLM-5.1 conserve son efficacité même dans des tâches agentiques de longue durée
Le modèle découpe les problèmes, mène des expérimentations, analyse les résultats pour identifier les goulets d’étranglement, puis ajuste sa stratégie via un raisonnement itératif
Cela est démontré sur trois tâches progressivement moins structurées
- Problème d’optimisation de recherche vectorielle (sur la base d’un indicateur numérique unique)
- Benchmark de noyaux GPU (mesure du gain de vitesse par problème)
- Construction d’une application web (amélioration fondée sur son propre jugement, sans métrique explicite)

Scénario 1 : optimisation d’une base de données vectorielle en 600 itérations

VectorDBBench est un challenge open source qui évalue les capacités de codage d’un modèle pour construire une base de données haute performance destinée à la recherche approximative de plus proches voisins
Le modèle reçoit un squelette de code en Rust et des endpoints d’API HTTP, puis effectue lecture/écriture de fichiers, compilation, tests et profiling dans une limite de 50 tool calls
La meilleure performance précédente était de 3 547 QPS (Recall ≥ 95 %) pour Claude Opus 4.6
GLM-5.1 ajoute une boucle d’optimisation externe pour effectuer plus de 600 itérations (plus de 6 000 tool calls) et atteint finalement 21.5k QPS
- Soit une amélioration d’environ 6× par rapport à une session unique de 50 appels
Le processus d’amélioration des performances suit un schéma en escalier, alternant réglages progressifs et changements structurels
- Vers la 90e itération : introduction de l’exploration de clusters IVF + compression vectorielle f16 → 6.4k QPS
- Vers la 240e itération : introduction d’un pipeline en deux étapes u8 prescoring + reranking f16 → 13.4k QPS
Au total, 6 changements structurels ont eu lieu, chacun résultant de l’identification de goulets d’étranglement par le modèle à partir de l’analyse de ses propres logs
Les points où le Recall tombe sous 95 % se concentrent principalement lors de l’exploration de nouvelles stratégies

Scénario 2 : optimisation de workloads de machine learning sur plus de 1 000 itérations

KernelBench évalue la capacité d’un modèle à transformer une implémentation de référence PyTorch en un noyau GPU plus rapide produisant la même sortie
Il est composé de trois niveaux (Level 1 à 3), le Level 3 incluant l’optimisation de modèles complets comme MobileNet, VGG, MiniGPT et Mamba
La configuration par défaut de torch.compile atteint un gain de vitesse de 1.15×, et max-autotune de 1.49×
GLM-5.1 enregistre un gain de vitesse de 3.6× au Level 3 et maintient des optimisations utiles beaucoup plus longtemps que GLM-5
GLM-5 grimpe rapidement au début puis stagne, tandis que Claude Opus 4.5 dure plus longtemps mais ralentit en fin de parcours
Claude Opus 4.6 conserve finalement la meilleure performance avec 4.2×, tout en laissant encore de la marge pour des améliorations supplémentaires

Scénario 3 : création d’une web app de bureau Linux sur 8 heures

La création de sites web est une tâche subjective sans métrique numérique explicite, où les critères d’évaluation sont le niveau d’aboutissement, la qualité visuelle et la qualité des interactions
Prompt de test : « Construire un environnement de bureau de style Linux sous forme d’application web »
- Démarrage sans code initial, sans design et sans feedback intermédiaire
La plupart des modèles se contentent de générer une UI basique puis s’arrêtent, mais GLM-5.1 poursuit une amélioration continue via une boucle de revue et d’amélioration de ses propres résultats
Il itère pendant 8 heures, en passant d’un layout initial simple à un environnement de bureau complet
- Ajout d’un explorateur de fichiers, d’un terminal, d’un éditeur de texte, d’un moniteur système, d’une calculatrice, de jeux, etc.
- Chaque fonctionnalité est intégrée dans une UI cohérente, tandis que le style et la qualité des interactions s’améliorent progressivement
Le résultat final est un environnement de bureau complet et visuellement cohérent fonctionnant dans le navigateur

Sens et défis de l’optimisation à long terme

Dans les trois scénarios, la variable essentielle n’est pas le temps d’exécution lui-même, mais le fait de savoir si le temps supplémentaire reste réellement utile
GLM-5.1 étend fortement le productive horizon par rapport à GLM-5
Cependant, certaines tâches comme KernelBench laissent encore une marge d’amélioration
Défis restants
- Échapper aux optima locaux lorsque le réglage progressif atteint ses limites
- Maintenir la cohérence sur des milliers de tool calls
- Assurer une auto-évaluation fiable sur les tâches sans métrique numérique explicite
GLM-5.1 est présenté comme une première étape vers cette direction d’optimisation à long terme

Résumé comparatif des benchmarks

GLM-5.1 surpasse GLM-5 sur les principaux benchmarks de codage, notamment SWE-Bench Pro 58.4, NL2Repo 42.7 et Terminal-Bench 2.0 63.5
Il se classe parmi les meilleurs face aux modèles concurrents sur l’ensemble des dimensions Reasoning, Coding et Agentic
Face à des modèles récents comme Claude Opus 4.6, Gemini 3.1 Pro et GPT-5.4, il est proche ou supérieur sur de nombreux points

Publication et mode d’utilisation

Publication en open source sous licence MIT
Disponible sur api.z.ai et BigModel.cn, avec compatibilité Claude Code et OpenClaw
Les abonnés à GLM Coding Plan peuvent l’utiliser immédiatement en changeant le nom du modèle en "GLM-5.1"
- Aux heures de pointe (UTC+8 14:00–18:00), le quota consommé est de 3×, et hors pointe de 2×
- Jusqu’à fin avril, une promotion applique 1× hors pointe
Z Code est proposé comme environnement GUI, avec prise en charge du développement à distance via SSH et du travail sur mobile
Les poids du modèle sont publiés sur HuggingFace et ModelScope
Prise en charge des principaux frameworks d’inférence comme vLLM et SGLang, avec un guide de déploiement disponible sur GitHub
Disponibilité prochaine également sur la plateforme de chat Z.ai

Paramètres d’évaluation et notes

HLE et autres tâches de raisonnement : génération maximale de 163 840 tokens, avec GPT-5.2 utilisé comme modèle d’évaluation
SWE-Bench Pro : fenêtre de contexte de 200K, exécution basée sur OpenHands
NL2Repo : inclut la détection et le blocage de commandes malveillantes
Terminal-Bench 2.0 : limite de 16 CPU, 32GB RAM, timeout de 3 heures
KernelBench Level 3 : environnement GPU H100, limite de 1 200 tool calls, audit indépendant réalisé
Évaluations indépendantes réalisées sur divers benchmarks externes comme CyberGym, MCP-Atlas, τ³-bench et Vending Bench 2

GLM-5.1 : une évolution vers l’exécution de tâches de long terme

Vue d’ensemble de GLM-5.1

Tâches complexes de software engineering

Scénario 1 : optimisation d’une base de données vectorielle en 600 itérations

Scénario 2 : optimisation de workloads de machine learning sur plus de 1 000 itérations

Scénario 3 : création d’une web app de bureau Linux sur 8 heures

Sens et défis de l’optimisation à long terme

Résumé comparatif des benchmarks

Publication et mode d’utilisation

Paramètres d’évaluation et notes

À lire aussi

Aucun commentaire pour le moment.

Scénario 2 : optimisation de workloads de machine learning sur plus de 1 000 itérations