GLM-4.7 : faire passer les capacités de codage au niveau supérieur

(z.ai)

7 points par GN⁺ 2025-12-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp

GLM-4.7 est un grand modèle de langage qui améliore fortement ses performances par rapport à la version précédente en codage multilingue, travail en terminal et raisonnement complexe
Sur des benchmarks majeurs comme SWE-bench, Terminal Bench 2.0 et HLE, il enregistre respectivement des hausses de +5,8 %, +16,5 % et +12,4 %
La qualité de génération d’interface utilisateur a été améliorée, permettant de produire des pages web plus propres et plus modernes ainsi que des mises en page de slides plus précises
Grâce aux fonctions Interleaved Thinking, Preserved Thinking et Turn-level Thinking, il renforce la stabilité et la cohérence dans les tâches d’agent complexes
Il est accessible dans le monde entier via Z.ai API, OpenRouter et HuggingFace, et prend aussi en charge les agents de codage ainsi que le déploiement local

Performances et caractéristiques principales

GLM-4.7 obtient une amélioration globale des capacités de codage et de raisonnement par rapport à GLM-4.6
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- Sur le benchmark HLE(Humanity’s Last Exam), il atteint 42.8%(+12.4%), renforçant ses capacités de raisonnement mathématique et logique
La qualité de génération d’UI (Vibe Coding) progresse, permettant de créer des pages web et des slides plus soignés
Les capacités d’utilisation des outils ont été renforcées, avec de bons scores sur τ²-Bench et BrowseComp notamment
Des améliorations de performance sont également constatées dans divers scénarios (chat, création, jeu de rôle, etc.)

GLM-4.7 a été évalué aux côtés de GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro et d’autres sur 17 benchmarks
- Catégorie Reasoning : MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Catégorie Coding : SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Catégorie Agent : BrowseComp 52.0, τ²-Bench 87.4
Sur certains items, il affiche des résultats proches des meilleurs modèles ou supérieurs

Interleaved Thinking : passe par une étape de réflexion avant la réponse et l’appel d’outils afin d’améliorer le respect des consignes et la qualité de génération
Preserved Thinking : conserve les blocs de réflexion dans les conversations multi-tours afin de réduire la perte d’information et les incohérences
Turn-level Thinking : active ou désactive la fonction de réflexion selon la complexité de la requête pour équilibrer précision et coût
Ces fonctions sont adaptées aux tâches d’agent de codage longues et complexes

Le modèle GLM-4.7 est disponible via la plateforme Z.ai API et OpenRouter
Il est intégré aux principaux agents de codage comme Claude Code, Kilo Code, Roo Code et Cline
Les abonnés au GLM Coding Plan sont automatiquement mis à niveau vers GLM-4.7 ; il suffit de changer le nom du modèle dans le fichier de configuration existant
Les poids du modèle sont publiés sur HuggingFace et ModelScope, avec prise en charge de l’inférence locale via les frameworks vLLM et SGLang

Des exemples de génération variés sont fournis : sites web frontend, œuvres 3D comme Voxel Pagoda, posters, slides, etc.
L’amélioration de la qualité du design est démontrée visuellement, avec mode sombre à fort contraste, effets d’animation et mises en page sophistiquées

Tâches générales : temperature 1.0, top-p 0.95, max new tokens 131072
SWE-bench et Terminal Bench : temperature 0.7, top-p 1.0, max new tokens 16384
τ²-Bench : temperature 0, max new tokens 16384, avec quelques ajustements de prompts selon les domaines

GLM-4.7 représente une étape de progression de l’AGI orientée codage, en mettant l’accent sur une qualité d’expérience réelle au-delà des simples scores de benchmark
Le modèle a été conçu non seulement pour les performances en test, mais aussi pour l’intelligence perçue par l’utilisateur et la qualité d’intégration