- GLM-4.7 est un grand modèle de langage qui améliore fortement ses performances par rapport à la version précédente en codage multilingue, travail en terminal et raisonnement complexe
- Sur des benchmarks majeurs comme SWE-bench, Terminal Bench 2.0 et HLE, il enregistre respectivement des hausses de +5,8 %, +16,5 % et +12,4 %
- La qualité de génération d’interface utilisateur a été améliorée, permettant de produire des pages web plus propres et plus modernes ainsi que des mises en page de slides plus précises
- Grâce aux fonctions Interleaved Thinking, Preserved Thinking et Turn-level Thinking, il renforce la stabilité et la cohérence dans les tâches d’agent complexes
- Il est accessible dans le monde entier via Z.ai API, OpenRouter et HuggingFace, et prend aussi en charge les agents de codage ainsi que le déploiement local
Performances et caractéristiques principales
- GLM-4.7 obtient une amélioration globale des capacités de codage et de raisonnement par rapport à GLM-4.6
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- Sur le benchmark HLE(Humanity’s Last Exam), il atteint 42.8%(+12.4%), renforçant ses capacités de raisonnement mathématique et logique
- La qualité de génération d’UI (Vibe Coding) progresse, permettant de créer des pages web et des slides plus soignés
- Les capacités d’utilisation des outils ont été renforcées, avec de bons scores sur τ²-Bench et BrowseComp notamment
- Des améliorations de performance sont également constatées dans divers scénarios (chat, création, jeu de rôle, etc.)
Comparaison des benchmarks
- GLM-4.7 a été évalué aux côtés de GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro et d’autres sur 17 benchmarks
- Catégorie Reasoning : MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Catégorie Coding : SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Catégorie Agent : BrowseComp 52.0, τ²-Bench 87.4
- Sur certains items, il affiche des résultats proches des meilleurs modèles ou supérieurs
Renforcement du mode Thinking
- Interleaved Thinking : passe par une étape de réflexion avant la réponse et l’appel d’outils afin d’améliorer le respect des consignes et la qualité de génération
- Preserved Thinking : conserve les blocs de réflexion dans les conversations multi-tours afin de réduire la perte d’information et les incohérences
- Turn-level Thinking : active ou désactive la fonction de réflexion selon la complexité de la requête pour équilibrer précision et coût
- Ces fonctions sont adaptées aux tâches d’agent de codage longues et complexes
Utilisation et déploiement
- Le modèle GLM-4.7 est disponible via la plateforme Z.ai API et OpenRouter
- Il est intégré aux principaux agents de codage comme Claude Code, Kilo Code, Roo Code et Cline
- Les abonnés au GLM Coding Plan sont automatiquement mis à niveau vers GLM-4.7 ; il suffit de changer le nom du modèle dans le fichier de configuration existant
- Les poids du modèle sont publiés sur HuggingFace et ModelScope, avec prise en charge de l’inférence locale via les frameworks vLLM et SGLang
Exemples visuels et créatifs
- Des exemples de génération variés sont fournis : sites web frontend, œuvres 3D comme Voxel Pagoda, posters, slides, etc.
- L’amélioration de la qualité du design est démontrée visuellement, avec mode sombre à fort contraste, effets d’animation et mises en page sophistiquées
Paramètres par défaut et conditions de test
- Tâches générales : temperature 1.0, top-p 0.95, max new tokens 131072
- SWE-bench et Terminal Bench : temperature 0.7, top-p 1.0, max new tokens 16384
- τ²-Bench : temperature 0, max new tokens 16384, avec quelques ajustements de prompts selon les domaines
Évaluation globale
- GLM-4.7 représente une étape de progression de l’AGI orientée codage, en mettant l’accent sur une qualité d’expérience réelle au-delà des simples scores de benchmark
- Le modèle a été conçu non seulement pour les performances en test, mais aussi pour l’intelligence perçue par l’utilisateur et la qualité d’intégration
Aucun commentaire pour le moment.