7 points par GN⁺ 2025-12-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • GLM-4.7 est un grand modèle de langage qui améliore fortement ses performances par rapport à la version précédente en codage multilingue, travail en terminal et raisonnement complexe
  • Sur des benchmarks majeurs comme SWE-bench, Terminal Bench 2.0 et HLE, il enregistre respectivement des hausses de +5,8 %, +16,5 % et +12,4 %
  • La qualité de génération d’interface utilisateur a été améliorée, permettant de produire des pages web plus propres et plus modernes ainsi que des mises en page de slides plus précises
  • Grâce aux fonctions Interleaved Thinking, Preserved Thinking et Turn-level Thinking, il renforce la stabilité et la cohérence dans les tâches d’agent complexes
  • Il est accessible dans le monde entier via Z.ai API, OpenRouter et HuggingFace, et prend aussi en charge les agents de codage ainsi que le déploiement local

Performances et caractéristiques principales

  • GLM-4.7 obtient une amélioration globale des capacités de codage et de raisonnement par rapport à GLM-4.6
    • SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
    • Sur le benchmark HLE(Humanity’s Last Exam), il atteint 42.8%(+12.4%), renforçant ses capacités de raisonnement mathématique et logique
  • La qualité de génération d’UI (Vibe Coding) progresse, permettant de créer des pages web et des slides plus soignés
  • Les capacités d’utilisation des outils ont été renforcées, avec de bons scores sur τ²-Bench et BrowseComp notamment
  • Des améliorations de performance sont également constatées dans divers scénarios (chat, création, jeu de rôle, etc.)

Comparaison des benchmarks

  • GLM-4.7 a été évalué aux côtés de GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro et d’autres sur 17 benchmarks
    • Catégorie Reasoning : MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Catégorie Coding : SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Catégorie Agent : BrowseComp 52.0, τ²-Bench 87.4
  • Sur certains items, il affiche des résultats proches des meilleurs modèles ou supérieurs

Renforcement du mode Thinking

  • Interleaved Thinking : passe par une étape de réflexion avant la réponse et l’appel d’outils afin d’améliorer le respect des consignes et la qualité de génération
  • Preserved Thinking : conserve les blocs de réflexion dans les conversations multi-tours afin de réduire la perte d’information et les incohérences
  • Turn-level Thinking : active ou désactive la fonction de réflexion selon la complexité de la requête pour équilibrer précision et coût
  • Ces fonctions sont adaptées aux tâches d’agent de codage longues et complexes

Utilisation et déploiement

  • Le modèle GLM-4.7 est disponible via la plateforme Z.ai API et OpenRouter
  • Il est intégré aux principaux agents de codage comme Claude Code, Kilo Code, Roo Code et Cline
  • Les abonnés au GLM Coding Plan sont automatiquement mis à niveau vers GLM-4.7 ; il suffit de changer le nom du modèle dans le fichier de configuration existant
  • Les poids du modèle sont publiés sur HuggingFace et ModelScope, avec prise en charge de l’inférence locale via les frameworks vLLM et SGLang

Exemples visuels et créatifs

  • Des exemples de génération variés sont fournis : sites web frontend, œuvres 3D comme Voxel Pagoda, posters, slides, etc.
  • L’amélioration de la qualité du design est démontrée visuellement, avec mode sombre à fort contraste, effets d’animation et mises en page sophistiquées

Paramètres par défaut et conditions de test

  • Tâches générales : temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench et Terminal Bench : temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench : temperature 0, max new tokens 16384, avec quelques ajustements de prompts selon les domaines

Évaluation globale

  • GLM-4.7 représente une étape de progression de l’AGI orientée codage, en mettant l’accent sur une qualité d’expérience réelle au-delà des simples scores de benchmark
  • Le modèle a été conçu non seulement pour les performances en test, mais aussi pour l’intelligence perçue par l’utilisateur et la qualité d’intégration

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.