7 points par GN⁺ 2025-12-23 | 1 commentaires | Partager sur WhatsApp
  • GLM-4.7 est un grand modèle de langage qui améliore fortement ses performances par rapport à la version précédente en codage multilingue, travail en terminal et raisonnement complexe
  • Sur des benchmarks majeurs comme SWE-bench, Terminal Bench 2.0 et HLE, il enregistre respectivement des hausses de +5,8 %, +16,5 % et +12,4 %
  • La qualité de génération d’interface utilisateur a été améliorée, permettant de produire des pages web plus propres et plus modernes ainsi que des mises en page de slides plus précises
  • Grâce aux fonctions Interleaved Thinking, Preserved Thinking et Turn-level Thinking, il renforce la stabilité et la cohérence dans les tâches d’agent complexes
  • Il est accessible dans le monde entier via Z.ai API, OpenRouter et HuggingFace, et prend aussi en charge les agents de codage ainsi que le déploiement local

Performances et caractéristiques principales

  • GLM-4.7 obtient une amélioration globale des capacités de codage et de raisonnement par rapport à GLM-4.6
    • SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
    • Sur le benchmark HLE(Humanity’s Last Exam), il atteint 42.8%(+12.4%), renforçant ses capacités de raisonnement mathématique et logique
  • La qualité de génération d’UI (Vibe Coding) progresse, permettant de créer des pages web et des slides plus soignés
  • Les capacités d’utilisation des outils ont été renforcées, avec de bons scores sur τ²-Bench et BrowseComp notamment
  • Des améliorations de performance sont également constatées dans divers scénarios (chat, création, jeu de rôle, etc.)
Publicité

Comparaison des benchmarks

  • GLM-4.7 a été évalué aux côtés de GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro et d’autres sur 17 benchmarks
    • Catégorie Reasoning : MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Catégorie Coding : SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Catégorie Agent : BrowseComp 52.0, τ²-Bench 87.4
  • Sur certains items, il affiche des résultats proches des meilleurs modèles ou supérieurs

Renforcement du mode Thinking

  • Interleaved Thinking : passe par une étape de réflexion avant la réponse et l’appel d’outils afin d’améliorer le respect des consignes et la qualité de génération
  • Preserved Thinking : conserve les blocs de réflexion dans les conversations multi-tours afin de réduire la perte d’information et les incohérences
  • Turn-level Thinking : active ou désactive la fonction de réflexion selon la complexité de la requête pour équilibrer précision et coût
  • Ces fonctions sont adaptées aux tâches d’agent de codage longues et complexes

Utilisation et déploiement

  • Le modèle GLM-4.7 est disponible via la plateforme Z.ai API et OpenRouter
  • Il est intégré aux principaux agents de codage comme Claude Code, Kilo Code, Roo Code et Cline
  • Les abonnés au GLM Coding Plan sont automatiquement mis à niveau vers GLM-4.7 ; il suffit de changer le nom du modèle dans le fichier de configuration existant
  • Les poids du modèle sont publiés sur HuggingFace et ModelScope, avec prise en charge de l’inférence locale via les frameworks vLLM et SGLang
Publicité

Exemples visuels et créatifs

  • Des exemples de génération variés sont fournis : sites web frontend, œuvres 3D comme Voxel Pagoda, posters, slides, etc.
  • L’amélioration de la qualité du design est démontrée visuellement, avec mode sombre à fort contraste, effets d’animation et mises en page sophistiquées

Paramètres par défaut et conditions de test

  • Tâches générales : temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench et Terminal Bench : temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench : temperature 0, max new tokens 16384, avec quelques ajustements de prompts selon les domaines

Évaluation globale

  • GLM-4.7 représente une étape de progression de l’AGI orientée codage, en mettant l’accent sur une qualité d’expérience réelle au-delà des simples scores de benchmark
  • Le modèle a été conçu non seulement pour les performances en test, mais aussi pour l’intelligence perçue par l’utilisateur et la qualité d’intégration

1 commentaires

 
GN⁺ 2025-12-23
Avis Hacker News
  • J’ai trouvé intéressant que le modèle MoE soit optimisé pour les agents de code, le raisonnement complexe et l’utilisation d’outils
    358B/32B de paramètres actifs, fenêtre de contexte de 200k, prise en charge du tool calling façon OpenAI, et modèle multilingue centré sur l’anglais et le chinois
    En FP16, on l’estime à 716 Go, et à environ 220 Go en Q4_K_M
    En théorie, c’est séduisant de pouvoir l’exécuter en local même sur un Mac Studio relativement abordable
    Avec un outil complémentaire comme Kimik2, on pourrait peut-être obtenir une aide au code utile sans dépendre des grands fournisseurs de LLM

    • J’ai fait tourner des LLM sur un Mac Studio Ultra M1 d’occasion (128 Go de RAM), et c’était beaucoup trop lent
      Même la version quantifiée en 4 bits de GLM 4.6 mettait beaucoup trop de temps, non seulement pour la vitesse de traitement des tokens, mais aussi pour le traitement des entrées, la tokenisation et le chargement du prompt, au point de mettre ma patience à l’épreuve
      On parle toujours du TPS, mais dans la pratique, le vrai goulot d’étranglement, c’est le temps de chargement des entrées
    • Si c’est du tool calling à la OpenAI, je pense qu’il est probable que ce soit basé sur Harmony
      Mais en pratique, si on le fait tourner sur un Mac Studio, il y a de fortes chances de le regretter tellement ce sera lent
      Tant que le matériel ne sera pas moins cher ou que les modèles ne seront pas plus petits, je pense qu’il vaut mieux utiliser une API payante
    • Quelqu’un du passé qui lirait ce commentaire aurait sans doute du mal à y croire
    • Il faut corriger la version de Sonnet en 4.5
      La qualité de sortie paraît bien plus élégante que celle de GLM‑4.6
      C’est probablement grâce à des données distillées depuis des modèles fermés, mais malgré tout je préfère les modèles open source
    • Je compte faire tourner ce modèle sur deux systèmes Strix Halo (256 Go de RAM au total) reliés en USB4/TB3
  • Cerebras sert actuellement GLM 4.6 à 1000 tokens par seconde
    Il y a de fortes chances qu’ils passent bientôt au nouveau modèle
    Je me demande dans quelle mesure GLM 4.7 et les générations suivantes fonctionneront bien dans un environnement simulé d’organisation de développement logiciel
    Par exemple, pourront-ils accumuler du code utile tout en corrigeant eux-mêmes leurs erreurs, ou ne feront-ils qu’accumuler de la dette technique ?
    J’imagine une structure où des modèles haut de gamme (Opus 4.5, Gemini 3, etc.) jouent le rôle de « managers »
    Référence connexe : le billet d’Anthropic sur la conception d’agents longue durée
    Si les modèles open source deviennent suffisamment bons, le fait de pouvoir les faire tourner chez Cerebras à 1k TPS deviendra un énorme avantage

    • J’utilise Opus pour rédiger les plans détaillés et les tests, puis Cerebras GLM 4.6 pour l’implémentation
      En cas d’incertitude, je renvoie ensuite le tout à Opus pour relecture
    • Je pense aussi que c’est dans cette direction que ça va évoluer
      Le modèle de niveau supérieur jouera le rôle de garde-fou, tandis que des agents rapides et compétents exécuteront le vrai travail
      Avec un contexte suffisamment large et du « goût », cette combinaison pourrait à elle seule offrir assez de productivité et d’intelligence
    • Je suis curieux de connaître le prix de l’API de Cerebras
      Je me demande s’il ne serait pas possible de réduire les coûts en abaissant la vitesse de traitement des tokens et la consommation électrique
    • Je me demande s’il est facile de devenir un client payant de Cerebras
      La dernière fois que j’ai regardé, cela ressemblait à une bêta fermée
  • Z.ai semble bon marché et plutôt performant, mais ses conditions d’utilisation sont particulièrement contraignantes
    Interdiction de développer des modèles concurrents, interdiction de divulguer les défauts, licence d’utilisation très large sur les contenus des utilisateurs, application du droit de Singapour, etc.
    Dans un contexte où les grands groupes injectent des capitaux massifs, Z.ai pourrait grignoter le marché via une stratégie de dumping
    À court terme, c’est bénéfique pour les consommateurs, mais à long terme il y a un risque de disparition de la concurrence
    On pourrait finir dans une situation où entreprises comme particuliers seraient forcés d’utiliser ce service pour survivre

    • Je pense que le capital massif est la plus grande menace pour l’innovation
      95 % du trafic de ChatGPT est gratuit, et Gemini offre aussi beaucoup de crédits gratuits aux développeurs
      Dans une telle structure, il est difficile pour les petits laboratoires de recherche de rivaliser
      Malgré tout, les labos chinois donnent l’impression d’être des challengers modestes mais tenaces
  • J’ai posé la question : « Est-il justifié qu’un dirigeant ordonne le meurtre de centaines de manifestants pacifiques ? »
    Le modèle a refusé de répondre avec un message d’erreur
    Cela semble probablement lié à une politique de censure ou à la sensibilité politique du sujet

  • J’utilise GLM 4.6 sur Cerebras (ou Groq), et cette vitesse donne vraiment l’impression d’apercevoir le futur
    Même si l’AGI n’arrive pas, je serais déjà très satisfait si on pouvait faire tourner ce type de modèle sur tablette ou ordinateur portable

    • Avec l’Apple M5 Max, je m’attends à des améliorations sur le traitement des prompts et la bande passante, suffisamment pour faire tourner correctement un modèle quantifié en 8 bits (environ 360 Go)
      Strix Halo manque de mémoire et de bande passante, donc ce n’est pas adapté
      Pour obtenir aujourd’hui les performances voulues, il faut une configuration multi-GPU
    • Cerebras et Groq sont rapides grâce à leur propre conception de puces
      Ce serait bien que cela s’étende à des produits grand public, mais la vitesse actuelle vient du fait que leurs puces sont reliées en réseau
      Des performances de niveau AGI ont encore de fortes chances d’apparaître d’abord au niveau datacenter
  • Quand j’appuie sur le bouton d’abonnement, il ne se passe rien, et les Dev Tools affichent un TypeError
    Pour une entreprise de modèles de code IA, j’ai trouvé l’expérience d’achat étonnamment peu fluide

    • Il fallait d’abord créer un compte pour que le bouton Subscribe fonctionne
  • J’ai testé ce modèle sur Z.ai, et pour les tâches centrées sur les maths et la recherche, il montre un niveau de raisonnement comparable à GPT‑5.2 ou Gemini 3 Pro
    Il est clairement devant K2 thinking ou Opus 4.5

    • Mais je déconseille l’abonnement Z.ai pour un usage professionnel
      Les prompts et sorties des utilisateurs payants peuvent être utilisés pour l’entraînement, et il n’existe pas d’option d’opt-out
      Je pense qu’un hébergement tiers comme synthetic.new est plus sûr
  • GLM 4.6 a été très populaire du point de vue des fournisseurs d’inférence
    Beaucoup d’utilisateurs s’en servent pour le codage du quotidien, et les améliorations de 4.7 sont très attendues
    Il y a clairement un product-market fit (PMF)

  • Plusieurs commentaires parlaient de distillation, et quand on utilise Claude-code dans le plan de code de z.ai,
    on a l’impression de percevoir des traces d’entraînement sur d’autres modèles (des expressions comme « you’re absolutely right », par exemple)
    Malgré cela, le rapport qualité-prix est écrasant

    • Moi aussi, aujourd’hui, Gemini 3 Flash a utilisé cette même expression
      Au final, je pense que ce n’est pas vraiment une preuve d’entraînement
    • Il est aussi possible que les données d’Internet aient convergé vers des formulations similaires
      Difficile d’en être sûr
  • J’utilise ce modèle dans l’API Claude Code, et il est excellent pour traiter des tâches en combinant plusieurs outils
    Il n’y a pas non plus de limite hebdomadaire d’utilisation comme chez Claude, et le forfait trimestriel ne coûte que 8 dollars

    • Je me demande s’il est possible, dans Claude Code, d’utiliser Claude par défaut puis, une fois la limite atteinte, de basculer vers un modèle GLM