GLM-4.5 : modèle de fondation agentique, de raisonnement et de codage (ARC)

(arxiv.org)

4 points par GN⁺ 2025-08-13 | 2 commentaires | Partager sur WhatsApp

GLM-4.5 est un grand modèle de langage open source de type Mixture-of-Experts (MoE), qui se distingue par ses performances en agenticité, raisonnement et codage
Le modèle a évolué grâce à un entraînement multi-étapes sur 23T tokens, à des itérations de modèles experts et à l’apprentissage par renforcement
Il a obtenu des résultats de premier plan sur divers benchmarks clés tels que TAU-Bench, AIME 24, SWE-bench Verified
Il offre des performances efficaces avec un nombre limité de paramètres, atteignant ou dépassant parfois les principaux modèles commerciaux
GLM-4.5 et sa version allégée GLM-4.5-Air sont publiés pour la recherche et le développement de systèmes d’IA

Vue d’ensemble

GLM-4.5 est un grand modèle de langage open source Mixture-of-Experts (MoE) comptant 355 milliards de paramètres au total, dont 32 milliards de paramètres actifs
Il adopte une méthode de raisonnement hybride, prenant en charge à la fois un mode de réflexion approfondie (Thinking) et un mode de réponse immédiate (Direct Response)
Il a suivi un apprentissage multi-étapes sur 23 billions de tokens, des itérations de modèles experts, ainsi qu’un post-entraînement fondé sur l’apprentissage par renforcement
Il obtient ainsi d’excellents résultats dans les domaines de l’agenticité (Agentic), du raisonnement (Reasoning) et du codage (Coding·ARC)
- TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2%
Avec moins de paramètres que ses concurrents, GLM-4.5 se classe 3e au global et 2e selon les benchmarks d’agenticité
Deux versions sont publiées : le grand modèle GLM-4.5 (355 milliards de paramètres) et la version réduite GLM-4.5-Air (106 milliards de paramètres)
Le code complet, les modèles et les informations détaillées sont disponibles sur le GitHub officiel (https://github.com/zai-org/GLM-4.5)

Évaluation des performances des LLM : benchmarks d’agenticité, de raisonnement et de codage

GLM-4.5 et les principaux modèles mondiaux ont été testés sur 12 benchmarks de référence (MMLU-Pro, AIME 24, SWE-Bench Verified, etc.)
GLM-4.5 se classe 3e en moyenne générale, tandis que GLM-4.5-Air atteint la 6e place
Sur le score d’agenticité, il arrive 2e derrière OpenAI o3, et atteint aussi la 3e place sur les benchmarks de codage, au niveau de Claude Sonnet 4
GLM-4.5 affiche des performances comparables avec la moitié des paramètres de DeepSeek-R1 et un tiers de ceux de Kimi K2
En nombre de paramètres rapporté aux performances sur SWE-bench Verified, GLM-4.5 et GLM-4.5-Air se situent également sur la frontière de Pareto
Données de performance arrêtées au 28 juillet 2025

Introduction

Les grands modèles de langage (LLM) évoluent rapidement, passant de simples réservoirs de données généralistes à des solveurs de problèmes généralistes
L’AGI (Artificial General Intelligence), considérée comme l’aboutissement de l’intelligence artificielle, vise des modèles dotés de capacités cognitives de niveau humain dans de multiples domaines
Cela exige l’intégration de capacités de résolution de problèmes complexes, de généralisation et d’auto-amélioration
Les trois capacités essentielles pour le travail réel et la résolution de problèmes professionnels complexes sont les suivantes :
- Capacité agentique : interaction avec des outils et le monde extérieur
- Raisonnement complexe : résolution progressive de problèmes complexes en mathématiques, sciences, etc.
- Codage avancé : capacité à réaliser un véritable travail d’ingénierie logicielle
Les modèles commerciaux SOTA existants (OpenAI, Anthropic) montrent des performances spécialisées dans certains domaines, mais parmi les modèles open source, peu de modèles publiés excellent simultanément dans ces trois grands domaines

Présentation des modèles GLM-4.5 et GLM-4.5-Air

GLM-4.5/GLM-4.5-Air affichent un niveau open source de tout premier plan en agenticité, raisonnement et codage
Les deux modèles prennent en charge un mode de raisonnement hybride
- Thinking Mode excelle dans le raisonnement complexe et l’agenticité
- Non-thinking Mode est spécialisé dans les réponses rapides
Principaux résultats de GLM-4.5 :
- Agenticité : TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (supérieur aux modèles commerciaux concurrents)
- Raisonnement : AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
- Codage : SWE-bench Verified 64.2%, Terminal-Bench 37.5% (supérieur à GPT-4.1 et Gemini-2.5-pro, proche de Claude Sonnet 4)
GLM-4.5-Air, avec 106 milliards de paramètres, est comparable ou supérieur à Qwen3-235B-A22B et MiniMax-M1 parmi les modèles de l’ordre de 100 milliards

Situation et caractéristiques des performances sur benchmarks

Sur l’ensemble de 12 benchmarks majeurs, GLM-4.5 et GLM-4.5-Air obtiennent tous deux des classements élevés
GLM-4.5 se distingue par des performances équilibrées en agenticité, raisonnement et codage, ainsi que par son efficacité paramétrique
Il atteint la zone d’efficacité maximale (frontière de Pareto) en nombre de paramètres rapporté à SWE-bench Verified
Une comparaison détaillée des performances a été menée avec plusieurs modèles commerciaux et open source

Publication et support open source

Les modèles GLM-4.5/GLM-4.5-Air sont publiés sur Z.ai, BigModel.cn, ainsi que sur Huggingface (https://huggingface.co/zai-org/GLM-4.5)
Pour assurer la reproductibilité des benchmarks, le toolkit d’évaluation (https://github.com/zai-org/glm-simple-evals) est également fourni en open source

Préentraînement

Architecture

La série GLM-4.5 adopte une architecture Mixture-of-Experts (MoE), augmentant fortement l’efficacité de calcul en entraînement comme en inférence
Les couches MoE appliquent un loss-free balance routing et un gating sigmoïde
Contrairement à DeepSeek-V3 et Kimi K2, le modèle réduit sa largeur (dimension cachée, nombre d’experts routés) et augmente sa profondeur (nombre de couches). Un modèle plus profond est plus efficace pour faire progresser les capacités de raisonnement
Le Self-Attention utilise Grouped-Query Attention + partial RoPE, avec 96 têtes d’attention pour une dimension cachée de 5120, soit un ratio de 2,5x pour les têtes d’attention
L’augmentation du nombre de têtes n’a pas d’effet sur la perte d’entraînement, mais a un impact positif confirmé sur l’inférence réelle et les performances sur benchmarks
L’application de QK-Norm améliore la stabilité des valeurs de logit d’attention
GLM-4.5 et GLM-4.5-Air ajoutent tous deux des couches MTP (Multi-Token Prediction) fondées sur des couches MoE, afin de prendre en charge le speculative decoding à l’inférence
Dans l’agrégation des paramètres d’architecture, les paramètres des couches MTP sont inclus, mais les embeddings de mots et la couche de sortie ne le sont pas

Conclusion et effets attendus

GLM-4.5/GLM-4.5-Air constituent une nouvelle génération de modèles de langage réunissant hautes performances, efficacité et polyvalence sur le marché open source de l’IA
Ils se distinguent par leurs capacités de résolution intégrée de problèmes complexes dans plusieurs domaines, leur compétitivité face aux modèles commerciaux et leur efficacité paramétrique
Ils peuvent élargir leur contribution en tant que base d’innovation pour les grands modèles de langage open source dans la recherche académique, l’industrie et les travaux des développeurs

2 commentaires

xguru 2025-08-13

On voit aussi dans les commentaires de Hacker News et sur le forum LocalLLaMA de Reddit que GLM est plutôt bien évalué.
GLM 4.5 AIR IS SO FKING GOODDD

GLM 4.5 Air est vraiment extrêmement rapide et ses capacités d’appel d’outils sont excellentes (testé non pas en local, mais via Open Router)
Comparé à GPT-5 Mini, l’avantage peut basculer selon le type de tâche
Les autres modèles GLM, comme GLM 4.5V, sont eux aussi très bons
Pour certaines tâches (par ex. rédaction de romans, codage), GLM est plus naturel et moins contraint que GPT

GN⁺ 2025-08-13

Avis Hacker News

C’est vraiment agréable de voir un article sur ce papier qui, contrairement aux billets de blog habituels annonçant un modèle, entre dans le fond des choses
L’équipe Zhipu/Tsinghua explique en détail non seulement le « quoi », mais aussi le « comment », ce qui en fait une lecture particulièrement intéressante pour celles et ceux qui veulent construire ou utiliser ce type de modèles
La méthodologie de post-training de la section 3 est particulièrement marquante
L’approche consistant à créer séparément des « modèles experts » spécialisés en raisonnement/agents/chat, puis à distiller leurs capacités dans un modèle final unifié, est très séduisante
C’est une tentative bien plus systématique de dépasser les limites des modèles généralistes qui font un peu de tout sans exceller nulle part
Au lieu de simplement mélanger les données, le modèle général est en quelque sorte conçu pour apprendre d’un collectif d’experts
Un point intéressant dans les résultats des expériences en RL est que l’application du RL sur l’ensemble du contexte 64K en une seule fois a donné de meilleurs résultats qu’un RL par étapes (voir Fig 6)
Beaucoup d’équipes auraient probablement imaginé l’inverse, mais les résultats montrent le contraire
Et le choix, modeste mais malin, d’utiliser un template XML pour le format d’appel de fonctions évite les problèmes d’échappement JSON (voir Fig 4)
En pratique, échapper du code dans du JSON est vraiment pénible
Les performances sur SWE-bench sont aussi très solides, au point de pouvoir rivaliser avec des modèles bien plus gros ou commerciaux
La grande question pour la suite est de savoir si cette méthode d’entraînement hybride fonctionne aussi en dehors des évaluations de style ARC
Par exemple, on peut se demander si les performances agentiques restent bonnes dans des workflows complexes du monde réel, avec une documentation d’API absente, des erreurs fréquentes et des entrées ambiguës
- Je me demande si ce type de tweak de post-/mid-training est vraiment nécessaire dans un apprentissage de domaine spécifique où les données et labels sont déjà abondants et bien validés
  J’aimerais savoir s’il suffit à une petite équipe de bien suivre une stack moderne de scale-up training, ou si l’absence de ces techniques crée un écart important
- J’espère que ça ne paraîtra pas inutilement tatillon, mais le style du texte donne fortement une impression typique de LLM
  J’ai déjà vu la même remarque auparavant lien
  Je pense qu’il est sain de signaler ce genre de choses pour préserver un bon environnement en ligne
J’ai utilisé le modèle de code GLM-4.5 pendant assez longtemps, et les performances sont vraiment excellentes
En faisant tourner GLM-4.5 dans Octofriend, l’agent de code que je développe, je l’ai parfois confondu avec Claude 4
D’après mon expérience, Claude semble un peu meilleur lorsqu’il faut prendre en compte l’ensemble d’une codebase comme contexte ainsi que les interactions système
En revanche, GLM-4.5 est plus « honnête » et a moins tendance à faire comme Claude, qui modifie souvent les tests pour contourner discrètement le problème
Les deux sont d’un très bon niveau, mais GLM-4.5 m’a déjà trouvé des bugs que Claude 4 Sonnet ou 4.1 Opus n’avaient pas vus
Pour le débogage pur, Claude gagne légèrement plus souvent, mais l’écart reste faible
Par rapport à GPT-5, Claude et GLM sont tous deux plus constants
GPT-5 produit parfois des résultats vraiment impressionnants, mais quand il part de travers, il est difficile et frustrant de le remettre sur les rails
Référence Octofriend : https://github.com/synthetic-lab/octofriend
- Après avoir vu ce commentaire, j’ai testé GLM-4.5 dans Kilocode
  J’avais passé toute la journée à essayer de traquer un bug compliqué dans du code de compilateur avec Gemini CLI, sans succès
  Mais GLM-4.5 a immédiatement pointé le vrai problème
  Gemini CLI soupçonnait seulement des fonctions sans rapport et répétait des correctifs approximatifs, alors que le problème venait d’ailleurs
  La capacité de GLM-4.5 à rester focalisé sur le vrai problème ressort clairement
- J’ai moi aussi eu de bonnes expériences avec GLM-4.5 sur de petits projets ou des demandes courtes
  Malheureusement, j’ai l’impression que ses performances baissent quand le contexte s’allonge, donc je l’utilise maintenant comme solution de secours derrière Sonnet 4
- J’utilise le mode architect dans aider
  Je m’en sers avec une combinaison Deepseek R1 (pour l’architecture de haut niveau) + Qwen3 480B (pour le code bas niveau, ou via l’API qwen code)
  Cette configuration fonctionne vraiment très bien
  Elle résout seule 99,99 % des problèmes
  La séparation des rôles n’étant pas encore parfaite dans aider, je pense créer un outil pour améliorer moi-même ce workflow
- Je suis d’accord avec le premier point
  Moi aussi, je trouve que Claude fonctionne mieux quand il y a beaucoup de contexte, alors que GLM-4.5 donne des résultats moins bons dans ce cas
La série GLM-4.5 compte les paramètres totaux/actifs en excluant les couches d’embedding et de sortie, tout en incluant seulement les couches MTP
Cela correspond à mon propre calcul (355B A32B)
La série GPT OSS inclut embedding/sortie dans le total, mais ne compte que la sortie dans les paramètres actifs
La série Qwen3 inclut embedding et sortie à la fois dans le total et dans l’actif
Comme la méthode de comptage varie d’un modèle à l’autre, je me demande pourquoi il n’existe pas de standard, et quelle méthode est la plus raisonnable
- Le nombre total de paramètres est directement lié aux exigences mémoire, donc il est logique de tout compter
  Pour les paramètres actifs, les paramètres d’unembedding sont tous utilisés à chaque génération de token, tandis que pour l’embedding, seule une colonne est utilisée ; il faut donc en tenir compte pour bien comprendre le lien avec la bande passante et la latence
Je pense que, dans les prochaines années, on pourra coder avec un modèle open local au niveau de Sonnet 4 sur une station de travail à environ 2 000 dollars
Les modèles cloud actuels sont utiles, mais comme c’est un outil central dans l’expérience développeur, j’aimerais pouvoir le faire tourner en local
- À mon avis, ce ne sera pas dans deux ans, mais dès la fin de cette année
- Du point de vue de l’open source, ce type de modèle est indispensable
  Sinon, le développement open source lui-même risque de devenir non viable
  J’irais même jusqu’à dire qu’on peut espérer, dans les deux ans, des performances supérieures à Sonnet 4 sur un PC à 2 000 dollars
J’ai l’impression que c’est le premier modèle open qui peut presque être comparé d’égal à égal aux modèles frontier commerciaux existants
Rien qu’en regardant l’efficacité paramétrique, on voit qu’il y a eu une vraie innovation dans la méthode d’entraînement
J’aimerais aussi voir une validation indépendante de ses performances sur le LLM Leaderboard d’Aider
Pour ceux qui, comme moi, veulent commencer par lire le résumé du papier, voici le lien : https://www.arxiv.org/abs/2508.06471
Le fait que la publication soit sous licence Apache est aussi excellent
C’est vraiment réjouissant de voir les modèles open source continuer à repousser les limites
Il y a tellement d’observations dans ce papier que chacune pourrait presque faire l’objet d’un article à part entière
En particulier, l’expérience accumulée sur le processus d’entraînement et sur la collecte/synthèse des données est extrêmement riche
Est-ce que quelqu’un sait si ces auteurs ont déjà publié auparavant d’autres papiers aussi remarquables ?
Les métriques des graphiques dans le papier me semblent confuses
Dans la première figure, le score SWE-bench de Sonnet 4 semble être autour de 53, puis dans la suivante il est proche de 70
La vraie valeur semble bien plus proche de 70 référence
Je me demande pourquoi Qwen3 est absent des benchmarks de code alors qu’il figure dans les autres benchmarks
- La section 4.3.2 inclut Qwen3-Coder
- Qwen n’est pas encore très bon pour comprendre de grandes codebases