GLM-5.2 devient le modèle open weights n°1 selon Artificial Analysis
(artificialanalysis.ai)- GLM-5.2 de Z ai a obtenu un score de 51 dans l’Artificial Analysis Intelligence Index v4.1, prenant la tête des modèles open weights, et se situe aussi sur la frontière de Pareto en performance par rapport au coût
- La taille du modèle reste identique à celle de GLM-5.1, avec 744B de paramètres au total / 40B de paramètres actifs, mais son score est supérieur de 11 points, devant MiniMax-M3, DeepSeek V4 Pro(max) et Kimi K2.6
- Les gains apparaissent dans la plupart des évaluations, avec des hausses particulièrement marquées en raisonnement scientifique sur CritPt et HLE
- Sur GDPval-AA v2, il atteint 1524 points, devant MiniMax-M3 et DeepSeek V4 Pro(max), et se situe à un niveau comparable à GPT-5.5(xhigh reasoning)
- Il utilise 43k tokens de sortie par tâche, ce qui le rend plutôt peu efficace en tokens, mais son coût par tâche fait partie des plus bas parmi les modèles de même niveau d’intelligence
En tête des open weights dans l’Intelligence Index v4.1
- GLM-5.2 a obtenu un score de 51 dans l’Artificial Analysis Intelligence Index v4.1, ce qui le place n°1 parmi les modèles open weights
- Voici les scores des principaux modèles open weights
- MiniMax-M3 : 44
- DeepSeek V4 Pro(max) : 44
- Kimi K2.6 : 43
- GLM-5.2 conserve la même taille que GLM-5.1, soit 744B de paramètres au total / 40B de paramètres actifs, mais son score à l’Intelligence Index v4.1 est supérieur de 11 points
Améliorations des performances selon les évaluations
- GLM-5.2 progresse par rapport à GLM-5.1 dans la plupart des évaluations
- Les progrès sont particulièrement importants sur les évaluations liées au raisonnement scientifique
- CritPt : +16 points, 21%
- HLE : +12 points, 40%
- GPQA Diamond : +3 points, 89%
- Des améliorations équilibrées apparaissent aussi sur d’autres évaluations
- AA-LCR : +9 points, 71%
- tau3 banking : +15 points, 27%
- SciCode : +7 points, 50%
- TerminalBench v2.1 : +16 points, 78%
GDPval-AA v2 et performances d’agent
- GLM-5.2 a obtenu 1524 points sur GDPval-AA v2, un indicateur des performances d’agent en conditions réelles
- C’est le meilleur score parmi les modèles open weights comparés
- GLM-5.2 : 1524
- MiniMax-M3 : 1418
- DeepSeek V4 Pro(max) : 1328
- Ce résultat est en pratique comparable aux 1514 points de GPT-5.5(xhigh reasoning)
- GDPval-AA v2 fait évoluer la méthode d’évaluation par rapport à GDPval-AA
- La référence Elo est fixée à 1000 pour les performances humaines
- Introduction d’un panel rotatif de juges frontier-model
- La limite de tours est relevée de 100 à 250 pour gérer des trajectoires d’agent plus longues
Coût, tarification et consommation de tokens
- GLM-5.2 figure sur la frontière de Pareto du graphique Intelligence vs Cost per Task, et son coût par tâche fait partie des plus bas parmi les modèles de même niveau d’intelligence
- Son coût par tâche est plus élevé que celui de GLM-5.1, mais sa position reste avantageuse au vu de son score d’intelligence supérieur
- GLM-5.2 : environ $0.46
- GLM-5.1 : $0.25
- Kimi K2.6 : $0.31
- MiniMax-M3 : $0.18
- DeepSeek V4 Pro(max) : $0.05
- Les prix de l’API first-party sont au même niveau que pour GLM-5.1
- $1.4 par 1M de tokens d’entrée
- $4.4 par 1M de tokens de sortie
- $0.26 par 1M de tokens cache hit
- Il utilise 43k tokens de sortie par tâche sur l’Intelligence Index, dont 37k sont des reasoning tokens
- Sa consommation de tokens de sortie est plus élevée que celle des principaux modèles open weights
- GLM-5.1 : 26k
- MiniMax-M3 : 24k
- Kimi K2.6 : 35k
- DeepSeek V4 Pro(max) : 37k
- Parmi les modèles open weights de niveau d’intelligence comparable, son efficacité en tokens est plutôt faible et il ne figure pas dans le quadrant le plus attractif du graphique Intelligence vs Output Tokens
Détails du modèle et accessibilité
- La licence de GLM-5.2 est MIT
- La fenêtre de contexte atteint 1M tokens, contre 200K pour GLM-5.1
- Il est disponible via l’API first-party de Z ai et chez plusieurs fournisseurs third-party
-
DeepInfra
-
Novita
-
Nebius
-
Parasail
-
Siliconflow
-
GMI Cloud
-
Baseten
- Fireworks
- GLM-5.2 obtient 4 points à l’AA-Omniscience Index, contre 2 points pour GLM-5.1
- Sa précision atteint 25.1%, contre 24.2% pour GLM-5.1
- Son hallucination rate est de 28.1%, contre 29.4% pour GLM-5.1
- Son attempt rate reste identique à 47%
- La comparaison des modèles est disponible sur la page GLM-5.2 d’Artificial Analysis
-
1 commentaires
Avis sur Hacker News
C’est une belle progression et le modèle semble proche de l’état de l’art, mais j’aimerais qu’on se concentre davantage maintenant sur l’efficacité du raisonnement
Pour évaluer les LLM, j’utilise un test où je leur fais écrire en Nim une petite bibliothèque d’évaluation d’expressions ; GLM 5.2 xhigh a raisonné plus de 15 minutes avant d’écrire le premier fichier et a consommé environ 45k tokens
D’après https://artificialanalysis.ai/#output-tokens, GPT 5.5 xhigh utilise en moyenne 16k tokens au total, high 10k, Fable 5 33k, Opus 4.8 41k et GLM 5.2 42k, donc l’efficacité de raisonnement de GPT 5.5 est de très loin la meilleure
Converti en coût réel par requête, GLM 5.2 sera sans doute moins cher que GPT 5.5/Opus 4.8, mais pour beaucoup de gens la vitesse compte aussi
Si on veut une consommation de tokens raisonnable, il faut exécuter GLM 5.2 en High ; pour la plupart des tâches, passer de Max à High entraîne peu de perte de qualité tout en réduisant l’usage de tokens d’un facteur 2 à 2,5
Au final, GLM 5.2 ressemble à une sorte de petit frère bien moins cher d’Opus 4.8, au point que certains plaisantent en disant qu’il est vraiment difficile de croire qu’aucune donnée d’entraînement issue d’Opus n’a été utilisée
Personnellement, ma combinaison GLM + OpenCode est largement meilleure que Claude Code + Opus, que je suis obligé d’utiliser au travail ; elle fait beaucoup moins d’erreurs de débutant façon StackOverflow et suit mieux les instructions
L’expérience utilisateur avec le harnais de test est aussi bien meilleure, car le modèle n’ignore pas la configuration, ne la modifie pas arbitrairement et ne fait pas de faux rapports ; on a l’impression que le fossé défensif d’Anthropic disparaît rapidement
On finit par l’interrompre et lui dire : “écris d’abord le code, puis résous les problèmes au fur et à mesure”, comme si le syndrome de la page blanche existait aussi chez les LLM
Selon Artificial Analysis, K2.7 Code a une intelligence comparable à K2.6, mais n’utilise que la moitié des tokens de sortie pour atteindre le même niveau
J’ai créé un script qui classe les modèles selon le codingindex d’Artificial Analysis, et je l’utilise tous les jours
Il récupère le JSON depuis la page principale du tableau et ne parse que les champs liés au code qui m’intéressent ; il existait aussi autrefois une liste de diffusion, mais je l’ai désactivée faute d’intérêt
Sur certains résultats actuels, on retrouve en tête Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max, etc., et on peut l’exécuter avec
$ curl day50.dev/art-analysis.sh | bashLe dépôt est https://github.com/day50-dev/aa-eval-email ; à l’heure actuelle, les modèles ouverts semblent avoir environ 4 à 7 mois de retard selon la méthode de mesure, mais à ce rythme un modèle à poids ouverts pourrait peut-être atteindre avant le Nouvel An le niveau de travail de Claude Fable 5
Il classe Gemma 4 31B au-dessus de DeepSeek V4 Flash, mais après avoir utilisé les deux sur des tâches de code variées, je choisirais DeepSeek à chaque fois
Je ne comprends pas pourquoi plus de gens n’en parlent pas
On a en pratique une qualité de niveau Opus 4.7 à un prix absurde, avec même des offres à 50 dollars par mois pour des tokens illimités, et certains facturent l’API trois fois moins cher que l’API officielle de ZAI
Même l’API officielle de ZAI est environ 10 fois moins chère qu’Opus, ce qui est un gros coup dur pour Anthropic/OpenAI/Google et une grande victoire pour le reste du monde ; sur les modèles ouverts, le prix et la vitesse de l’API officielle ne font pas tout
GLM 5.2 est peut-être proche d’Opus 4.7, mais si à chaque vérification je constate encore qu’on a juste affaire à de l’optimisation pour benchmark et pas à un niveau GPT ou Opus, je finirai par réagir comme à l’histoire du garçon qui criait au loup
Ils configurent souvent mal les modèles ou les quantifient en douce, et pendant un temps il y avait un écart de 20 à 40 % entre Kimi via l’API officielle et chez la plupart des fournisseurs tiers
Je me demandais où se trouvait cette API trois fois moins chère, puis j’ai vu que la tarification 8 bits de Croft était de $0.50/$0.08/$2.20
https://openrouter.ai/z-ai/glm-5.2
https://ai.nahcrof.com/pricing
Il est aussi difficile de comprendre comment faire tourner ces modèles, il n’y a pas de programme d’installation, et à moins de faire partie du 1 % vraiment motivé, on finit par chercher des guides pour découvrir qu’ils sont déjà obsolètes
Par rapport à “installer Claude Code et payer 100 dollars par mois”, la courbe d’apprentissage est beaucoup trop raide, et économiser 50 dollars par mois ne compense pas vraiment cet effort
Simplement parce que c’est davantage adapté aux non-ingénieurs dans un cadre enterprise
Dans le benchmark de codage d’Artificial Analysis, GLM 5.1 high est assez proche de GPT 5.5 xhigh en coût d’exécution, tandis que GPT 5.5 medium est bien moins cher
Comparé à GPT 5.5 medium, GLM 5.1 xhigh coûte deux fois plus cher pour environ deux fois moins d’intelligence, donc même sans GLM 5.2 il reste encore un écart important à combler
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE correspond aussi assez bien à mon expérience personnelle, donc je me demande à quel point l’agitation sur Internet autour des modèles ouverts est vraiment justifiée
Si l’on veut un modèle proche du meilleur niveau actuel, il semble plus honnête de citer pour l’instant Opus, Fable et GPT5.5
https://z.ai/blog/glm-5.2
Les abonnements OpenAI, Google et Anthropic n’offrent pas cette option de confidentialité, et il est aussi intéressant de voir dans le lien que GPT 5.5 est 7e dans Cursor CLI mais monte à la 3e place dans Codex CLI
Comme les modèles ouverts n’ont pas été testés dans Codex, il est difficile d’affirmer qu’il s’agit d’un benchmark pur du modèle, et il se peut que les modèles ouverts soient faibles sur le harness d’agent SWE, mais cela ne semble pas être l’explication la plus simple
Selon cette mesure, GPT-5.5 reste le roi en efficacité par token, en vitesse et en intelligence par dollar
https://deepswe.datacurve.ai/
Fable 5 est bon aussi, mais je n’ai pas encore vu GPT-5.6
C’est facilement 4 fois plus cher que DeepSeek V4, sans que le résultat me paraisse proportionnellement meilleur, et en revoyant ensuite le travail avec GPT 5.5 in Codex, il y avait aussi pas mal de passages brouillons
En rapport coût/efficacité, MiniMax M3 m’a semblé meilleur
Il était surprenant que GLM 5.1/5.2 ne soit pas un modèle de vision
C’est assez rare aujourd’hui, et les modèles d’OpenAI/Anthropic/Gemini acceptent tous des images, tout comme les grandes familles de poids ouverts comme Gemma 4, Qwen 3.6 et Kimi 2.x
GLM obtient de bons scores sur des tâches comme le web design, donc avec une entrée image il serait utile pour recevoir des captures d’écran et produire du HTML+CSS, et c’est clairement un manque sur ce point
On n’a pas forcément besoin d’« un seul modèle qui fait tout »
Gemma 31B se débrouille plutôt bien sur les tâches de vision, et avec 1 500 requêtes par jour, c’est pratiquement illimité
Il y a des usages comme les tâches UX/UI, mais en dehors de ça ce n’est pas très nécessaire, et même les modèles de pointe ne savent pas réellement reproduire des images ; d’après mon expérience, ils ne font qu’une approximation
Cela aurait été plus utile si c’était un modèle de vision
J’ai pas mal utilisé ce modèle au cours des 24 dernières heures, et j’ai pu confirmer qu’il est assez compétent
En revanche, il est un peu verbeux, et j’ai vu dans ses traces de raisonnement des cas où il reconsidérait son approche 3 ou 4 fois avant de choisir une direction ; sa capacité à traiter des demandes complexes et abstraites n’est pas au niveau de GPT5.5
Malgré cela, je recommanderais quand même à la plupart des gens la combinaison abonnement Z.AI + abonnement OpenAI à 20 dollars par mois, et un flux où GLM rédige puis GPT révise/débogue n’est que très légèrement inférieur à un usage GPT seul sur le forfait à 200 dollars par mois, tout en donnant une impression de quasi-illimité
C’est probablement pour cela qu’il est verbeux
Si l’on sait programmer, j’estime qu’on est arrivé à un stade où l’on peut déjà donner suffisamment d’informations au modèle pour lui faire faire ce dont on a besoin
En revanche, l’écriture reste bien plus difficile à cause de toutes ses nuances, même si cela s’améliore réellement de plus en plus
Une fois par jour, je colle mon code dans Claude Sonnet gratuit pour qu’il le rende réellement lisible
Opus 4.8 est bien un agent de codage plus solide, qui réussit là où DeepSeek 4.0 ou Kimi 2.7 vacillent et échouent, mais ses ornements rhétoriques dans le ton conversationnel deviennent de plus en plus agaçants, et il donne parfois l’impression de rester volontairement ambigu ou de retenir une partie de la vérité tant qu’on ne le pousse pas, ce qui me fait reconsidérer l’abonnement
GLM 5.2 est le premier modèle que nous avons testé à être clairement du niveau d’Opus 4.6, voire meilleur
Cela dit, de notre côté, nous évaluons GLM 5.2 et la plupart des modèles chinois un peu plus bas que d’autres benchmarks qui utilisent une méthodologie de test fragile
Les données sont ici : https://gertlabs.com/rankings
Je ne sais pas vraiment comment faire tourner ce type de modèle, mais je me demande à quel point on est proche du moment où les ETI et les grandes entreprises vont commencer à acheter du matériel pour héberger les modèles en local
C’est coûteux et moins performant que les modèles de pointe, mais les avantages en matière de confidentialité et de contrôle sont assez importants
Cela s’est vraiment accéléré à partir de Kimi K2, mais acheter et héberger ce type de matériel prend du temps
Toutes les entreprises ne veulent pas envoyer leurs secrets commerciaux à OpenAI ou Anthropic, et certaines n’en ont même pas le droit légalement
À l’époque où de bons modèles de vision comme AlexNet arrivaient, notamment pour l’OCR, les entreprises devaient déjà choisir entre le cloud et l’auto-hébergement sur GPU
Au final, le vrai sujet, c’est le profil d’usage : la charge se concentre sur certaines plages horaires pendant les heures de bureau, et le reste du temps les GPU restent inutilisés
Pour les tâches sensibles à la latence, c’est un compromis vieux de plusieurs décennies, pas un problème propre aux LLM
Il faudrait sans doute une ETI particulièrement déterminée
Pour fouiller d’énormes volumes de texte dans le cadre de la discovery, on n’a pas forcément besoin des tout meilleurs modèles, mais il faut une confidentialité absolue
Sur r/localllama, il y a pas mal d’avocats qui montrent fièrement leurs configurations multi-GPU, et ils ont justement les moyens de financer ça
On lit que « GLM-5.2 se situe sur la frontière de Pareto du coût par tâche par rapport à l’intelligence, et a le coût par tâche le plus bas parmi les modèles de même niveau d’intelligence », mais GLM-5.2 est indiqué à environ 0,46 $ par tâche, contre 0,25 $ pour GLM-5.1, 0,31 $ pour Kimi K2.6, 0,18 $ pour MiniMax-M3 et 0,05 $ pour DeepSeek V4 Pro max, donc j’ai l’impression de rater quelque chose
Au lieu de prendre d’autres modèles proches de 5.2 sur l’échelle d’intelligence, ils semblent avoir sélectionné quelques modèles ouverts plus bas dans le classement
Le coût d’inférence se mesure mieux par le nombre total de paramètres et le nombre de paramètres actifs
J’ai ajouté GLM 5.2 au benchmark fondé sur des bugs de Mythos ; il fait mieux que GLM 5.1, mais reste derrière plusieurs autres modèles, et la comparaison la plus directe serait avec Qwen 3.7 Max
Même de petits modèles ouverts auto-hébergeables comme Gemma 4 et Qwen 3.6 ont trouvé le même nombre de bugs, 3 sur 9, et GLM 5.2 n’a obtenu qu’un score partiel en localisant correctement un bug tout en interprétant mal sa nature
Kimi K2.7-code, ajouté dans la même exécution, n’a pas été à la hauteur des performances de 2.6, et sur ce benchmark précis il existe des modèles meilleurs et moins chers
https://swelljoe.com/post/will-it-mythos/
Ce petit benchmark ne prouve pas grand-chose, mais il est utile pour évaluer rapidement si un modèle peut raisonner sur des problèmes assez complexes dans du code