GLM-5.2 devient le modèle open weights n°1 selon Artificial Analysis

(artificialanalysis.ai)

1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp

GLM-5.2 de Z ai a obtenu un score de 51 dans l’Artificial Analysis Intelligence Index v4.1, prenant la tête des modèles open weights, et se situe aussi sur la frontière de Pareto en performance par rapport au coût
La taille du modèle reste identique à celle de GLM-5.1, avec 744B de paramètres au total / 40B de paramètres actifs, mais son score est supérieur de 11 points, devant MiniMax-M3, DeepSeek V4 Pro(max) et Kimi K2.6
Les gains apparaissent dans la plupart des évaluations, avec des hausses particulièrement marquées en raisonnement scientifique sur CritPt et HLE
Sur GDPval-AA v2, il atteint 1524 points, devant MiniMax-M3 et DeepSeek V4 Pro(max), et se situe à un niveau comparable à GPT-5.5(xhigh reasoning)
Il utilise 43k tokens de sortie par tâche, ce qui le rend plutôt peu efficace en tokens, mais son coût par tâche fait partie des plus bas parmi les modèles de même niveau d’intelligence

En tête des open weights dans l’Intelligence Index v4.1

GLM-5.2 a obtenu un score de 51 dans l’Artificial Analysis Intelligence Index v4.1, ce qui le place n°1 parmi les modèles open weights
Voici les scores des principaux modèles open weights
- MiniMax-M3 : 44
- DeepSeek V4 Pro(max) : 44
- Kimi K2.6 : 43
GLM-5.2 conserve la même taille que GLM-5.1, soit 744B de paramètres au total / 40B de paramètres actifs, mais son score à l’Intelligence Index v4.1 est supérieur de 11 points

Améliorations des performances selon les évaluations

GLM-5.2 progresse par rapport à GLM-5.1 dans la plupart des évaluations
Les progrès sont particulièrement importants sur les évaluations liées au raisonnement scientifique
- CritPt : +16 points, 21%
- HLE : +12 points, 40%
- GPQA Diamond : +3 points, 89%
Des améliorations équilibrées apparaissent aussi sur d’autres évaluations
- AA-LCR : +9 points, 71%
- tau3 banking : +15 points, 27%
- SciCode : +7 points, 50%
- TerminalBench v2.1 : +16 points, 78%

GDPval-AA v2 et performances d’agent

GLM-5.2 a obtenu 1524 points sur GDPval-AA v2, un indicateur des performances d’agent en conditions réelles
C’est le meilleur score parmi les modèles open weights comparés
- GLM-5.2 : 1524
- MiniMax-M3 : 1418
- DeepSeek V4 Pro(max) : 1328
Ce résultat est en pratique comparable aux 1514 points de GPT-5.5(xhigh reasoning)
GDPval-AA v2 fait évoluer la méthode d’évaluation par rapport à GDPval-AA
- La référence Elo est fixée à 1000 pour les performances humaines
- Introduction d’un panel rotatif de juges frontier-model
- La limite de tours est relevée de 100 à 250 pour gérer des trajectoires d’agent plus longues

Coût, tarification et consommation de tokens

GLM-5.2 figure sur la frontière de Pareto du graphique Intelligence vs Cost per Task, et son coût par tâche fait partie des plus bas parmi les modèles de même niveau d’intelligence
Son coût par tâche est plus élevé que celui de GLM-5.1, mais sa position reste avantageuse au vu de son score d’intelligence supérieur
- GLM-5.2 : environ $0.46
- GLM-5.1 : $0.25
- Kimi K2.6 : $0.31
- MiniMax-M3 : $0.18
- DeepSeek V4 Pro(max) : $0.05
Les prix de l’API first-party sont au même niveau que pour GLM-5.1
- $1.4 par 1M de tokens d’entrée
- $4.4 par 1M de tokens de sortie
- $0.26 par 1M de tokens cache hit
Il utilise 43k tokens de sortie par tâche sur l’Intelligence Index, dont 37k sont des reasoning tokens
Sa consommation de tokens de sortie est plus élevée que celle des principaux modèles open weights
- GLM-5.1 : 26k
- MiniMax-M3 : 24k
- Kimi K2.6 : 35k
- DeepSeek V4 Pro(max) : 37k
Parmi les modèles open weights de niveau d’intelligence comparable, son efficacité en tokens est plutôt faible et il ne figure pas dans le quadrant le plus attractif du graphique Intelligence vs Output Tokens

Détails du modèle et accessibilité

La licence de GLM-5.2 est MIT
La fenêtre de contexte atteint 1M tokens, contre 200K pour GLM-5.1
Il est disponible via l’API first-party de Z ai et chez plusieurs fournisseurs third-party
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - GLM-5.2 obtient 4 points à l’AA-Omniscience Index, contre 2 points pour GLM-5.1
  - Sa précision atteint 25.1%, contre 24.2% pour GLM-5.1
  - Son hallucination rate est de 28.1%, contre 29.4% pour GLM-5.1
  - Son attempt rate reste identique à 47%
  - La comparaison des modèles est disponible sur la page GLM-5.2 d’Artificial Analysis

1 commentaires

GN⁺ 4 시간 전

Avis sur Hacker News

C’est une belle progression et le modèle semble proche de l’état de l’art, mais j’aimerais qu’on se concentre davantage maintenant sur l’efficacité du raisonnement
Pour évaluer les LLM, j’utilise un test où je leur fais écrire en Nim une petite bibliothèque d’évaluation d’expressions ; GLM 5.2 xhigh a raisonné plus de 15 minutes avant d’écrire le premier fichier et a consommé environ 45k tokens
D’après https://artificialanalysis.ai/#output-tokens, GPT 5.5 xhigh utilise en moyenne 16k tokens au total, high 10k, Fable 5 33k, Opus 4.8 41k et GLM 5.2 42k, donc l’efficacité de raisonnement de GPT 5.5 est de très loin la meilleure
Converti en coût réel par requête, GLM 5.2 sera sans doute moins cher que GPT 5.5/Opus 4.8, mais pour beaucoup de gens la vitesse compte aussi
- GLM 5.2 Max semble avoir la même manière de raisonner que Opus 4.8 Max, et l’usage de la chaîne de pensée comme des tokens de sortie est très similaire
  Si on veut une consommation de tokens raisonnable, il faut exécuter GLM 5.2 en High ; pour la plupart des tâches, passer de Max à High entraîne peu de perte de qualité tout en réduisant l’usage de tokens d’un facteur 2 à 2,5
  Au final, GLM 5.2 ressemble à une sorte de petit frère bien moins cher d’Opus 4.8, au point que certains plaisantent en disant qu’il est vraiment difficile de croire qu’aucune donnée d’entraînement issue d’Opus n’a été utilisée
- Plutôt que de dire qu’il est “proche de l’état de l’art”, je dirais qu’il l’a déjà dépassé
  Personnellement, ma combinaison GLM + OpenCode est largement meilleure que Claude Code + Opus, que je suis obligé d’utiliser au travail ; elle fait beaucoup moins d’erreurs de débutant façon StackOverflow et suit mieux les instructions
  L’expérience utilisateur avec le harnais de test est aussi bien meilleure, car le modèle n’ignore pas la configuration, ne la modifie pas arbitrairement et ne fait pas de faux rapports ; on a l’impression que le fossé défensif d’Anthropic disparaît rapidement
- Opus a un problème comparable : il réfléchit trop longtemps en répétant “attends, et si…”
  On finit par l’interrompre et lui dire : “écris d’abord le code, puis résous les problèmes au fur et à mesure”, comme si le syndrome de la page blanche existait aussi chez les LLM
- Ça me fait penser à https://en.wikipedia.org/wiki/Portia_(spider)
- J’aimerais que le travail récent de Moonshot sur Kimi K2.7 Code se diffuse aussi aux autres laboratoires de modèles ouverts
  Selon Artificial Analysis, K2.7 Code a une intelligence comparable à K2.6, mais n’utilise que la moitié des tokens de sortie pour atteindre le même niveau
J’ai créé un script qui classe les modèles selon le codingindex d’Artificial Analysis, et je l’utilise tous les jours
Il récupère le JSON depuis la page principale du tableau et ne parse que les champs liés au code qui m’intéressent ; il existait aussi autrefois une liste de diffusion, mais je l’ai désactivée faute d’intérêt
Sur certains résultats actuels, on retrouve en tête Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max, etc., et on peut l’exécuter avec $ curl day50.dev/art-analysis.sh | bash
Le dépôt est https://github.com/day50-dev/aa-eval-email ; à l’heure actuelle, les modèles ouverts semblent avoir environ 4 à 7 mois de retard selon la méthode de mesure, mais à ce rythme un modèle à poids ouverts pourrait peut-être atteindre avant le Nouvel An le niveau de travail de Claude Fable 5
- L’indice de code d’Artificial Analysis n’est composé que de deux benchmarks, Terminal-Bench Hard et SciCode, donc je doute que ce soit un bon indicateur du codage
  Il classe Gemma 4 31B au-dessus de DeepSeek V4 Flash, mais après avoir utilisé les deux sur des tâches de code variées, je choisirais DeepSeek à chaque fois
- Beau projet, mais demander aux gens d’exécuter tel quel un script Bash d’origine inconnue reste à mon avis une très mauvaise pratique
Je ne comprends pas pourquoi plus de gens n’en parlent pas
On a en pratique une qualité de niveau Opus 4.7 à un prix absurde, avec même des offres à 50 dollars par mois pour des tokens illimités, et certains facturent l’API trois fois moins cher que l’API officielle de ZAI
Même l’API officielle de ZAI est environ 10 fois moins chère qu’Opus, ce qui est un gros coup dur pour Anthropic/OpenAI/Google et une grande victoire pour le reste du monde ; sur les modèles ouverts, le prix et la vitesse de l’API officielle ne font pas tout
- J’ai essayé quelques modèles ouverts chinois ; ils sont corrects, mais n’atteignent pas le niveau des benchmarks qu’ils revendiquent
  GLM 5.2 est peut-être proche d’Opus 4.7, mais si à chaque vérification je constate encore qu’on a juste affaire à de l’optimisation pour benchmark et pas à un niveau GPT ou Opus, je finirai par réagir comme à l’histoire du garçon qui criait au loup
- Il faut se méfier des fournisseurs non officiels
  Ils configurent souvent mal les modèles ou les quantifient en douce, et pendant un temps il y avait un écart de 20 à 40 % entre Kimi via l’API officielle et chez la plupart des fournisseurs tiers
- Sur OpenRouter, certaines offres moins chères sont des modèles quantifiés, et on ne sait pas vraiment à quel point la quantification réduit l’intelligence
  Je me demandais où se trouvait cette API trois fois moins chère, puis j’ai vu que la tarification 8 bits de Croft était de $0.50/$0.08/$2.20
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- Il y a trop d’options, au point que rien que suivre tout cela coûte déjà cher cognitivement pour un humain
  Il est aussi difficile de comprendre comment faire tourner ces modèles, il n’y a pas de programme d’installation, et à moins de faire partie du 1 % vraiment motivé, on finit par chercher des guides pour découvrir qu’ils sont déjà obsolètes
  Par rapport à “installer Claude Code et payer 100 dollars par mois”, la courbe d’apprentissage est beaucoup trop raide, et économiser 50 dollars par mois ne compense pas vraiment cet effort
- Dans notre organisation, tout le monde est excessivement focalisé sur Claude, comme si c’était l’unique LLM existant
  Simplement parce que c’est davantage adapté aux non-ingénieurs dans un cadre enterprise
Dans le benchmark de codage d’Artificial Analysis, GLM 5.1 high est assez proche de GPT 5.5 xhigh en coût d’exécution, tandis que GPT 5.5 medium est bien moins cher
Comparé à GPT 5.5 medium, GLM 5.1 xhigh coûte deux fois plus cher pour environ deux fois moins d’intelligence, donc même sans GLM 5.2 il reste encore un écart important à combler
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE correspond aussi assez bien à mon expérience personnelle, donc je me demande à quel point l’agitation sur Internet autour des modèles ouverts est vraiment justifiée
Si l’on veut un modèle proche du meilleur niveau actuel, il semble plus honnête de citer pour l’instant Opus, Fable et GPT5.5
- Dans les tests internes de Z.ai, GLM 5.2 a obtenu 46,2 points sur DeepSWE, ce qui le place entre Opus 4.7 xhigh et Opus 4.8 medium
  https://z.ai/blog/glm-5.2
- Avec un modèle ouvert, on peut avoir un abonnement respectueux de la vie privée pour le même coût que Codex
  Les abonnements OpenAI, Google et Anthropic n’offrent pas cette option de confidentialité, et il est aussi intéressant de voir dans le lien que GPT 5.5 est 7e dans Cursor CLI mais monte à la 3e place dans Codex CLI
  Comme les modèles ouverts n’ont pas été testés dans Codex, il est difficile d’affirmer qu’il s’agit d’un benchmark pur du modèle, et il se peut que les modèles ouverts soient faibles sur le harness d’agent SWE, mais cela ne semble pas être l’explication la plus simple
- DeepSWE donne l’impression d’être un benchmark plus « juste » que l’indice d’Artificial Analysis ou d’autres benchmarks de codage
  Selon cette mesure, GPT-5.5 reste le roi en efficacité par token, en vitesse et en intelligence par dollar
  https://deepswe.datacurve.ai/
  Fable 5 est bon aussi, mais je n’ai pas encore vu GPT-5.6
- J’ai essayé GLM 5.2 hier sur OpenRouter, et c’était globalement correct, mais sur une tâche relativement lente de 30 minutes, la facture en tokens est montée à 5 dollars
  C’est facilement 4 fois plus cher que DeepSeek V4, sans que le résultat me paraisse proportionnellement meilleur, et en revoyant ensuite le travail avec GPT 5.5 in Codex, il y avait aussi pas mal de passages brouillons
  En rapport coût/efficacité, MiniMax M3 m’a semblé meilleur
Il était surprenant que GLM 5.1/5.2 ne soit pas un modèle de vision
C’est assez rare aujourd’hui, et les modèles d’OpenAI/Anthropic/Gemini acceptent tous des images, tout comme les grandes familles de poids ouverts comme Gemma 4, Qwen 3.6 et Kimi 2.x
GLM obtient de bons scores sur des tâches comme le web design, donc avec une entrée image il serait utile pour recevoir des captures d’écran et produire du HTML+CSS, et c’est clairement un manque sur ce point
- Il suffit de configurer des sous-agents dans le harness de codage afin que, pour ce type de tâche, n’importe quel modèle de vision lance une nouvelle sous-session, puis que le résultat soit réinjecté dans le modèle principal
  On n’a pas forcément besoin d’« un seul modèle qui fait tout »
- J’utilise Google AI Studio comme pont de vision gratuit
  Gemma 31B se débrouille plutôt bien sur les tâches de vision, et avec 1 500 requêtes par jour, c’est pratiquement illimité
- Ça ne me semble pas être un manque si important
  Il y a des usages comme les tâches UX/UI, mais en dehors de ça ce n’est pas très nécessaire, et même les modèles de pointe ne savent pas réellement reproduire des images ; d’après mon expérience, ils ne font qu’une approximation
- La réaction était la même pour DeepSeek V4
  Cela aurait été plus utile si c’était un modèle de vision
J’ai pas mal utilisé ce modèle au cours des 24 dernières heures, et j’ai pu confirmer qu’il est assez compétent
En revanche, il est un peu verbeux, et j’ai vu dans ses traces de raisonnement des cas où il reconsidérait son approche 3 ou 4 fois avant de choisir une direction ; sa capacité à traiter des demandes complexes et abstraites n’est pas au niveau de GPT5.5
Malgré cela, je recommanderais quand même à la plupart des gens la combinaison abonnement Z.AI + abonnement OpenAI à 20 dollars par mois, et un flux où GLM rédige puis GPT révise/débogue n’est que très légèrement inférieur à un usage GPT seul sur le forfait à 200 dollars par mois, tout en donnant une impression de quasi-illimité
- J’ai appris aujourd’hui que l’intensité de raisonnement par défaut était réglée sur max
  C’est probablement pour cela qu’il est verbeux
- Ce qui m’importe le plus en ce moment, c’est à quel point un modèle écrit bien
  Si l’on sait programmer, j’estime qu’on est arrivé à un stade où l’on peut déjà donner suffisamment d’informations au modèle pour lui faire faire ce dont on a besoin
  En revanche, l’écriture reste bien plus difficile à cause de toutes ses nuances, même si cela s’améliore réellement de plus en plus
- Mon workflow est aussi comme ça
  Une fois par jour, je colle mon code dans Claude Sonnet gratuit pour qu’il le rende réellement lisible
- Depuis que j’ai goûté à Fable 5, même Opus 4.8 ne me semble plus suffisant
  Opus 4.8 est bien un agent de codage plus solide, qui réussit là où DeepSeek 4.0 ou Kimi 2.7 vacillent et échouent, mais ses ornements rhétoriques dans le ton conversationnel deviennent de plus en plus agaçants, et il donne parfois l’impression de rester volontairement ambigu ou de retenir une partie de la vérité tant qu’on ne le pousse pas, ce qui me fait reconsidérer l’abonnement
GLM 5.2 est le premier modèle que nous avons testé à être clairement du niveau d’Opus 4.6, voire meilleur
Cela dit, de notre côté, nous évaluons GLM 5.2 et la plupart des modèles chinois un peu plus bas que d’autres benchmarks qui utilisent une méthodologie de test fragile
Les données sont ici : https://gertlabs.com/rankings
Je ne sais pas vraiment comment faire tourner ce type de modèle, mais je me demande à quel point on est proche du moment où les ETI et les grandes entreprises vont commencer à acheter du matériel pour héberger les modèles en local
C’est coûteux et moins performant que les modèles de pointe, mais les avantages en matière de confidentialité et de contrôle sont assez importants
- Plusieurs entreprises européennes fonctionnent déjà ainsi depuis un moment avec des modèles 70B, et elles mettent à niveau leur matériel pour faire tourner les nouveaux modèles de 700B à 1T
  Cela s’est vraiment accéléré à partir de Kimi K2, mais acheter et héberger ce type de matériel prend du temps
  Toutes les entreprises ne veulent pas envoyer leurs secrets commerciaux à OpenAI ou Anthropic, et certaines n’en ont même pas le droit légalement
- Ce n’est pas une situation nouvelle
  À l’époque où de bons modèles de vision comme AlexNet arrivaient, notamment pour l’OCR, les entreprises devaient déjà choisir entre le cloud et l’auto-hébergement sur GPU
  Au final, le vrai sujet, c’est le profil d’usage : la charge se concentre sur certaines plages horaires pendant les heures de bureau, et le reste du temps les GPU restent inutilisés
  Pour les tâches sensibles à la latence, c’est un compromis vieux de plusieurs décennies, pas un problème propre aux LLM
- C’est un modèle d’environ 750B, donc les besoins en VRAM sont énormes
  Il faudrait sans doute une ETI particulièrement déterminée
- Jusqu’ici, le principal cas d’usage nécessitant une confidentialité totale semble être le travail juridique
  Pour fouiller d’énormes volumes de texte dans le cadre de la discovery, on n’a pas forcément besoin des tout meilleurs modèles, mais il faut une confidentialité absolue
  Sur r/localllama, il y a pas mal d’avocats qui montrent fièrement leurs configurations multi-GPU, et ils ont justement les moyens de financer ça
- Sauf vraie préoccupation de sécurité nationale, il vaut mieux négocier avec quelques fournisseurs existants des contrats commerciaux intégrant des garanties de confidentialité
On lit que « GLM-5.2 se situe sur la frontière de Pareto du coût par tâche par rapport à l’intelligence, et a le coût par tâche le plus bas parmi les modèles de même niveau d’intelligence », mais GLM-5.2 est indiqué à environ 0,46 $ par tâche, contre 0,25 $ pour GLM-5.1, 0,31 $ pour Kimi K2.6, 0,18 $ pour MiniMax-M3 et 0,05 $ pour DeepSeek V4 Pro max, donc j’ai l’impression de rater quelque chose
- J’ai l’impression que les éléments de comparaison ont été mal choisis
  Au lieu de prendre d’autres modèles proches de 5.2 sur l’échelle d’intelligence, ils semblent avoir sélectionné quelques modèles ouverts plus bas dans le classement
- Frontière de Pareto ne veut pas dire le moins cher
- Certains modèles sont fortement subventionnés
  Le coût d’inférence se mesure mieux par le nombre total de paramètres et le nombre de paramètres actifs
J’ai ajouté GLM 5.2 au benchmark fondé sur des bugs de Mythos ; il fait mieux que GLM 5.1, mais reste derrière plusieurs autres modèles, et la comparaison la plus directe serait avec Qwen 3.7 Max
Même de petits modèles ouverts auto-hébergeables comme Gemma 4 et Qwen 3.6 ont trouvé le même nombre de bugs, 3 sur 9, et GLM 5.2 n’a obtenu qu’un score partiel en localisant correctement un bug tout en interprétant mal sa nature
Kimi K2.7-code, ajouté dans la même exécution, n’a pas été à la hauteur des performances de 2.6, et sur ce benchmark précis il existe des modèles meilleurs et moins chers
https://swelljoe.com/post/will-it-mythos/
Ce petit benchmark ne prouve pas grand-chose, mais il est utile pour évaluer rapidement si un modèle peut raisonner sur des problèmes assez complexes dans du code

GLM-5.2 devient le modèle open weights n°1 selon Artificial Analysis

En tête des open weights dans l’Intelligence Index v4.1

Améliorations des performances selon les évaluations

GDPval-AA v2 et performances d’agent

Coût, tarification et consommation de tokens

Détails du modèle et accessibilité

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

À lire aussi

1 commentaires

Avis sur Hacker News