GLM-5 dévoilé : un modèle visant l’ingénierie système complexe et les tâches d’agent de longue durée

(z.ai)

6 points par GN⁺ 2026-02-12 | 4 commentaires | Partager sur WhatsApp

Un grand modèle de langage qui renforce l’efficacité de l’IA et sa capacité à exécuter des tâches sur la durée
Étendu à 744 milliards de paramètres (40 milliards actifs) par rapport à la version précédente, avec 28,5 billions de tokens de préentraînement
Intégration de DeepSeek Sparse Attention (DSA) pour conserver les capacités de traitement de longs contextes tout en réduisant les coûts de déploiement
Une nouvelle infrastructure d’apprentissage par renforcement asynchrone, slime, améliore l’efficacité de l’entraînement et enregistre des performances de premier plan sur divers benchmarks
Publié en open source, accessible sur Hugging Face, ModelScope et la plateforme Z.ai, avec compatibilité Claude Code et OpenClaw

Présentation de GLM-5

GLM-5 est un modèle conçu pour l’ingénierie système complexe et les tâches d’agent de longue durée
- Par rapport à GLM-4.5, le nombre de paramètres passe de 355 milliards (32 milliards actifs) à 744 milliards (40 milliards actifs)
- Les données de préentraînement passent de 23 à 28,5 billions de tokens
Il intègre DeepSeek Sparse Attention (DSA) afin de préserver le traitement des longs contextes tout en réduisant fortement les coûts de déploiement
Introduction de l’infrastructure d’apprentissage par renforcement asynchrone slime pour améliorer le débit et l’efficacité de l’entraînement et permettre des itérations de post-entraînement plus fines

Améliorations des performances et résultats des benchmarks

GLM-5 affiche une amélioration globale des performances par rapport à GLM-4.7 et se rapproche du niveau de Claude Opus 4.5
Sur l’ensemble d’évaluation interne CC-Bench-V2, il obtient d’excellents résultats en frontend, backend et sur les tâches de longue durée
Sur Vending Bench 2, il se classe 1er parmi les modèles open source, avec un solde final de 4 432 dollars dans une simulation d’un an d’activité de distributeurs automatiques
Il offre des performances open source de niveau mondial en raisonnement, code et tâches d’agent
- Exemples : SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7
Il réduit l’écart avec des modèles de premier plan comme GPT-5.2 et Gemini 3.0 Pro

Publication open source et voies d’accès

GLM-5 est publié sous licence MIT, avec téléchargement des poids du modèle disponible sur Hugging Face et ModelScope
Utilisable sous forme d’API via Z.ai, BigModel.cn et api.z.ai
Compatible avec Claude Code et OpenClaw, ce qui permet une intégration dans divers environnements de développement
La plateforme Z.ai propose un essai gratuit

Fonctions bureautiques et génération de documents

GLM-5 vise le passage du « chat » au travail, en jouant le rôle d’outil bureautique pour les travailleurs du savoir et les ingénieurs
Il peut convertir directement du texte ou des sources en formats .docx, .pdf, .xlsx afin de générer des documents finalisés comme des PRD, des sujets d’examen, des rapports financiers ou des menus
L’application Z.ai propose un mode Agent prenant en charge la génération de PDF/Word/Excel et la collaboration sur plusieurs tours

Support pour les développeurs et le déploiement

Les abonnés au GLM Coding Plan peuvent accéder progressivement à GLM-5
- Les utilisateurs du forfait Max peuvent l’activer immédiatement avec le nom de modèle "GLM-5"
- Les requêtes GLM-5 consomment davantage de quota que GLM-4.7
Pour les utilisateurs préférant un environnement GUI, un environnement de développement agentique Z Code est proposé
Grâce au framework OpenClaw, GLM-5 peut être utilisé comme agent assistant personnel opérant à travers les applications et les appareils

Déploiement local et compatibilité matérielle

GLM-5 prend en charge des frameworks d’inférence comme vLLM et SGLang, avec des instructions de déploiement fournies sur le GitHub officiel
Il peut aussi fonctionner sur des chipsets autres que NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, etc.)
- Des optimisations de kernel et la quantification du modèle permettent d’obtenir un débit raisonnable

4 commentaires

GN⁺ 2026-02-12

Commentaires sur Hacker News

J’ai vu les résultats générés via OpenRouter pour Pelican
L’oiseau en lui-même ressemble à un volatile robuste, mais c’est peu convaincant comme cadre de vélo
Lien connexe
- Merci à Simon de maintenir le seul système de benchmark vraiment pertinent
  Le contexte du test du pélican à vélo est disponible ici
- Je pense que c’est un test vraiment important, bravo à Simon
- J’ai l’impression que le benchmark du pélican est désormais dépassé
  Le SVG est déjà partout, il faut donc un nouveau scénario plus réaliste
- Je me demande combien de SVG de pélican à vélo existaient avant l’apparition de ce test
  Je crains que ce genre de résultats ne soit en train de polluer les données d’entraînement
- Je pense qu’appeler « oiseau robuste » un oiseau sans ailes est un exemple symbolique de l’écart entre les attentes et la réalité de l’IA
  Il est intéressant que l’IA dise elle-même « il faut des pattes palmées » alors qu’elles n’apparaissent pas dans l’image réelle
  L’attitude qui consiste à considérer 90 % de précision comme un « problème résolu », comme avec MMLU ou AIME, m’inquiète
  Une véritable AGI devrait atteindre 100 % de précision, et nous nous satisfaisons trop facilement
Je pense qu’à l’avenir, les copies rapides basées sur la distillation sur le marché gris sont inévitables
Avant, je pensais que les modèles N-1 ou N-2 ne seraient pas attractifs, mais maintenant même les préférences des utilisateurs semblent saturées, donc cela pourrait largement suffire
Opus 4.5 a clairement été un bond en avant, mais 4.6 n’a pas changé mon workflow
Au bout du compte, après « le plus grand vol de l’histoire de l’humanité », on aura probablement « le plus grand retour de bâton »
Les utilisateurs ne se soucieront absolument pas du fait que l’IA chinoise ait volé aux big tech américaines
- Si les entreprises de LLM justifient l’usage des données d’entraînement, alors il devrait être tout aussi légal pour les distillers d’entraîner leurs modèles sur les sorties de LLM
  On peut faire valoir l’argument : « on a juste appris comme des humains, alors pourquoi serait-ce illégal ? »
- Empêcher la distillation devrait plutôt être illégal
  Il suffit de créer des milliers de sites de contenus générés par IA et de publier dans chaque post les prompts et les informations sur le modèle
  D’autres pourront ensuite les crawler « par hasard » pour les utiliser dans l’entraînement
- Opus 4.6 se distingue surtout par sa persistance sur les tâches longues
  J’ai l’impression qu’il va deux fois plus loin qu’avant, et je n’ai pas envie de revenir en arrière
- Mais la consommation de tokens est tellement élevée que j’ai l’impression d’un recul en matière d’efficacité
Les benchmarks récents sont impressionnants, mais la comparaison se fait avec des modèles de l’ancienne génération (Opus 4.5, GPT-5.2)
Ces derniers temps, les modèles ouverts affichent de très bons scores en benchmark, mais l’expérience réelle est en dessous des attentes
Le benchmaxxing existe clairement
- Les critiques envers les modèles open weight me semblent trop agressives
  Faire tourner 20 benchmarks n’est déjà pas une mince affaire, et la nouvelle génération de modèles n’est sortie que depuis 5 jours
  Beaucoup de développeurs sont tombés dans le culte des modèles fermés et ignorent que les mêmes prompts ne fonctionnent pas avec d’autres familles de modèles
  J’utilise souvent GLM-4.7, qui est au niveau de Sonnet 4.5, et GLM-5 sera probablement du niveau d’Opus 4.5
- Si GLM-4.7 est au niveau de 4.5 ou 5.2, c’est en soi un bond énorme
- J’ai l’impression qu’aujourd’hui les modèles ne sont au fond que des générateurs de tokens
  Dans un test à l’aveugle, ils se ressemblent au point d’être indiscernables
  Même en comparant les réponses de Claude et de ChatGPT, c’est presque identique
  Au final, pour la plupart des usages, un modèle de niveau Toyota suffit largement
- Le problème, ce sont les limites du RLHF (apprentissage par renforcement à partir de retours humains)
  Les innovations algorithmiques restent possibles, mais le coût de production des données humaines est trop élevé pour passer à l’échelle
  Les modèles open source font encore beaucoup d’erreurs de syntaxe, alors que les modèles de pointe ont presque résolu ce problème
- Anthropic, OpenAI et Google améliorent leurs modèles avec de vraies données d’usage,
  tandis que les laboratoires chinois restent centrés sur les benchmarks, d’où l’écart
  L’auto-hébergement et l’amélioration continue sont difficiles à concilier
Grâce à l’open source chinois, on va probablement pouvoir disposer d’une intelligence auto-hébergée
C’est inefficace en termes de coût, mais j’aime l’idée de pouvoir fonctionner de manière autonome sans connexion Internet
Au final, macOS semble être la seule option grand public pour faire tourner localement de gros modèles
- Je dépasse souvent le quota de mon abonnement Claude Max, donc je tiens avec 2x RTX3090 et des modèles quantifiés Qwen3
  L’auto-hébergement a aussi de la valeur en matière de confidentialité et de disponibilité
  Il faut une alternative, surtout si la régulation numérique américaine se durcit
- Même pour les modèles open weight, les données d’entraînement et les critères de censure restent privés
  Malgré cela, l’avantage est qu’on peut corriger les biais via du fine-tuning
- Une machine Strix Halo avec 128 Go de VRAM coûte autour de 3 000 dollars, et elle peut faire tourner localement des modèles assez corrects
  Je recommande GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash, etc.
  D’ici 1 à 2 ans, j’espère qu’on pourra aussi faire tourner des modèles de la classe 512GB sur du matériel grand public
- Au lieu de macOS, installer chez soi une box d’inférence Linux headless est aussi une bonne idée
  C’est le retour du réseau domestique
- Je pense que plus que l’hébergement en direct, c’est la commoditisation de l’hébergement qui compte
  L’essentiel est d’avoir la liberté de changer de fournisseur à tout moment
J’utilise GLM-4.7 depuis quelques semaines, et c’est d’un niveau comparable à Sonnet
En revanche, il faut des consignes plus claires
Pour les grosses tâches, j’utilise toujours la famille Anthropic, mais pour les petites tâches bien définies, GLM offre le meilleur rapport qualité-prix
- J’ai eu une expérience similaire
  Livré à lui-même, GLM-4.7 a tendance à vouloir construire tout un monde inutilement
  Mais sur de petites tâches, il est comparable à Sonnet, et son prix très bas le rend utile comme modèle d’appoint
- Ces 6 à 8 derniers mois, je n’ai utilisé que Sonnet, mais Opus souffre souvent d’un bug de gloutonnerie en tokens
  Si les modèles ouverts progressent encore pendant environ 6 mois, je suis prêt à basculer
MiniMax M2.5 est aussi disponible à partir d’aujourd’hui dans la Chat UI
GLM est meilleur pour le code, mais j’utilise souvent MiniMax pour les tâches du quotidien grâce à sa vitesse et sa capacité d’appel d’outils
Le nouveau modèle est sorti sur OpenRouter
Dans mes benchmarks personnels, il était très faible en suivi des instructions
Il s’agit d’un test fondé sur chat.md + le format mcps, et il n’a pas réussi à l’exécuter correctement
- J’ai l’impression que les formats d’appel d’outils personnalisés sont appris différemment selon les modèles, donc il est difficile d’obtenir de la cohérence
  Je serais curieux de savoir quels résultats tu as obtenus avec d’autres modèles de pointe
- J’aime bien l’idée de chat.md
  Je travaillais moi aussi sur un éditeur de texte basé sur des raccourcis vim, et cette approche pourrait être une source d’inspiration UI
  Je pense ajouter une fonction pour replier le texte inutile
- Le problème vient peut-être de la qualité des fournisseurs OpenRouter
  Les performances sont parfois mauvaises
- OpenRouter héberge souvent des modèles quantifiés, ce qui dégrade la qualité
  Si possible, mieux vaut passer directement par le fournisseur d’origine
J’ai l’impression que GLM-4.7-Flash est le premier modèle intelligent vraiment exploitable pour coder en local
Il est comparable à Claude 4.5 Haiku, et son processus de raisonnement est transparent, ce qui permet de comprendre pourquoi il prend certaines décisions
Il est bien meilleur que Devstral 2 Small ou Qwen-Coder-Next
- minimax-m.2 est aussi assez proche de ce niveau
J’utilise GLM 4.7 dans opencode
Ce n’est pas le meilleur, mais ses quotas d’utilisation généreux permettent de s’en servir toute la journée
Le nouveau modèle est encore à accès limité, mais je l’attends avec impatience
J’ai brièvement testé le nouveau modèle dans opencode, et c’est assez impressionnant
Ce n’est pas une innovation majeure, mais c’est clairement meilleur que 4.7
La mémoire et la stabilité sur les tâches longues se sont nettement améliorées

jinifor 2026-02-12

Le prix de l’abonnement a augmenté.

princox 2026-02-13

La réduction de 50 % accordée lors de la première inscription a disparu..

fanotify 2026-02-12

Le tarif de lancement anticipé pour Max était de 360 $ par an, et il est passé à 672 $...