- Un grand modèle de langage qui renforce l’efficacité de l’IA et sa capacité à exécuter des tâches sur la durée
- Étendu à 744 milliards de paramètres (40 milliards actifs) par rapport à la version précédente, avec 28,5 billions de tokens de préentraînement
- Intégration de DeepSeek Sparse Attention (DSA) pour conserver les capacités de traitement de longs contextes tout en réduisant les coûts de déploiement
- Une nouvelle infrastructure d’apprentissage par renforcement asynchrone,
slime, améliore l’efficacité de l’entraînement et enregistre des performances de premier plan sur divers benchmarks
- Publié en open source, accessible sur Hugging Face, ModelScope et la plateforme Z.ai, avec compatibilité Claude Code et OpenClaw
Présentation de GLM-5
- GLM-5 est un modèle conçu pour l’ingénierie système complexe et les tâches d’agent de longue durée
- Par rapport à GLM-4.5, le nombre de paramètres passe de 355 milliards (32 milliards actifs) à 744 milliards (40 milliards actifs)
- Les données de préentraînement passent de 23 à 28,5 billions de tokens
- Il intègre DeepSeek Sparse Attention (DSA) afin de préserver le traitement des longs contextes tout en réduisant fortement les coûts de déploiement
- Introduction de l’infrastructure d’apprentissage par renforcement asynchrone
slime pour améliorer le débit et l’efficacité de l’entraînement et permettre des itérations de post-entraînement plus fines
Améliorations des performances et résultats des benchmarks
- GLM-5 affiche une amélioration globale des performances par rapport à GLM-4.7 et se rapproche du niveau de Claude Opus 4.5
- Sur l’ensemble d’évaluation interne CC-Bench-V2, il obtient d’excellents résultats en frontend, backend et sur les tâches de longue durée
- Sur Vending Bench 2, il se classe 1er parmi les modèles open source, avec un solde final de 4 432 dollars dans une simulation d’un an d’activité de distributeurs automatiques
- Il offre des performances open source de niveau mondial en raisonnement, code et tâches d’agent
- Exemples : SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7
- Il réduit l’écart avec des modèles de premier plan comme GPT-5.2 et Gemini 3.0 Pro
Publication open source et voies d’accès
- GLM-5 est publié sous licence MIT, avec téléchargement des poids du modèle disponible sur Hugging Face et ModelScope
- Utilisable sous forme d’API via Z.ai, BigModel.cn et api.z.ai
- Compatible avec Claude Code et OpenClaw, ce qui permet une intégration dans divers environnements de développement
- La plateforme Z.ai propose un essai gratuit
Fonctions bureautiques et génération de documents
- GLM-5 vise le passage du « chat » au travail, en jouant le rôle d’outil bureautique pour les travailleurs du savoir et les ingénieurs
- Il peut convertir directement du texte ou des sources en formats .docx, .pdf, .xlsx afin de générer des documents finalisés comme des PRD, des sujets d’examen, des rapports financiers ou des menus
- L’application Z.ai propose un mode Agent prenant en charge la génération de PDF/Word/Excel et la collaboration sur plusieurs tours
Support pour les développeurs et le déploiement
- Les abonnés au GLM Coding Plan peuvent accéder progressivement à GLM-5
- Les utilisateurs du forfait Max peuvent l’activer immédiatement avec le nom de modèle
"GLM-5"
- Les requêtes GLM-5 consomment davantage de quota que GLM-4.7
- Pour les utilisateurs préférant un environnement GUI, un environnement de développement agentique Z Code est proposé
- Grâce au framework OpenClaw, GLM-5 peut être utilisé comme agent assistant personnel opérant à travers les applications et les appareils
Déploiement local et compatibilité matérielle
- GLM-5 prend en charge des frameworks d’inférence comme vLLM et SGLang, avec des instructions de déploiement fournies sur le GitHub officiel
- Il peut aussi fonctionner sur des chipsets autres que NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, etc.)
- Des optimisations de kernel et la quantification du modèle permettent d’obtenir un débit raisonnable
4 commentaires
Commentaires sur Hacker News
J’ai vu les résultats générés via OpenRouter pour Pelican
L’oiseau en lui-même ressemble à un volatile robuste, mais c’est peu convaincant comme cadre de vélo
Lien connexe
Le contexte du test du pélican à vélo est disponible ici
Le SVG est déjà partout, il faut donc un nouveau scénario plus réaliste
Je crains que ce genre de résultats ne soit en train de polluer les données d’entraînement
Il est intéressant que l’IA dise elle-même « il faut des pattes palmées » alors qu’elles n’apparaissent pas dans l’image réelle
L’attitude qui consiste à considérer 90 % de précision comme un « problème résolu », comme avec MMLU ou AIME, m’inquiète
Une véritable AGI devrait atteindre 100 % de précision, et nous nous satisfaisons trop facilement
Je pense qu’à l’avenir, les copies rapides basées sur la distillation sur le marché gris sont inévitables
Avant, je pensais que les modèles N-1 ou N-2 ne seraient pas attractifs, mais maintenant même les préférences des utilisateurs semblent saturées, donc cela pourrait largement suffire
Opus 4.5 a clairement été un bond en avant, mais 4.6 n’a pas changé mon workflow
Au bout du compte, après « le plus grand vol de l’histoire de l’humanité », on aura probablement « le plus grand retour de bâton »
Les utilisateurs ne se soucieront absolument pas du fait que l’IA chinoise ait volé aux big tech américaines
On peut faire valoir l’argument : « on a juste appris comme des humains, alors pourquoi serait-ce illégal ? »
Il suffit de créer des milliers de sites de contenus générés par IA et de publier dans chaque post les prompts et les informations sur le modèle
D’autres pourront ensuite les crawler « par hasard » pour les utiliser dans l’entraînement
J’ai l’impression qu’il va deux fois plus loin qu’avant, et je n’ai pas envie de revenir en arrière
Les benchmarks récents sont impressionnants, mais la comparaison se fait avec des modèles de l’ancienne génération (Opus 4.5, GPT-5.2)
Ces derniers temps, les modèles ouverts affichent de très bons scores en benchmark, mais l’expérience réelle est en dessous des attentes
Le benchmaxxing existe clairement
Faire tourner 20 benchmarks n’est déjà pas une mince affaire, et la nouvelle génération de modèles n’est sortie que depuis 5 jours
Beaucoup de développeurs sont tombés dans le culte des modèles fermés et ignorent que les mêmes prompts ne fonctionnent pas avec d’autres familles de modèles
J’utilise souvent GLM-4.7, qui est au niveau de Sonnet 4.5, et GLM-5 sera probablement du niveau d’Opus 4.5
Dans un test à l’aveugle, ils se ressemblent au point d’être indiscernables
Même en comparant les réponses de Claude et de ChatGPT, c’est presque identique
Au final, pour la plupart des usages, un modèle de niveau Toyota suffit largement
Les innovations algorithmiques restent possibles, mais le coût de production des données humaines est trop élevé pour passer à l’échelle
Les modèles open source font encore beaucoup d’erreurs de syntaxe, alors que les modèles de pointe ont presque résolu ce problème
tandis que les laboratoires chinois restent centrés sur les benchmarks, d’où l’écart
L’auto-hébergement et l’amélioration continue sont difficiles à concilier
Grâce à l’open source chinois, on va probablement pouvoir disposer d’une intelligence auto-hébergée
C’est inefficace en termes de coût, mais j’aime l’idée de pouvoir fonctionner de manière autonome sans connexion Internet
Au final, macOS semble être la seule option grand public pour faire tourner localement de gros modèles
L’auto-hébergement a aussi de la valeur en matière de confidentialité et de disponibilité
Il faut une alternative, surtout si la régulation numérique américaine se durcit
Malgré cela, l’avantage est qu’on peut corriger les biais via du fine-tuning
Je recommande GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash, etc.
D’ici 1 à 2 ans, j’espère qu’on pourra aussi faire tourner des modèles de la classe 512GB sur du matériel grand public
C’est le retour du réseau domestique
L’essentiel est d’avoir la liberté de changer de fournisseur à tout moment
J’utilise GLM-4.7 depuis quelques semaines, et c’est d’un niveau comparable à Sonnet
En revanche, il faut des consignes plus claires
Pour les grosses tâches, j’utilise toujours la famille Anthropic, mais pour les petites tâches bien définies, GLM offre le meilleur rapport qualité-prix
Livré à lui-même, GLM-4.7 a tendance à vouloir construire tout un monde inutilement
Mais sur de petites tâches, il est comparable à Sonnet, et son prix très bas le rend utile comme modèle d’appoint
Si les modèles ouverts progressent encore pendant environ 6 mois, je suis prêt à basculer
MiniMax M2.5 est aussi disponible à partir d’aujourd’hui dans la Chat UI
GLM est meilleur pour le code, mais j’utilise souvent MiniMax pour les tâches du quotidien grâce à sa vitesse et sa capacité d’appel d’outils
Le nouveau modèle est sorti sur OpenRouter
Dans mes benchmarks personnels, il était très faible en suivi des instructions
Il s’agit d’un test fondé sur chat.md + le format mcps, et il n’a pas réussi à l’exécuter correctement
Je serais curieux de savoir quels résultats tu as obtenus avec d’autres modèles de pointe
Je travaillais moi aussi sur un éditeur de texte basé sur des raccourcis vim, et cette approche pourrait être une source d’inspiration UI
Je pense ajouter une fonction pour replier le texte inutile
Les performances sont parfois mauvaises
Si possible, mieux vaut passer directement par le fournisseur d’origine
J’ai l’impression que GLM-4.7-Flash est le premier modèle intelligent vraiment exploitable pour coder en local
Il est comparable à Claude 4.5 Haiku, et son processus de raisonnement est transparent, ce qui permet de comprendre pourquoi il prend certaines décisions
Il est bien meilleur que Devstral 2 Small ou Qwen-Coder-Next
J’utilise GLM 4.7 dans opencode
Ce n’est pas le meilleur, mais ses quotas d’utilisation généreux permettent de s’en servir toute la journée
Le nouveau modèle est encore à accès limité, mais je l’attends avec impatience
J’ai brièvement testé le nouveau modèle dans opencode, et c’est assez impressionnant
Ce n’est pas une innovation majeure, mais c’est clairement meilleur que 4.7
La mémoire et la stabilité sur les tâches longues se sont nettement améliorées
Le prix de l’abonnement a augmenté.
La réduction de 50 % accordée lors de la première inscription a disparu..
Le tarif de lancement anticipé pour Max était de 360 $ par an, et il est passé à 672 $...