6 points par GN⁺ 2026-02-12 | 4 commentaires | Partager sur WhatsApp
  • Un grand modèle de langage qui renforce l’efficacité de l’IA et sa capacité à exécuter des tâches sur la durée
  • Étendu à 744 milliards de paramètres (40 milliards actifs) par rapport à la version précédente, avec 28,5 billions de tokens de préentraînement
  • Intégration de DeepSeek Sparse Attention (DSA) pour conserver les capacités de traitement de longs contextes tout en réduisant les coûts de déploiement
  • Une nouvelle infrastructure d’apprentissage par renforcement asynchrone, slime, améliore l’efficacité de l’entraînement et enregistre des performances de premier plan sur divers benchmarks
  • Publié en open source, accessible sur Hugging Face, ModelScope et la plateforme Z.ai, avec compatibilité Claude Code et OpenClaw

Présentation de GLM-5

  • GLM-5 est un modèle conçu pour l’ingénierie système complexe et les tâches d’agent de longue durée
    • Par rapport à GLM-4.5, le nombre de paramètres passe de 355 milliards (32 milliards actifs) à 744 milliards (40 milliards actifs)
    • Les données de préentraînement passent de 23 à 28,5 billions de tokens
  • Il intègre DeepSeek Sparse Attention (DSA) afin de préserver le traitement des longs contextes tout en réduisant fortement les coûts de déploiement
  • Introduction de l’infrastructure d’apprentissage par renforcement asynchrone slime pour améliorer le débit et l’efficacité de l’entraînement et permettre des itérations de post-entraînement plus fines

Améliorations des performances et résultats des benchmarks

  • GLM-5 affiche une amélioration globale des performances par rapport à GLM-4.7 et se rapproche du niveau de Claude Opus 4.5
  • Sur l’ensemble d’évaluation interne CC-Bench-V2, il obtient d’excellents résultats en frontend, backend et sur les tâches de longue durée
  • Sur Vending Bench 2, il se classe 1er parmi les modèles open source, avec un solde final de 4 432 dollars dans une simulation d’un an d’activité de distributeurs automatiques
  • Il offre des performances open source de niveau mondial en raisonnement, code et tâches d’agent
    • Exemples : SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7
  • Il réduit l’écart avec des modèles de premier plan comme GPT-5.2 et Gemini 3.0 Pro

Publication open source et voies d’accès

  • GLM-5 est publié sous licence MIT, avec téléchargement des poids du modèle disponible sur Hugging Face et ModelScope
  • Utilisable sous forme d’API via Z.ai, BigModel.cn et api.z.ai
  • Compatible avec Claude Code et OpenClaw, ce qui permet une intégration dans divers environnements de développement
  • La plateforme Z.ai propose un essai gratuit

Fonctions bureautiques et génération de documents

  • GLM-5 vise le passage du « chat » au travail, en jouant le rôle d’outil bureautique pour les travailleurs du savoir et les ingénieurs
  • Il peut convertir directement du texte ou des sources en formats .docx, .pdf, .xlsx afin de générer des documents finalisés comme des PRD, des sujets d’examen, des rapports financiers ou des menus
  • L’application Z.ai propose un mode Agent prenant en charge la génération de PDF/Word/Excel et la collaboration sur plusieurs tours

Support pour les développeurs et le déploiement

  • Les abonnés au GLM Coding Plan peuvent accéder progressivement à GLM-5
    • Les utilisateurs du forfait Max peuvent l’activer immédiatement avec le nom de modèle "GLM-5"
    • Les requêtes GLM-5 consomment davantage de quota que GLM-4.7
  • Pour les utilisateurs préférant un environnement GUI, un environnement de développement agentique Z Code est proposé
  • Grâce au framework OpenClaw, GLM-5 peut être utilisé comme agent assistant personnel opérant à travers les applications et les appareils

Déploiement local et compatibilité matérielle

  • GLM-5 prend en charge des frameworks d’inférence comme vLLM et SGLang, avec des instructions de déploiement fournies sur le GitHub officiel
  • Il peut aussi fonctionner sur des chipsets autres que NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, etc.)
    • Des optimisations de kernel et la quantification du modèle permettent d’obtenir un débit raisonnable

4 commentaires

 
GN⁺ 2026-02-12
Commentaires sur Hacker News
  • J’ai vu les résultats générés via OpenRouter pour Pelican
    L’oiseau en lui-même ressemble à un volatile robuste, mais c’est peu convaincant comme cadre de vélo
    Lien connexe

    • Merci à Simon de maintenir le seul système de benchmark vraiment pertinent
      Le contexte du test du pélican à vélo est disponible ici
    • Je pense que c’est un test vraiment important, bravo à Simon
    • J’ai l’impression que le benchmark du pélican est désormais dépassé
      Le SVG est déjà partout, il faut donc un nouveau scénario plus réaliste
    • Je me demande combien de SVG de pélican à vélo existaient avant l’apparition de ce test
      Je crains que ce genre de résultats ne soit en train de polluer les données d’entraînement
    • Je pense qu’appeler « oiseau robuste » un oiseau sans ailes est un exemple symbolique de l’écart entre les attentes et la réalité de l’IA
      Il est intéressant que l’IA dise elle-même « il faut des pattes palmées » alors qu’elles n’apparaissent pas dans l’image réelle
      L’attitude qui consiste à considérer 90 % de précision comme un « problème résolu », comme avec MMLU ou AIME, m’inquiète
      Une véritable AGI devrait atteindre 100 % de précision, et nous nous satisfaisons trop facilement
  • Je pense qu’à l’avenir, les copies rapides basées sur la distillation sur le marché gris sont inévitables
    Avant, je pensais que les modèles N-1 ou N-2 ne seraient pas attractifs, mais maintenant même les préférences des utilisateurs semblent saturées, donc cela pourrait largement suffire
    Opus 4.5 a clairement été un bond en avant, mais 4.6 n’a pas changé mon workflow
    Au bout du compte, après « le plus grand vol de l’histoire de l’humanité », on aura probablement « le plus grand retour de bâton »
    Les utilisateurs ne se soucieront absolument pas du fait que l’IA chinoise ait volé aux big tech américaines

    • Si les entreprises de LLM justifient l’usage des données d’entraînement, alors il devrait être tout aussi légal pour les distillers d’entraîner leurs modèles sur les sorties de LLM
      On peut faire valoir l’argument : « on a juste appris comme des humains, alors pourquoi serait-ce illégal ? »
    • Empêcher la distillation devrait plutôt être illégal
      Il suffit de créer des milliers de sites de contenus générés par IA et de publier dans chaque post les prompts et les informations sur le modèle
      D’autres pourront ensuite les crawler « par hasard » pour les utiliser dans l’entraînement
    • Opus 4.6 se distingue surtout par sa persistance sur les tâches longues
      J’ai l’impression qu’il va deux fois plus loin qu’avant, et je n’ai pas envie de revenir en arrière
    • Mais la consommation de tokens est tellement élevée que j’ai l’impression d’un recul en matière d’efficacité
  • Les benchmarks récents sont impressionnants, mais la comparaison se fait avec des modèles de l’ancienne génération (Opus 4.5, GPT-5.2)
    Ces derniers temps, les modèles ouverts affichent de très bons scores en benchmark, mais l’expérience réelle est en dessous des attentes
    Le benchmaxxing existe clairement

    • Les critiques envers les modèles open weight me semblent trop agressives
      Faire tourner 20 benchmarks n’est déjà pas une mince affaire, et la nouvelle génération de modèles n’est sortie que depuis 5 jours
      Beaucoup de développeurs sont tombés dans le culte des modèles fermés et ignorent que les mêmes prompts ne fonctionnent pas avec d’autres familles de modèles
      J’utilise souvent GLM-4.7, qui est au niveau de Sonnet 4.5, et GLM-5 sera probablement du niveau d’Opus 4.5
    • Si GLM-4.7 est au niveau de 4.5 ou 5.2, c’est en soi un bond énorme
    • J’ai l’impression qu’aujourd’hui les modèles ne sont au fond que des générateurs de tokens
      Dans un test à l’aveugle, ils se ressemblent au point d’être indiscernables
      Même en comparant les réponses de Claude et de ChatGPT, c’est presque identique
      Au final, pour la plupart des usages, un modèle de niveau Toyota suffit largement
    • Le problème, ce sont les limites du RLHF (apprentissage par renforcement à partir de retours humains)
      Les innovations algorithmiques restent possibles, mais le coût de production des données humaines est trop élevé pour passer à l’échelle
      Les modèles open source font encore beaucoup d’erreurs de syntaxe, alors que les modèles de pointe ont presque résolu ce problème
    • Anthropic, OpenAI et Google améliorent leurs modèles avec de vraies données d’usage,
      tandis que les laboratoires chinois restent centrés sur les benchmarks, d’où l’écart
      L’auto-hébergement et l’amélioration continue sont difficiles à concilier
  • Grâce à l’open source chinois, on va probablement pouvoir disposer d’une intelligence auto-hébergée
    C’est inefficace en termes de coût, mais j’aime l’idée de pouvoir fonctionner de manière autonome sans connexion Internet
    Au final, macOS semble être la seule option grand public pour faire tourner localement de gros modèles

    • Je dépasse souvent le quota de mon abonnement Claude Max, donc je tiens avec 2x RTX3090 et des modèles quantifiés Qwen3
      L’auto-hébergement a aussi de la valeur en matière de confidentialité et de disponibilité
      Il faut une alternative, surtout si la régulation numérique américaine se durcit
    • Même pour les modèles open weight, les données d’entraînement et les critères de censure restent privés
      Malgré cela, l’avantage est qu’on peut corriger les biais via du fine-tuning
    • Une machine Strix Halo avec 128 Go de VRAM coûte autour de 3 000 dollars, et elle peut faire tourner localement des modèles assez corrects
      Je recommande GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash, etc.
      D’ici 1 à 2 ans, j’espère qu’on pourra aussi faire tourner des modèles de la classe 512GB sur du matériel grand public
    • Au lieu de macOS, installer chez soi une box d’inférence Linux headless est aussi une bonne idée
      C’est le retour du réseau domestique
    • Je pense que plus que l’hébergement en direct, c’est la commoditisation de l’hébergement qui compte
      L’essentiel est d’avoir la liberté de changer de fournisseur à tout moment
  • J’utilise GLM-4.7 depuis quelques semaines, et c’est d’un niveau comparable à Sonnet
    En revanche, il faut des consignes plus claires
    Pour les grosses tâches, j’utilise toujours la famille Anthropic, mais pour les petites tâches bien définies, GLM offre le meilleur rapport qualité-prix

    • J’ai eu une expérience similaire
      Livré à lui-même, GLM-4.7 a tendance à vouloir construire tout un monde inutilement
      Mais sur de petites tâches, il est comparable à Sonnet, et son prix très bas le rend utile comme modèle d’appoint
    • Ces 6 à 8 derniers mois, je n’ai utilisé que Sonnet, mais Opus souffre souvent d’un bug de gloutonnerie en tokens
      Si les modèles ouverts progressent encore pendant environ 6 mois, je suis prêt à basculer
  • MiniMax M2.5 est aussi disponible à partir d’aujourd’hui dans la Chat UI
    GLM est meilleur pour le code, mais j’utilise souvent MiniMax pour les tâches du quotidien grâce à sa vitesse et sa capacité d’appel d’outils

  • Le nouveau modèle est sorti sur OpenRouter
    Dans mes benchmarks personnels, il était très faible en suivi des instructions
    Il s’agit d’un test fondé sur chat.md + le format mcps, et il n’a pas réussi à l’exécuter correctement

    • J’ai l’impression que les formats d’appel d’outils personnalisés sont appris différemment selon les modèles, donc il est difficile d’obtenir de la cohérence
      Je serais curieux de savoir quels résultats tu as obtenus avec d’autres modèles de pointe
    • J’aime bien l’idée de chat.md
      Je travaillais moi aussi sur un éditeur de texte basé sur des raccourcis vim, et cette approche pourrait être une source d’inspiration UI
      Je pense ajouter une fonction pour replier le texte inutile
    • Le problème vient peut-être de la qualité des fournisseurs OpenRouter
      Les performances sont parfois mauvaises
    • OpenRouter héberge souvent des modèles quantifiés, ce qui dégrade la qualité
      Si possible, mieux vaut passer directement par le fournisseur d’origine
  • J’ai l’impression que GLM-4.7-Flash est le premier modèle intelligent vraiment exploitable pour coder en local
    Il est comparable à Claude 4.5 Haiku, et son processus de raisonnement est transparent, ce qui permet de comprendre pourquoi il prend certaines décisions
    Il est bien meilleur que Devstral 2 Small ou Qwen-Coder-Next

    • minimax-m.2 est aussi assez proche de ce niveau
  • J’utilise GLM 4.7 dans opencode
    Ce n’est pas le meilleur, mais ses quotas d’utilisation généreux permettent de s’en servir toute la journée
    Le nouveau modèle est encore à accès limité, mais je l’attends avec impatience

  • J’ai brièvement testé le nouveau modèle dans opencode, et c’est assez impressionnant
    Ce n’est pas une innovation majeure, mais c’est clairement meilleur que 4.7
    La mémoire et la stabilité sur les tâches longues se sont nettement améliorées

 
jinifor 2026-02-12

Le prix de l’abonnement a augmenté.

 
princox 2026-02-13

La réduction de 50 % accordée lors de la première inscription a disparu..

 
fanotify 2026-02-12

Le tarif de lancement anticipé pour Max était de 360 $ par an, et il est passé à 672 $...