11 points par GN⁺ 2026-01-20 | 4 commentaires | Partager sur WhatsApp
  • GLM-4.7-Flash est un grand modèle de langage doté d’une architecture MoE 30B-A3B, qui offre un équilibre entre performances et efficacité en tant que modèle léger pour le déploiement
  • Il a obtenu d’excellents scores dans divers benchmarks comme AIME 25, GPQA et SWE-bench, avec des résultats compétitifs face à des modèles de la même catégorie (Qwen3-30B/GPT-OSS-20B)
  • Il vise un niveau de performance parmi les meilleurs des modèles de classe 30B et constitue une avancée importante pour la recherche en IA open source et l’optimisation de l’efficacité du déploiement

Introduction

  • GLM-4.7-Flash est un modèle Mixture-of-Experts (MoE) 30B-A3B, conçu pour viser les meilleures performances parmi les modèles de classe 30B
    • Il propose une option légère de déploiement axée sur l’équilibre entre performances et efficacité
    • Sa conception permet une utilisation plus efficace des grands modèles

Performances sur les benchmarks

  • Présentation des performances de GLM-4.7-Flash dans divers benchmarks standards
    • AIME 25 : 91.6 (Qwen3-30B-A3B-Thinking-2507 obtient 85.0, GPT-OSS-20B 91.7)
    • GPQA : 75.2 (supérieur aux modèles de comparaison)
    • LCB v6 : 64.0
    • HLE : 14.4
    • SWE-bench Verified : 59.2 (écart important par rapport aux autres modèles)
    • τ²-Bench : 79.5
    • BrowseComp : 42.8
  • Sur plusieurs critères, il affiche de meilleurs résultats que Qwen3-30B-A3B-Thinking-2507 et GPT-OSS-20B

Déployer GLM-4.7-Flash en local

  • GLM-4.7-Flash prend en charge les frameworks d’inférence vLLM et SGLang

4 commentaires

 
kimjoin2 2026-01-20

Pour 30B… il faut combien de VRAM ? T_T

 
crawler 2026-01-21

Comme c’est un 30B A3B, ce n’est pas si lourd que ça.
Il faut quand même disposer d’un espace pour 30B, mais une fois cet espace assuré, les paramètres actifs ne sont que de 3B, donc c’est rapide.

Du coup, il me semble avoir déjà vu des méthodes d’optimisation qui consistent à ne charger dans la VRAM que les couches les plus utilisées.

 
geekygeek 2026-01-20

VRAM 24 Go..? Ou, sur un Mac, 32 Go de RAM semblent être le minimum.

 
GN⁺ 2026-01-20
Avis Hacker News
  • J’expérimente récemment avec OpenCode et je fais tourner le modèle 30B-A3B sur un GPU de 32 Go avec llama.cpp (4bit)
    J’ai assez de VRAM pour utiliser confortablement un contexte de 128k
    Jusqu’ici, Qwen3-coder m’a donné les meilleurs résultats. Nemotron 3 Nano est censé être meilleur sur les benchmarks, mais pour mon usage principal, à savoir « écrire du code de test », je n’ai pas senti de grande différence
    Je l’essaierai si quelqu’un le quantifie en 4bit GGUF. Codex a une qualité élevée mais il est trop lent. J’espère que les petits modèles continueront à s’améliorer non seulement sur les benchmarks simples, mais aussi en qualité réelle
    • Je recommande le modèle GLM-4.7-GGUF. On peut aussi trouver d’autres bonnes quantifications chez 0xSero
    • Codex produit généralement une meilleure qualité, mais il lui arrive parfois de sortir des résultats dignes de l’AI slop, ce qui fait attendre longtemps pour un travail qu’Opus aurait bouclé en quelques minutes
  • J’utilise GLM-4.7 avec l’offre coding de z.ai, et le rapport qualité-prix est étonnant
    J’utilise à la fois claude-code et opencode, mais récemment je me sers davantage d’opencode. claude-code est optimisé pour les modèles d’Anthropic
    Cette version est la déclinaison « -Flash » ; après la 4.5-Flash, ils ont sauté la 4.6-Flash pour passer directement à celle-ci. D’après la documentation, c’est un modèle équivalent à Haiku, défini comme ANTHROPIC_DEFAULT_HAIKU_MODEL
    • Je me demande comment sont les performances récemment. J’ai entendu dire que certains utilisateurs trouvaient ça presque inutilisable depuis un changement des limites
    • J’ai la même offre moi aussi. Je l’ai achetée en promo à 28 $ pour 12 mois, et elle offre 5 fois plus d’usage que Claude Pro. En ce moment, je n’utilise que claude code
  • GLM-4.7 est une amélioration progressive, mais il semble assez solide. La démo UI oneshot est bien meilleure que celle de la 4.6
    Les modèles ouverts ont encore environ un an de retard sur les benchmarks, mais à long terme c’est intéressant
    GLM a 355B paramètres dont seulement 31B activés, donc le self-host est difficile, mais je pense que c’est un bon candidat pour être utilisé via un endpoint Cerebras
    • J’ai testé GLM-4.7 chez Cerebras hier, pas la version Flash, avec 10 $ de crédit. C’est rapide à 1000 tokens par seconde, mais les rate limits rendent l’usage réel pénible. Les tokens mis en cache comptent aussi dans la limite, donc je me fais bloquer au début de chaque minute et je dois attendre
      Les tokens mis en cache sont aussi facturés, donc j’ai dépensé 4 $ pour une seule tâche simple. Avec GPT-5.2-Codex, ça m’aurait coûté moins de 0,5 $
    • On parle beaucoup des benchmarks, mais ce n’est pas la même chose qu’une vraie charge de travail. J’ai arrêté claude et je suis passé à minimax m2.1. Avec open code, au final je préfère même davantage. L’offre à 10 $ me suffit
    • Les modèles ouverts suivent au final par distillation, donc sans innovation ils auront toujours du retard. Plutôt que de « rattraper », c’est comme une remorque accrochée à un camion
    • Juger la qualité d’un modèle à partir d’une démo UI n’est pas approprié. Si l’UI est hors distribution, ça échoue la plupart du temps. Même Codex n’est pas parfait
  • Je l’ai essayé dans LMStudio sur un MacBook Pro M4, et c’est bien pire que gpt-oss-20b
    Sur deux prompts de code, il a généré du code incorrect et des boucles infinies. C’est peut-être un problème de quantification dans LMStudio, mais la première impression n’est pas bonne
    • Tu utilises le modèle complet en BF16, ou bien la version quantifiée mlx4 ?
  • J’aimerais demander à ceux qui le font déjà tourner en local — quelle est aujourd’hui la configuration la plus simple (tooling + format de quantification) ? Si vous avez un exemple de commande fonctionnelle, merci de le partager
    • J’utilise llama-server compilé avec le backend CUDA de llama.cpp. Je fais tourner la version Q4_K_M quant sur Lubuntu + RTX 3090
      Liens utiles : llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
      llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
      
      Ensuite, on peut discuter via http://127.0.0.1:8080 ou y accéder via une API compatible OpenAI
      En revanche, juste après la sortie d’un nouveau modèle, il peut y avoir des bugs, donc je recommande d’attendre quelques jours avant de mettre à jour
    • On peut aussi le lancer avec la commande ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. C’est rapide, mais le template n’est pas encore finalisé, donc la sortie est désordonnée. J’attends qu’un template officiel arrive sur ollama.com
    • Dans LM Studio, il suffit de chercher « 4.7-flash » et d’installer la version communautaire mlx
    • Personnellement, je recommande llama.cpp 4bit quant ou un wrapper basé dessus
  • D’après la description de cette release,
    « GLM-4.7-Flash est un modèle léger et à haute efficacité, la version gratuite de GLM-4.7, et il offre une faible latence et un haut débit pour les tâches de code, de raisonnement et de génération.
    Il affiche aussi de solides performances en traduction, roleplay et génération esthétique. »
    Voir les détails dans les notes de release officielles
    • Deux notes publiées cette année sont par erreur datées de 2025. Il est possible que la page soit rédigée manuellement
  • Pour ceux qui se demandent pourquoi cette release est importante,
    il est désormais possible de faire tourner localement sur un MacBook avec 32 Go de RAM une IA du niveau de GPT-5-mini
    Et le coût du LLM-as-a-service devient bien plus bas — autour de 1/10 du prix de Haiku 4.5
  • Le score SWE-bench Verified est de 59,2, ce qui est assez impressionnant pour un modèle 30B. C’est plus élevé que les 55,4 de Qwen3-Coder 480B
    • Devstral 2 Small (24B) est plus haut à 68,0 %. Lien officiel
    • Mais SWE-Bench Verified est désormais difficile à considérer comme fiable. Les dépôts et les langages sont limités, et il y a aussi des problèmes de mémorisation des données. SWE-Bench Pro est plus prometteur, sans être parfait pour autant
  • Quand j’ai besoin d’un travail rapide, j’utilise Gemini ou Cerebras. Voir le blog Cerebras
    GLM 4.7 est suffisant au quotidien, mais son compréhension des consignes est parfois frustrante
    • C’est justement cette capacité à traiter les consignes qui fait qu’Opus 4.5 me convient bien. J’espère que ce sera amélioré dans la prochaine version
  • J’ai du mal à faire confiance au fait que GLM 4.7 soit comparé à GPT-OSS-20B. Si on est vraiment au niveau de Sonnet 4/4.5, alors la version Flash devrait écraser GPT-OSS-120B. J’aurais aimé avoir aussi les résultats Aider
    • S’attendre à ce que 30-A3B dépasse 117-A5.1B est exagéré. En revanche, sur les appels d’agent, ça semble meilleur que GPT-20B
    • À l’usage réel, les benchmarks exagèrent. C’est correct pour des tâches simples, mais on est très loin de Sonnet. Cela dit, le rapport qualité-prix est bon
    • En termes de qualité de code, on est au niveau de Sonnet 3.5. C’est encore loin de Sonnet 4/4.5