11 points par GN⁺ 2026-01-20 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • GLM-4.7-Flash est un grand modèle de langage doté d’une architecture MoE 30B-A3B, qui offre un équilibre entre performances et efficacité en tant que modèle léger pour le déploiement
  • Il a obtenu d’excellents scores dans divers benchmarks comme AIME 25, GPQA et SWE-bench, avec des résultats compétitifs face à des modèles de la même catégorie (Qwen3-30B/GPT-OSS-20B)
  • Il vise un niveau de performance parmi les meilleurs des modèles de classe 30B et constitue une avancée importante pour la recherche en IA open source et l’optimisation de l’efficacité du déploiement

Introduction

  • GLM-4.7-Flash est un modèle Mixture-of-Experts (MoE) 30B-A3B, conçu pour viser les meilleures performances parmi les modèles de classe 30B
    • Il propose une option légère de déploiement axée sur l’équilibre entre performances et efficacité
    • Sa conception permet une utilisation plus efficace des grands modèles

Performances sur les benchmarks

  • Présentation des performances de GLM-4.7-Flash dans divers benchmarks standards
    • AIME 25 : 91.6 (Qwen3-30B-A3B-Thinking-2507 obtient 85.0, GPT-OSS-20B 91.7)
    • GPQA : 75.2 (supérieur aux modèles de comparaison)
    • LCB v6 : 64.0
    • HLE : 14.4
    • SWE-bench Verified : 59.2 (écart important par rapport aux autres modèles)
    • τ²-Bench : 79.5
    • BrowseComp : 42.8
  • Sur plusieurs critères, il affiche de meilleurs résultats que Qwen3-30B-A3B-Thinking-2507 et GPT-OSS-20B

Déployer GLM-4.7-Flash en local

  • GLM-4.7-Flash prend en charge les frameworks d’inférence vLLM et SGLang

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.