17 points par darjeeling 2025-10-05 | 2 commentaires | Partager sur WhatsApp

Modèle ZAI GLM 4.6 : synthèse des performances, du coût et des retours d’usage

Dans certaines communautés comme Reddit, des inquiétudes ont été exprimées au sujet de la protection des données personnelles. Mais d’après les tests réels, les performances en codage elles-mêmes semblent excellentes. Par rapport à Claude, les performances ne paraissent pas inférieures, et grâce à la promotion actuelle de 50 %, il est possible de s’abonner au GLM Coding Lite Plan pour 36 $ par an. (environ 33 $ avec parrainage)

Résumé essentiel : le modèle GLM 4.6 de ZAI affiche des performances proches de Claude Sonnet 4, tout en ayant un coût par token limité à 1/8. Il prend en charge une longue fenêtre de contexte et se distingue particulièrement dans les benchmarks liés au code, ce qui en fait une alternative très rentable.


1. Introduction and the Current AI Landscape

Dans un contexte récent marqué par l’absence de nouveaux modèles open-weight, l’arrivée du modèle GLM 4.6 développé par ZAI redonne un nouvel élan au marché. Le marché des modèles d’IA était jusqu’ici dominé par les Frontier Labs disposant de capitaux massifs, mais avec la barrière de coûts élevés. À l’inverse, des labos centrés sur la recherche comme Deepseek avaient pour limite un manque de capacités en développement logiciel, ce qui se traduisait par des interfaces peu conviviales. ZAI compense ces faiblesses en proposant une approche orientée utilisateur via des services d’abonnement et une API. En particulier, GLM 4.6 offre des performances comparables à Claude Sonnet 4 à un coût bien inférieur, ce qui améliore l’accessibilité des modèles d’IA et montre un potentiel pour favoriser l’usage de la technologie dans divers domaines.


2. ZAI's GLM 4.6 and its Advantages

ZAI ne se contente pas de développer un modèle obtenant des scores élevés sur divers benchmarks : l’entreprise propose aussi des services centrés sur l’utilisateur, fondés sur une compréhension approfondie des produits réels. Contrairement à d’autres laboratoires, ZAI fournit une API et des abonnements facilement accessibles, contribuant à réduire les coûts du cloud pour le code. Sur le benchmark Kilo code, le modèle GLM 4.6 enregistre un taux de victoire de 48,6 % face à Claude Sonnet 4, tout en offrant des performances similaires pour moins d’un cinquième du prix. En particulier, le coût des tokens de sortie n’est que de 1/8, ce qui en fait une alternative crédible et économique aux modèles cloud.


4. GLM 4.6: Advanced Features and Improvements

GLM 4.6 intègre plusieurs améliorations majeures par rapport à la version précédente.

  • Longue fenêtre de contexte : prise en charge de jusqu’à 200k tokens, permettant de traiter davantage d’informations en une seule fois et d’améliorer l’exécution de tâches complexes.
  • Hausse des performances : meilleurs scores sur les benchmarks de code, ainsi que de meilleures performances dans les applications réelles.
  • Compatibilité : fournit des endpoints similaires à Claude Code, afin de faciliter l’intégration dans les workflows existants.
  • Capacités de raisonnement renforcées : amélioration du raisonnement, prise en charge de l’usage d’outils durant ce processus, fonctionnement plus efficace dans les frameworks d’agents, et meilleures capacités de rédaction.

5. Performance Benchmarks and Comparisons

GLM 4.6 affiche des performances impressionnantes sur divers benchmarks. Sur le benchmark AIME, il a surpassé Sonic 4.5, et sur GPQA, il a devancé Sonic 4. Il a montré d’excellents résultats sur Live code bench et le benchmark HL ; face aux modèles d’Anthropic, il a obtenu des résultats équivalents ou meilleurs sur la plupart des benchmarks, à l’exception de SWE bench. Il se montre particulièrement solide sur les benchmarks liés au code et représente une amélioration substantielle par rapport à la version précédente.


6. Practical Performance and Token Usage

Au-delà des scores de benchmark, les performances en conditions réelles sont essentielles. GLM 4.6 conserve sa cohérence même dans des tâches complexes impliquant plusieurs fichiers, sans perdre le contexte ni présenter de problèmes d’hallucination. ZAI assure la transparence en publiant sur Hugging Face l’ensemble des questions de test et des trajectoires d’agents.

Avec un forfait de codage économique à 3 $ par mois, il devient possible d’utiliser GPT-4 pour les tâches complexes comme la conception d’architecture, puis GLM 4.6 pour l’implémentation effective, ce qui permettrait de réduire de 50 à 100 fois le coût des tâches de codage quotidiennes. Même si le modèle ne prend en charge que 80 % de la charge totale, le retour sur investissement reste très élevé.


7. Testing GLM 4.6 with Kilo Code and Open Code

Lors de tests réels avec Kilo code et Open Code, GLM 4.6 a montré des performances impressionnantes.

  • Kilo code : lors de la création d’une nouvelle démo Activity API, il a démontré sa capacité à trouver les informations nécessaires via une recherche web et à générer un code précis.
  • Open Code : lors de l’exécution d’une démo de studio d’images, il est allé plus loin que d’autres modèles en implémentant de lui-même des fonctionnalités supplémentaires comme le zoom. Il a également montré d’excellentes capacités de résolution de problèmes, en gérant des exceptions côté client et en corrigeant des erreurs dans le fichier de configuration.

La vitesse d’exécution reste un peu lente, mais il a parfois produit des résultats supérieurs aux modèles cloud, notamment en termes de qualité de l’interface utilisateur.

2 commentaires

 
shakespeares 2025-10-08

Les capacités technologiques de la Chine progressent de jour en jour...

 
newcusx 2025-10-07

Le modèle cloud, wow.