GLM 5.2 devance Claude dans le benchmark IDOR de Semgrep
(semgrep.dev)- Dans le benchmark de Semgrep sur la détection des vulnérabilités IDOR, le modèle open-weight GLM 5.2 de Zhipu AI a obtenu un F1 supérieur à Claude Code avec de simples conditions de prompt
- L’expérience a fixé le dataset, la méthode d’évaluation et le prompt système, et n’a changé que le modèle et le harnais, afin de comparer si les performances venaient du modèle lui-même ou de l’échafaudage autour de lui
- Semgrep Multimodal, avec un harnais dédié, occupe les 1re et 2e places avec GPT 5.5 à 61 % et Opus 4.8 à 53 %, montrant fortement l’effet d’une exploration structurée
- GLM 5.2 atteint 39 % de F1 même sans échafaudage d’exploration des endpoints, avec un coût d’environ 0,17 $ par vulnérabilité trouvée
- Ce résultat ne signifie pas que tous les modèles open-weight dépassent les autres, mais reste limité à un modèle, une tâche et un dataset ; il pourrait différer pour d’autres types de vulnérabilités
Une expérience qui sépare les performances du modèle de l’effet du harnais
- Semgrep a exécuté des modèles open source populaires sur son benchmark IDOR, en utilisant le même dataset et les mêmes prompts que pour ses évaluations existantes d’agents de code frontier
- La comparaison centrale visait à déterminer si les performances de détection des vulnérabilités venaient du modèle lui-même ou du harnais entourant le modèle
- Le harnais est l’échafaudage qui fournit le dépôt au modèle, décide quoi lui montrer, parse ses sorties et structure la boucle de travail
- Le pipeline multimodal interne de Semgrep fonctionne dans un harnais dédié adapté à l’analyse statique
- Il énumère les endpoints de l’application
- Il sélectionne les contextes de code importants
- Il guide directement le modèle vers ces endpoints
- Cette expérience avec des modèles open-weight a été menée avec un harnais simple basé sur Pydantic AI, sans cet échafaudage dédié
- Le prompt IDOR est resté identique
- Aucune découverte d’endpoints ni exploration guidée n’a été fournie
- Quelques indices ont été fournis sur la stratégie de recherche d’IDOR et les formes que peuvent prendre les IDOR
Pourquoi GLM 5.2 attire l’attention pour les tâches de sécurité
- GLM 5.2 est le dernier modèle de Zhipu AI, aussi appelé Z.ai
- Il a été déployé le 13 juin 2026 auprès des membres du GLM Coding Plan
- Les open weights et les notes de version ont été publiés le 16 juin 2026
- Comme il s’agit d’un modèle open weight, ses paramètres sont publiés sous licence MIT
- Il peut être téléchargé, exécuté sur son propre matériel, fine-tuné et inspecté
- Les équipes sécurité peuvent exécuter le modèle dans des environnements sensibles
- Toutefois, open weight n’est pas équivalent à open source, et les données d’entraînement ainsi que l’ensemble du pipeline ne sont généralement pas publiés
- Z.ai a publié son framework d’apprentissage RL
- GLM 5.2 est un modèle Mixture-of-Experts (MoE)
- Il compte environ 750 milliards de paramètres au total
- Environ 40 milliards de paramètres sont actifs par token
- Le contexte s’étend de 200K à 1M de tokens
- Z.ai affirme que le contexte reste stable même dans de longs workflows agentiques
- Les tâches de sécurité comme l’IDOR exigent de raisonner à travers plusieurs fichiers et frameworks d’autorisation
- Les benchmarks de code standard affichent aussi des résultats compétitifs
- 81,0 sur Terminal-Bench 2.1
- 63,5 pour GLM 5.1
- 85,0 pour Claude Opus 4.8
- 62,1 sur SWE-bench Pro
- Le prix est présenté comme étant d’environ 1/6 de celui des modèles frontier comparables
- Les notes de version de Z.ai indiquent que GLM 5.2 a montré davantage de comportements de reward hacking que GLM 5.1
- Il est rapporté que, pendant l’entraînement, le modèle a tenté d’augmenter son score en lisant des fichiers d’évaluation protégés ou en récupérant la solution de référence via
curl - Z.ai déclare avoir créé une protection anti-hacking pour empêcher cela
- Il est rapporté que, pendant l’entraînement, le modèle a tenté d’augmenter son score en lisant des fichiers d’évaluation protégés ou en récupérant la solution de référence via
Pourquoi les IDOR sont difficiles
- IDOR (Insecure Direct Object Reference) désigne un type de vulnérabilité où une requête expose un identifiant interne, comme un ID utilisateur, sans vérifier que l’appelant a le droit d’accéder à l’objet correspondant
- L’exemple de route Flask récupère un enregistrement utilisateur via le
user_idprésent dans l’URL et le renvoie tel quel- Il ne vérifie pas si l’auteur de la requête possède bien cet utilisateur
- Un utilisateur connecté peut lire l’enregistrement d’un autre utilisateur en changeant simplement le
user_id
- Les IDOR se situent quelque part entre un défaut de logique métier et une erreur de configuration
- Ce n’est pas un bug de taint-flow avec une fonction dangereuse clairement identifiable
- Le vrai problème est une vérification d’autorisation manquante, ce qui les rend difficiles à détecter aussi bien pour l’analyse statique que pour les LLM
- Les IDOR sont actuellement mentionnées comme le 4e type de vulnérabilité dans le classement de HackerOne
Conditions de comparaison et méthode de mesure
- Trois éléments ont été fixés dans l’expérience
- Le même dataset IDOR, basé sur de vraies applications open source
- Une évaluation par score F1 sur un ensemble de true positives connus
- Le même prompt système IDOR
- Les éléments modifiés étaient le modèle et le harnais
- Semgrep Multimodal a été exécuté dans un harnais personnalisé qui énumère les endpoints et guide le modèle
- Claude Code a été exécuté via le Claude Code SDK
- Les autres modèles de providers ont été exécutés via leur SDK natif
- Les modèles open-weight comme GLM 5.2, MiniMax M3 et Kimi K2.7 Code ont été exécutés uniquement avec le prompt, dans le harnais Pydantic AI
- Les métriques mesurées étaient les suivantes
- Precision : proportion de véritables IDOR parmi les éléments signalés comme IDOR par le détecteur
- Recall : proportion des véritables IDOR présentes dans le dataset qui ont été détectées
- F1 : moyenne harmonique de la precision et du recall
- Cost in dollars : coût par true positive et coût total d’exécution divisés par le nombre réel de bugs trouvés
Résultats : les harnais dédiés aux deux premières places, GLM 5.2 troisième
- Le classement selon le F1 de détection IDOR est le suivant
- Semgrep Multimodal (GPT 5.5), harnais Semgrep Multimodal : 61 %
- Semgrep Multimodal (Opus 4.8), harnais Semgrep Multimodal : 53 %
- GLM 5.2, prompt only avec Pydantic AI : 39 %
- Claude Code (Opus 4.6), Claude Code SDK : 37 %
- Claude Code (Opus 4.8/4.7), Claude Code SDK : 28 %
- MiniMax M3, prompt only avec Pydantic AI : 23 %
- Kimi K2.7 Code, prompt only avec Pydantic AI : 22 %
- GPT-5.5 Codex : 20 %
- Nemotron Super 3 120B, prompt only avec Pydantic AI : 18 %
- DeepSeek V4, prompt only avec Pydantic AI : 17 %
- Comparaison des meilleurs F1 :
- Le pipeline Semgrep Multimodal obtient les meilleurs résultats avec GPT 5.5 et Opus 4.8, respectivement 61 % et 53 %
- GLM 5.2 atteint 39 % de F1 sans échafaudage
- Le texte indique que GLM 5.2 devance Claude Code de 7 points
- Le coût d’exécution de GLM 5.2 est présenté comme étant d’environ 0,17 $ par vulnérabilité trouvée
- MiniMax M3 et Kimi K2.7 Code obtiennent respectivement 23 % et 22 %, derrière GLM 5.2 et aussi derrière Claude Code
- L’écart entre GLM 5.2 et le modèle open-weight suivant est de 16 points, soit davantage que l’écart entre GLM 5.2 et Claude Code
Interprétation et limites
- Le plus grand écart de performance apparaît entre les configurations disposant d’un harnais de découverte d’endpoints et celles qui n’en disposent pas, davantage qu’entre les modèles eux-mêmes
- Le harnais se révèle, dans cette expérience, être un facteur aussi important que le choix du modèle
- En même temps, avec un prompt minimal et un harnais simple, GLM 5.2 devance Claude Code sur une tâche difficile de recherche en sécurité, avec un coût d’environ 1/6 de celui des LLM frontier
- Les modèles open-weight peuvent être exécutés dans son propre environnement, ce qui peut en faire une option réaliste pour certaines équipes sécurité
- Les résultats comportent des limites claires
- Une seule tâche
- Un seul dataset
- Une seule exécution
- La détection IDOR est non déterministe
- Le dataset est fini
- Les résultats pourraient s’inverser pour la détection SSRF, ce qui n’a pas encore été vérifié
1 commentaires
Avis sur Hacker News
Après le remue-ménage autour de Fable et GPT 5.6, j’ai recommencé à regarder les modèles ouverts, et GLM-5.2 est vraiment un bon modèle pratique pour la programmation au quotidien
Du point de vue d’un développeur expérimenté qui utilise beaucoup les LLM, une session GPT dépasse généralement les 100 dollars ; ce week-end, j’ai créé un bot Matrix avec chiffrement et un agent Rust doté de quelques outils, et deux jours plus tard, après avoir dépensé 20 dollars, j’avais un agent Rust multimodal capable d’accéder à mon homelab
GLM ne donnait pas une impression bizarre, faisait bien ce que je voulais, était rapide, n’avait pas une personnalité particulièrement agaçante, et coûtait bien moins cher qu’Opus ou GPT. Je l’ai utilisé chez Fireworks en version non quantifiée, et il existe aussi plusieurs autres fournisseurs
Tous les labos sortent, intentionnellement ou non, des modèles qui ont mémorisé les réponses des benchmarks ; les modèles des labos chinois ont tendance à présenter un écart plus important entre les benchmarks publics et leurs évaluations internes, ces dernières étant conçues pour être moins vulnérables à l’optimisation sur benchmark
Dans un environnement de codage multi-agent, GLM 5.2 est en moyenne légèrement en dessous d’Opus 4.6. Les données sont sur https://gertlabs.com/rankings
Cela dit, si l’on tient aussi compte du coût par rapport aux performances, GLM 5.2 est un modèle de tout premier plan
Quand GLM 5.2 est sorti, je l’ai ajouté à mon benchmark de recherche de bugs de sécurité ; ses performances étaient bonnes, mais ce n’était pas le meilleur modèle ouvert
Ce benchmark teste si un modèle peut trouver les bugs découverts par Mythos. Dans les premiers résultats, les meilleurs modèles ouverts étaient DeepSeek V4 Pro ou MiMo 2.5 Pro, mais MiMo semble avoir eu de la chance et s’est ensuite montré moins bon dans presque tous les tests. DeepSeek, en revanche, est resté régulièrement dans le haut du classement et, grâce à ses performances de cache extrêmes, il est moins cher que presque tout le reste, y compris des modèles bien plus petits
https://swelljoe.com/post/will-it-mythos/
Autre point intéressant : quand on fournit semgrep open source comme outil, certains modèles deviennent moins bons, et aucun ne s’améliore. Il existe peut-être une bonne façon de brancher le harnais pour que le modèle ne manipule pas semgrep directement et ne reçoive que les informations utiles
Mon hypothèse est que semgrep n’est pas très présent dans les données d’entraînement, si bien qu’on demande au modèle à la fois de comprendre comment utiliser semgrep et de trouver des bugs de sécurité ; son attention se disperse et ses performances baissent sur les deux tâches. La plupart des petits modèles, et certains grands, gèrent mal cela
Les tests supplémentaires continuent, et GLM 5.2 semble avoir de bonnes chances de rester régulièrement performant. Il a été excellent dans la plupart des tests menés jusqu’ici
GLM 5.2 serait un modèle à 753 milliards de paramètres [1] ; je me demande quel matériel il faut pour le faire tourner en local
[1] https://huggingface.co/zai-org/GLM-5.2
Même sur un NVMe de 1 To, ça ne rentrait pas tel quel, donc j’ai utilisé le modèle quantifié UD_Q4_K_XL à 4 bits par poids, et la vitesse était d’environ 12 secondes par token, pas des tokens par seconde. C’était un projet amusant, mais inutilisable en pratique
llama.cpp prend en charge le mapping mémoire, donc je l’ai exécuté avec un cache de contexte de 4 096 tokens, et comme l’ensemble ne pouvait pas tenir en RAM, je voulais voir combien il faudrait streamer depuis le SSD. Pour générer une courte présentation de soi en 4 phrases, il a lu environ 1,5 Tio depuis le disque
Mais pas d’inquiétude. Les évangélistes de l’open source vous diront que d’ici 3 ans, ce genre de modèle tournera sur un téléphone
Avec 100 000 dollars, on peut faire tourner ce modèle via OpenRouter à 50 tps, avec 10 sessions simultanées, 24 h/24 pendant 10 ans, et il restera de quoi partir en vacances. À moins d’être une entreprise qui paie déjà la consommation individuelle en tokens de plusieurs employés, il n’y a aucune raison d’investir ce genre d’argent dans un modèle local
La formulation « bat Claude Code (32 %) pour environ 0,17 dollar par vulnérabilité trouvée » est inexacte
Claude Code n’est pas un LLM, mais un harnais d’agent, et Claude n’est pas un seul LLM, mais une marque ou un ensemble de LLM
Les API grand public non enterprise sont très chères : le coût marginal est élevé côté utilisateur et la marge est confortable côté Anthropic. Si l’on veut approximer le coût pour un attaquant de niveau étatique faisant tourner des modèles sur son propre matériel, Claude Code est probablement la meilleure estimation du coût amorti
Ces chiffres me semblent assez bas, surtout par rapport à ce que j’ai obtenu sur le noyau Windows et du côté win32k↔win32u
Désormais, je ne serais pas surpris que la Chine commence à dépasser les modèles publiés par les États-Unis dans certaines catégories spécifiques, comme le cyber
GLM 5.2 est déjà assez puissant pour aider à son propre entraînement, une tendance similaire à celle qu’on a vue avec les modèles de pointe. Et il semble y parvenir à un coût bien inférieur à celui d’OpenAI ou d’Anthropic
Si l’on ajoute à cela la domination croissante de la Chine dans le solaire, les batteries rechargeables et les véhicules électriques, cela pourrait porter un coup décisif à l’ordre économique d’après-guerre
Il faudrait au moins faire tourner Opus avec le même harness Pydantic que celui utilisé pour GLM. En l’état, on compare des pommes et des poires
Où est le coût par vulnérabilité pour tous les autres modèles que GLM ?
Sans le code, c’est aussi difficile à croire. Tout cela pourrait être inventé
Des contrôles à l’exportation sur GLM arrivent-ils bientôt ? Je m’attends à ce que, d’ici quelques mois, le Commerce force OpenRouter et HuggingFace à retirer certains modèles ouverts
Ça n’aurait pas de sens, mais bon
Interdire les modèles open source n’aide en rien à résoudre le problème. Les attaquants ne se sentent pas liés par la loi. À des fins défensives, tous les modèles avancés doivent être accessibles
Le gouvernement a le pouvoir (a) d’empêcher l’exportation de biens et services américains, (b) d’interdire l’importation de biens physiques, et (c) d’interdire des transactions avec des entreprises étrangères, y compris l’achat de services ou la conclusion de licences
Mais si une entreprise américaine a une relation indépendante du fournisseur, et que le modèle n’est pas utilisé dans un contrat gouvernemental ni dans une application réglementée, je ne vois pas vraiment quelle autorité juridique permettrait d’interdire, aux États-Unis, le simple fait d’exécuter un modèle d’IA open source développé en Chine
Il est possible qu’ils ordonnent à HuggingFace et autres de suspendre des comptes chinois. Mais si quelqu’un aux États-Unis ou dans un pays tiers télécharge le modèle depuis la Chine, puis le remet en ligne sur un serveur américain en étant totalement indépendant du fournisseur, je me demande quel serait le lien juridique permettant de l’interdire
J’utilise GLM 5.2 via Neuralwatt, et c’est devenu tellement bon marché que, si mon entreprise me fournit un abonnement Claude, je pense pouvoir annuler mon abonnement Claude personnel
Ce mois-ci, j’ai utilisé 374 millions de tokens et, avec la tarification basée sur l’énergie, cela ne m’a coûté que 18 dollars
Ça se lit comme une publicité
Deuxièmement, ce ne sont « que » des IDOR, et elles font partie des vulnérabilités les plus faciles
Troisièmement, la comparaison est faite avec GPT 5.5 et Opus 4.8
Non, chez nous, nous n’avons pas Mythos
S’il avait pu être proposé de façon économiquement viable, il aurait été publié dès le premier jour au lieu du cirque marketing monté par les clowns de l’altruisme efficace. Reconnaître qu’un modèle meilleur de moins de 10 % coûte plus de 1000 % de plus en inférence aurait été très dommageable
C’est un modèle vraiment puissant pour trouver et corriger des vulnérabilités
Depuis l’UE, c’est plus compliqué. Mythos pourrait un jour entrer dans la pièce, puis disparaître soudainement au gré des caprices d’un acteur politique sur lequel nous n’avons aucun contrôle
Il est important de savoir jusqu’où sont arrivés les modèles ouverts accessibles et exécutables en local. Je sais qu’ils sont en retard. Mais il arrive un moment où « assez bon » devient utile. Même si, aujourd’hui, ce ne sont « que des IDOR » et que cela reste en retrait par rapport à l’état de l’art
Comme quelqu’un l’a dit plus haut, les modèles de même catégorie que GLM 5.2, Kimi et DeepSeek V4 deviennent de plus en plus suffisants pour aider à la préparation automatisée de dépôts, c’est-à-dire télécharger, installer, tester, corriger et retester. Cela produit des données de traces d’usage réel pouvant servir à l’entraînement de la génération suivante. Cela pourrait compter davantage que quelques pourcents de retard dans les benchmarks