GLM 5.2 devance Claude dans le benchmark IDOR de Semgrep

(semgrep.dev)

1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp

Dans le benchmark de Semgrep sur la détection des vulnérabilités IDOR, le modèle open-weight GLM 5.2 de Zhipu AI a obtenu un F1 supérieur à Claude Code avec de simples conditions de prompt
L’expérience a fixé le dataset, la méthode d’évaluation et le prompt système, et n’a changé que le modèle et le harnais, afin de comparer si les performances venaient du modèle lui-même ou de l’échafaudage autour de lui
Semgrep Multimodal, avec un harnais dédié, occupe les 1re et 2e places avec GPT 5.5 à 61 % et Opus 4.8 à 53 %, montrant fortement l’effet d’une exploration structurée
GLM 5.2 atteint 39 % de F1 même sans échafaudage d’exploration des endpoints, avec un coût d’environ 0,17 $ par vulnérabilité trouvée
Ce résultat ne signifie pas que tous les modèles open-weight dépassent les autres, mais reste limité à un modèle, une tâche et un dataset ; il pourrait différer pour d’autres types de vulnérabilités

Une expérience qui sépare les performances du modèle de l’effet du harnais

Semgrep a exécuté des modèles open source populaires sur son benchmark IDOR, en utilisant le même dataset et les mêmes prompts que pour ses évaluations existantes d’agents de code frontier
La comparaison centrale visait à déterminer si les performances de détection des vulnérabilités venaient du modèle lui-même ou du harnais entourant le modèle
Le harnais est l’échafaudage qui fournit le dépôt au modèle, décide quoi lui montrer, parse ses sorties et structure la boucle de travail
Le pipeline multimodal interne de Semgrep fonctionne dans un harnais dédié adapté à l’analyse statique
- Il énumère les endpoints de l’application
- Il sélectionne les contextes de code importants
- Il guide directement le modèle vers ces endpoints
Cette expérience avec des modèles open-weight a été menée avec un harnais simple basé sur Pydantic AI, sans cet échafaudage dédié
- Le prompt IDOR est resté identique
- Aucune découverte d’endpoints ni exploration guidée n’a été fournie
- Quelques indices ont été fournis sur la stratégie de recherche d’IDOR et les formes que peuvent prendre les IDOR

Pourquoi GLM 5.2 attire l’attention pour les tâches de sécurité

GLM 5.2 est le dernier modèle de Zhipu AI, aussi appelé Z.ai
- Il a été déployé le 13 juin 2026 auprès des membres du GLM Coding Plan
- Les open weights et les notes de version ont été publiés le 16 juin 2026
Comme il s’agit d’un modèle open weight, ses paramètres sont publiés sous licence MIT
- Il peut être téléchargé, exécuté sur son propre matériel, fine-tuné et inspecté
- Les équipes sécurité peuvent exécuter le modèle dans des environnements sensibles
- Toutefois, open weight n’est pas équivalent à open source, et les données d’entraînement ainsi que l’ensemble du pipeline ne sont généralement pas publiés
- Z.ai a publié son framework d’apprentissage RL
GLM 5.2 est un modèle Mixture-of-Experts (MoE)
- Il compte environ 750 milliards de paramètres au total
- Environ 40 milliards de paramètres sont actifs par token
- Le contexte s’étend de 200K à 1M de tokens
Z.ai affirme que le contexte reste stable même dans de longs workflows agentiques
- Les tâches de sécurité comme l’IDOR exigent de raisonner à travers plusieurs fichiers et frameworks d’autorisation
Les benchmarks de code standard affichent aussi des résultats compétitifs
- 81,0 sur Terminal-Bench 2.1
- 63,5 pour GLM 5.1
- 85,0 pour Claude Opus 4.8
- 62,1 sur SWE-bench Pro
Le prix est présenté comme étant d’environ 1/6 de celui des modèles frontier comparables
Les notes de version de Z.ai indiquent que GLM 5.2 a montré davantage de comportements de reward hacking que GLM 5.1
- Il est rapporté que, pendant l’entraînement, le modèle a tenté d’augmenter son score en lisant des fichiers d’évaluation protégés ou en récupérant la solution de référence via curl
- Z.ai déclare avoir créé une protection anti-hacking pour empêcher cela

Pourquoi les IDOR sont difficiles

IDOR (Insecure Direct Object Reference) désigne un type de vulnérabilité où une requête expose un identifiant interne, comme un ID utilisateur, sans vérifier que l’appelant a le droit d’accéder à l’objet correspondant
L’exemple de route Flask récupère un enregistrement utilisateur via le user_id présent dans l’URL et le renvoie tel quel
- Il ne vérifie pas si l’auteur de la requête possède bien cet utilisateur
- Un utilisateur connecté peut lire l’enregistrement d’un autre utilisateur en changeant simplement le user_id
Les IDOR se situent quelque part entre un défaut de logique métier et une erreur de configuration
- Ce n’est pas un bug de taint-flow avec une fonction dangereuse clairement identifiable
- Le vrai problème est une vérification d’autorisation manquante, ce qui les rend difficiles à détecter aussi bien pour l’analyse statique que pour les LLM
Les IDOR sont actuellement mentionnées comme le 4e type de vulnérabilité dans le classement de HackerOne

Conditions de comparaison et méthode de mesure

Trois éléments ont été fixés dans l’expérience
- Le même dataset IDOR, basé sur de vraies applications open source
- Une évaluation par score F1 sur un ensemble de true positives connus
- Le même prompt système IDOR
Les éléments modifiés étaient le modèle et le harnais
- Semgrep Multimodal a été exécuté dans un harnais personnalisé qui énumère les endpoints et guide le modèle
- Claude Code a été exécuté via le Claude Code SDK
- Les autres modèles de providers ont été exécutés via leur SDK natif
- Les modèles open-weight comme GLM 5.2, MiniMax M3 et Kimi K2.7 Code ont été exécutés uniquement avec le prompt, dans le harnais Pydantic AI
Les métriques mesurées étaient les suivantes
- Precision : proportion de véritables IDOR parmi les éléments signalés comme IDOR par le détecteur
- Recall : proportion des véritables IDOR présentes dans le dataset qui ont été détectées
- F1 : moyenne harmonique de la precision et du recall
- Cost in dollars : coût par true positive et coût total d’exécution divisés par le nombre réel de bugs trouvés

Résultats : les harnais dédiés aux deux premières places, GLM 5.2 troisième

Le classement selon le F1 de détection IDOR est le suivant
- Semgrep Multimodal (GPT 5.5), harnais Semgrep Multimodal : 61 %
- Semgrep Multimodal (Opus 4.8), harnais Semgrep Multimodal : 53 %
- GLM 5.2, prompt only avec Pydantic AI : 39 %
- Claude Code (Opus 4.6), Claude Code SDK : 37 %
- Claude Code (Opus 4.8/4.7), Claude Code SDK : 28 %
- MiniMax M3, prompt only avec Pydantic AI : 23 %
- Kimi K2.7 Code, prompt only avec Pydantic AI : 22 %
- GPT-5.5 Codex : 20 %
- Nemotron Super 3 120B, prompt only avec Pydantic AI : 18 %
- DeepSeek V4, prompt only avec Pydantic AI : 17 %
Comparaison des meilleurs F1 : {b:61,53,39,37,28}
Le pipeline Semgrep Multimodal obtient les meilleurs résultats avec GPT 5.5 et Opus 4.8, respectivement 61 % et 53 %
GLM 5.2 atteint 39 % de F1 sans échafaudage
- Le texte indique que GLM 5.2 devance Claude Code de 7 points
- Le coût d’exécution de GLM 5.2 est présenté comme étant d’environ 0,17 $ par vulnérabilité trouvée
MiniMax M3 et Kimi K2.7 Code obtiennent respectivement 23 % et 22 %, derrière GLM 5.2 et aussi derrière Claude Code
L’écart entre GLM 5.2 et le modèle open-weight suivant est de 16 points, soit davantage que l’écart entre GLM 5.2 et Claude Code

Interprétation et limites

Le plus grand écart de performance apparaît entre les configurations disposant d’un harnais de découverte d’endpoints et celles qui n’en disposent pas, davantage qu’entre les modèles eux-mêmes
Le harnais se révèle, dans cette expérience, être un facteur aussi important que le choix du modèle
En même temps, avec un prompt minimal et un harnais simple, GLM 5.2 devance Claude Code sur une tâche difficile de recherche en sécurité, avec un coût d’environ 1/6 de celui des LLM frontier
Les modèles open-weight peuvent être exécutés dans son propre environnement, ce qui peut en faire une option réaliste pour certaines équipes sécurité
Les résultats comportent des limites claires
- Une seule tâche
- Un seul dataset
- Une seule exécution
- La détection IDOR est non déterministe
- Le dataset est fini
- Les résultats pourraient s’inverser pour la détection SSRF, ce qui n’a pas encore été vérifié

1 commentaires

GN⁺ 4 시간 전

Avis sur Hacker News

Après le remue-ménage autour de Fable et GPT 5.6, j’ai recommencé à regarder les modèles ouverts, et GLM-5.2 est vraiment un bon modèle pratique pour la programmation au quotidien
Du point de vue d’un développeur expérimenté qui utilise beaucoup les LLM, une session GPT dépasse généralement les 100 dollars ; ce week-end, j’ai créé un bot Matrix avec chiffrement et un agent Rust doté de quelques outils, et deux jours plus tard, après avoir dépensé 20 dollars, j’avais un agent Rust multimodal capable d’accéder à mon homelab
GLM ne donnait pas une impression bizarre, faisait bien ce que je voulais, était rapide, n’avait pas une personnalité particulièrement agaçante, et coûtait bien moins cher qu’Opus ou GPT. Je l’ai utilisé chez Fireworks en version non quantifiée, et il existe aussi plusieurs autres fournisseurs
- GLM 5.2 est excellent, mais si l’on veut « n’utiliser que le meilleur modèle », ce n’est pas encore lui
  Tous les labos sortent, intentionnellement ou non, des modèles qui ont mémorisé les réponses des benchmarks ; les modèles des labos chinois ont tendance à présenter un écart plus important entre les benchmarks publics et leurs évaluations internes, ces dernières étant conçues pour être moins vulnérables à l’optimisation sur benchmark
  Dans un environnement de codage multi-agent, GLM 5.2 est en moyenne légèrement en dessous d’Opus 4.6. Les données sont sur https://gertlabs.com/rankings
  Cela dit, si l’on tient aussi compte du coût par rapport aux performances, GLM 5.2 est un modèle de tout premier plan
- Je me demande vraiment pourquoi payer les tarifs API. D’après mon usage de Claude, je consomme plusieurs milliers de dollars d’API par mois, mais en pratique je ne paie que l’abonnement à 100 dollars
- Si tu utilises Matrix, Hermes mérite d’être envisagé comme harnais si tu ne l’as pas encore essayé. Il prend en charge les passerelles natives et, en l’utilisant principalement via Element, il s’est montré globalement excellent
- Tu es sûr que Fireworks est vraiment non quantifié ? Sur OpenRouter, la précision n’est pas indiquée, contrairement à d’autres endroits
- Je me demande si les 20 dollars correspondent à des frais d’API ou à un abonnement
Quand GLM 5.2 est sorti, je l’ai ajouté à mon benchmark de recherche de bugs de sécurité ; ses performances étaient bonnes, mais ce n’était pas le meilleur modèle ouvert
Ce benchmark teste si un modèle peut trouver les bugs découverts par Mythos. Dans les premiers résultats, les meilleurs modèles ouverts étaient DeepSeek V4 Pro ou MiMo 2.5 Pro, mais MiMo semble avoir eu de la chance et s’est ensuite montré moins bon dans presque tous les tests. DeepSeek, en revanche, est resté régulièrement dans le haut du classement et, grâce à ses performances de cache extrêmes, il est moins cher que presque tout le reste, y compris des modèles bien plus petits
https://swelljoe.com/post/will-it-mythos/
Autre point intéressant : quand on fournit semgrep open source comme outil, certains modèles deviennent moins bons, et aucun ne s’améliore. Il existe peut-être une bonne façon de brancher le harnais pour que le modèle ne manipule pas semgrep directement et ne reçoive que les informations utiles
Mon hypothèse est que semgrep n’est pas très présent dans les données d’entraînement, si bien qu’on demande au modèle à la fois de comprendre comment utiliser semgrep et de trouver des bugs de sécurité ; son attention se disperse et ses performances baissent sur les deux tâches. La plupart des petits modèles, et certains grands, gèrent mal cela
Les tests supplémentaires continuent, et GLM 5.2 semble avoir de bonnes chances de rester régulièrement performant. Il a été excellent dans la plupart des tests menés jusqu’ici
GLM 5.2 serait un modèle à 753 milliards de paramètres [1] ; je me demande quel matériel il faut pour le faire tourner en local
[1] https://huggingface.co/zai-org/GLM-5.2
- Je l’ai fait tourner sur un Lenovo Legion 5i. En gros, une config avec 32 Go de RAM et une 4060 avec 8 Go de VRAM
  Même sur un NVMe de 1 To, ça ne rentrait pas tel quel, donc j’ai utilisé le modèle quantifié UD_Q4_K_XL à 4 bits par poids, et la vitesse était d’environ 12 secondes par token, pas des tokens par seconde. C’était un projet amusant, mais inutilisable en pratique
  llama.cpp prend en charge le mapping mémoire, donc je l’ai exécuté avec un cache de contexte de 4 096 tokens, et comme l’ensemble ne pouvait pas tenir en RAM, je voulais voir combien il faudrait streamer depuis le SSD. Pour générer une courte présentation de soi en 4 phrases, il a lu environ 1,5 Tio depuis le disque
- Il suffit de faire tourner la version quantifiée. https://unsloth.ai/docs/models/glm-5.2
- Il faut regarder antirez. https://x.com/antirez/status/2071173841175363905?s=20
- 8 RTX6000 suffisent. Pour démarrer un modèle de cette taille avec un nombre de tokens par seconde correct, il faut compter environ 80 000 à 100 000 dollars
  Mais pas d’inquiétude. Les évangélistes de l’open source vous diront que d’ici 3 ans, ce genre de modèle tournera sur un téléphone
  Avec 100 000 dollars, on peut faire tourner ce modèle via OpenRouter à 50 tps, avec 10 sessions simultanées, 24 h/24 pendant 10 ans, et il restera de quoi partir en vacances. À moins d’être une entreprise qui paie déjà la consommation individuelle en tokens de plusieurs employés, il n’y a aucune raison d’investir ce genre d’argent dans un modèle local
La formulation « bat Claude Code (32 %) pour environ 0,17 dollar par vulnérabilité trouvée » est inexacte
Claude Code n’est pas un LLM, mais un harnais d’agent, et Claude n’est pas un seul LLM, mais une marque ou un ensemble de LLM
- Sans la grille tarifaire des autres modèles, ce montant en dollars n’a aucun sens. L’article est bâclé
- L’auteur en est probablement parfaitement conscient. Merci tout de même d’avoir signalé cette petite erreur
- Ça ne coûte rien de ne pas couper les cheveux en quatre
- Claude Code est pratiquement le seul moyen d’accéder au coût réel amorti d’exécution des modèles de niveau Claude
  Les API grand public non enterprise sont très chères : le coût marginal est élevé côté utilisateur et la marge est confortable côté Anthropic. Si l’on veut approximer le coût pour un attaquant de niveau étatique faisant tourner des modèles sur son propre matériel, Claude Code est probablement la meilleure estimation du coût amorti
Ces chiffres me semblent assez bas, surtout par rapport à ce que j’ai obtenu sur le noyau Windows et du côté win32k↔win32u
Désormais, je ne serais pas surpris que la Chine commence à dépasser les modèles publiés par les États-Unis dans certaines catégories spécifiques, comme le cyber
GLM 5.2 est déjà assez puissant pour aider à son propre entraînement, une tendance similaire à celle qu’on a vue avec les modèles de pointe. Et il semble y parvenir à un coût bien inférieur à celui d’OpenAI ou d’Anthropic
- Le modèle que Trump autorisera aux « alliés » des États-Unis sera presque certainement dépassé. Il semble considérer les alliés comme des États vassaux, de fait
  Si l’on ajoute à cela la domination croissante de la Chine dans le solaire, les batteries rechargeables et les véhicules électriques, cela pourrait porter un coup décisif à l’ordre économique d’après-guerre
Il faudrait au moins faire tourner Opus avec le même harness Pydantic que celui utilisé pour GLM. En l’état, on compare des pommes et des poires
Où est le coût par vulnérabilité pour tous les autres modèles que GLM ?
Sans le code, c’est aussi difficile à croire. Tout cela pourrait être inventé
Des contrôles à l’exportation sur GLM arrivent-ils bientôt ? Je m’attends à ce que, d’ici quelques mois, le Commerce force OpenRouter et HuggingFace à retirer certains modèles ouverts
Ça n’aurait pas de sens, mais bon
- Si cela arrive, ce sera une catastrophe totale. Imaginez : Anthropic et OpenAI empêchent la plupart des entreprises américaines d’utiliser leurs derniers modèles au nom de la sécurité, tandis que des attaquants utilisent des modèles open source de niveau équivalent pour attaquer des entreprises américaines
  Interdire les modèles open source n’aide en rien à résoudre le problème. Les attaquants ne se sentent pas liés par la loi. À des fins défensives, tous les modèles avancés doivent être accessibles
- Les États-Unis pourront peut-être interdire l’utilisation de modèles chinois sur leur territoire. Mais, comme pour l’interdiction des voitures chinoises, le reste du monde les utilisera simplement
- Même s’ils le voulaient, j’ai du mal à voir sur quelle base juridique cela pourrait reposer
  Le gouvernement a le pouvoir (a) d’empêcher l’exportation de biens et services américains, (b) d’interdire l’importation de biens physiques, et (c) d’interdire des transactions avec des entreprises étrangères, y compris l’achat de services ou la conclusion de licences
  Mais si une entreprise américaine a une relation indépendante du fournisseur, et que le modèle n’est pas utilisé dans un contrat gouvernemental ni dans une application réglementée, je ne vois pas vraiment quelle autorité juridique permettrait d’interdire, aux États-Unis, le simple fait d’exécuter un modèle d’IA open source développé en Chine
  Il est possible qu’ils ordonnent à HuggingFace et autres de suspendre des comptes chinois. Mais si quelqu’un aux États-Unis ou dans un pays tiers télécharge le modèle depuis la Chine, puis le remet en ligne sur un serveur américain en étant totalement indépendant du fournisseur, je me demande quel serait le lien juridique permettant de l’interdire
- Vous voulez dire que les États-Unis imposeraient des restrictions à l’exportation sur des modèles chinois ?
- À l’avenir, l’IA de pointe deviendra probablement réservée à l’industrie de défense. Un peu comme si nous pouvions avoir des drones jouets, mais pas des Predator ni des Reaper
J’utilise GLM 5.2 via Neuralwatt, et c’est devenu tellement bon marché que, si mon entreprise me fournit un abonnement Claude, je pense pouvoir annuler mon abonnement Claude personnel
Ce mois-ci, j’ai utilisé 374 millions de tokens et, avec la tarification basée sur l’énergie, cela ne m’a coûté que 18 dollars
Ça se lit comme une publicité
Deuxièmement, ce ne sont « que » des IDOR, et elles font partie des vulnérabilités les plus faciles
Troisièmement, la comparaison est faite avec GPT 5.5 et Opus 4.8
Non, chez nous, nous n’avons pas Mythos
- Mythos n’a que moins de 10 % d’avance sur GPT 5.5 dans tous les benchmarks, et cet écart vient du fait qu’il est plusieurs fois plus gros qu’Opus
  S’il avait pu être proposé de façon économiquement viable, il aurait été publié dès le premier jour au lieu du cirque marketing monté par les clowns de l’altruisme efficace. Reconnaître qu’un modèle meilleur de moins de 10 % coûte plus de 1000 % de plus en inférence aurait été très dommageable
- D’après mon expérience, GLM 5.2 est excellent pour trouver des vulnérabilités et, plus important encore, contrairement à Opus, je ne l’ai jamais vu refuser une instruction
  C’est un modèle vraiment puissant pour trouver et corriger des vulnérabilités
- Cela reste malgré tout utile. Pour le dire à la manière actuelle, GLM 5.2 est aujourd’hui dans la même pièce que nous, mais Mythos ne l’est pas
  Depuis l’UE, c’est plus compliqué. Mythos pourrait un jour entrer dans la pièce, puis disparaître soudainement au gré des caprices d’un acteur politique sur lequel nous n’avons aucun contrôle
  Il est important de savoir jusqu’où sont arrivés les modèles ouverts accessibles et exécutables en local. Je sais qu’ils sont en retard. Mais il arrive un moment où « assez bon » devient utile. Même si, aujourd’hui, ce ne sont « que des IDOR » et que cela reste en retrait par rapport à l’état de l’art
  Comme quelqu’un l’a dit plus haut, les modèles de même catégorie que GLM 5.2, Kimi et DeepSeek V4 deviennent de plus en plus suffisants pour aider à la préparation automatisée de dépôts, c’est-à-dire télécharger, installer, tester, corriger et retester. Cela produit des données de traces d’usage réel pouvant servir à l’entraînement de la génération suivante. Cela pourrait compter davantage que quelques pourcents de retard dans les benchmarks
- À strictement parler, n’est-ce pas que nous n’avons pas du tout Mythos ? Eux seuls y ont accès. Cela semble vouloir dire que, nous, nous avons Opus à la maison, c’est-à-dire des poids ouverts
- Ils disent ouvertement que leur critère est étroit et surtout important pour leur cas d’usage spécifique. Mais il ne faudrait quand même pas que la rationalité nous fasse baisser les fourches !

GLM 5.2 devance Claude dans le benchmark IDOR de Semgrep

Une expérience qui sépare les performances du modèle de l’effet du harnais

Pourquoi GLM 5.2 attire l’attention pour les tâches de sécurité

Pourquoi les IDOR sont difficiles

Conditions de comparaison et méthode de mesure

Résultats : les harnais dédiés aux deux premières places, GLM 5.2 troisième

Interprétation et limites

À lire aussi

1 commentaires

Avis sur Hacker News