SkillsBench : un benchmark pour évaluer les performances des compétences d’agent sur des tâches variées

(arxiv.org)

3 points par GN⁺ 2026-02-18 | 1 commentaires | Partager sur WhatsApp

Premier benchmark visant à évaluer quantitativement l’efficacité des compétences (Agent Skills) des agents basés sur des grands modèles de langage (LLM), avec 84 tâches réparties sur 11 domaines
Chaque tâche est évaluée dans trois conditions — sans compétence, avec compétence curée, avec compétence auto-générée — et un total de 7 308 trajectoires d’exécution a été collecté
Les compétences curées ont montré en moyenne +16,2 points de pourcentage d’amélioration, mais avec de fortes variations selon les domaines, et certaines tâches (16 sur 84) ont au contraire vu leurs performances baisser
Les compétences auto-générées (Self-generated Skills) n’ont pas montré d’effet positif en moyenne, ce qui indique que les modèles ne parviennent pas à générer de manière fiable des connaissances procédurales par eux-mêmes
Des modules de compétences petits et ciblés (composés de 2 à 3 éléments) se révèlent plus efficaces que des compétences documentaires exhaustives, et de petits modèles utilisant des compétences atteignent des performances similaires à celles de grands modèles sans compétences

Vue d’ensemble de SKILLSBENCH

SKILLSBENCH est un benchmark conçu pour évaluer l’effet du renforcement par compétences des agents LLM, construit sur la base du framework Harbor
- Chaque tâche inclut un environnement conteneurisé, un validateur déterministe et une réponse de référence (oracle)
- La même tâche est exécutée à plusieurs reprises selon que des compétences sont appliquées ou non, afin de mesurer l’effet pur des compétences
Alors que les benchmarks existants évaluent surtout les capacités de base des modèles, SKILLSBENCH mesure directement l’impact des compétences sur les performances

Définition et composition des compétences (Agent Skills)

Une compétence est un package structuré contenant des connaissances procédurales (procedural knowledge), qui étend le comportement de l’agent au moment de l’inférence sans modifier le modèle
- Éléments constitutifs : SKILL.md (procédure d’approche de la tâche), scripts exécutables, templates de code, exemples, etc.
Une compétence doit satisfaire aux quatre critères suivants
- inclure un contenu procédural
- s’appliquer à une classe de tâches, et non à un seul cas
- contenir des composants structurés
- garantir la portabilité via une base sur le système de fichiers
Les system prompts, exemples few-shot, recherches RAG et documentations d’outils ne sont pas considérés comme des compétences

Structure des tâches (Task) et construction du dataset

Chaque tâche se compose de quatre éléments : consigne, environnement, réponse, validateur
- L’environnement est isolé dans un conteneur Docker afin de garantir la reproductibilité
- Le validateur est un script de test déterministe qui juge automatiquement la réussite ou l’échec
105 contributeurs ont soumis 322 tâches candidates ; après validation automatique et revue humaine, 84 tâches finales ont été retenues
Les contributeurs devaient respecter les exigences suivantes
- consignes rédigées par des humains (génération par LLM interdite)
- les compétences doivent fournir des instructions procédurales, et non la réponse à une tâche spécifique
- toutes les validations doivent être effectuées de manière déterministe (basée sur des assertions)
- passer les contrôles de structure automatiques, l’exécution oracle, la détection de génération par IA et l’audit de fuite
Pour éviter les fuites, les compétences sont rejetées si elles contiennent des noms de fichiers propres à une tâche, des constantes, des références aux tests, etc.

Composition du benchmark et classification de la difficulté

SKILLSBENCH comprend 84 tâches dans 11 domaines (logiciel, santé, finance, robotique, etc.)
La difficulté est répartie en trois niveaux selon le temps d’exécution humain
- Core (moins de 60 minutes) : 17
- Extended (1 à 4 heures) : 43
- Extreme (plus de 4 heures) : 26

Configuration expérimentale

Évaluation de trois harnais d’agents commerciaux : Claude Code, Gemini CLI, Codex CLI
Sept modèles utilisés : GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
Évaluation dans trois conditions
- No Skills : sans compétence
- With Skills : avec compétences curées
- Self-Generated Skills : compétences générées directement par le modèle puis appliquées
Au total, 7 308 trajectoires valides (trajectories) ont été collectées

Indicateurs d’évaluation

Le taux de réussite (pass rate) est utilisé comme indicateur principal
Un gain normalisé (normalized gain) est également calculé pour analyser à la fois l’amélioration absolue et l’amélioration relative
Chaque tâche est répétée 5 fois, puis un score moyen est calculé

Principaux résultats

Les compétences curées ont apporté en moyenne +16,2 points de pourcentage, avec une plage de +13,6 à +23,3 points selon les configurations
- Les écarts entre domaines sont importants : l’amélioration la plus forte apparaît en santé (+51,9 points), la plus faible en génie logiciel (+4,5 points)
- Sur 84 tâches, 16 ont au contraire enregistré une baisse de performance
Les compétences auto-générées n’ont en moyenne aucun effet positif, voire un effet négatif
- Les modèles ne parviennent pas à générer de manière fiable des connaissances procédurales par eux-mêmes
Les compétences ciblées (2 à 3 modules) montrent une meilleure efficacité que les compétences documentaires exhaustives
La combinaison petit modèle + compétences atteint des performances comparables à celles d’un grand modèle sans compétences

Conclusion

SKILLSBENCH fournit un cadre d’évaluation centré sur les compétences et démontre quantitativement l’impact des compétences sur la capacité réelle des agents LLM à accomplir des tâches
Les résultats montrent que la qualité de conception des compétences et leur adéquation au domaine sont déterminantes pour améliorer les performances
Le benchmark peut servir de base à de futurs travaux pour clarifier les principes de conception structurelle des compétences et les limites de leur génération automatique

1 commentaires

GN⁺ 2026-02-18

Commentaires sur Hacker News

Le concept de « Self-Generated Skills » est intéressant, mais il faut souligner qu’il est différent de ce que les gens imaginent comme « le processus par lequel un LLM apprend lui-même des compétences »
Dans l’étude, il s’agit simplement d’inciter le modèle à générer des connaissances procédurales pertinentes avant de résoudre le problème ; on est donc loin de véritables « compétences apprises par l’expérience »
J’aimerais que les médias fassent bien la distinction
- La portée des « tâches » de l’expérience est beaucoup trop limitée. On n’utilise qu’un seul fichier Markdown et un validateur, sans traiter de problèmes réalistes comme un codebase existant ou du refactoring
  Même si le LLM génère lui-même des compétences, la structure ne lui permet ni exploration ni apprentissage ; au final, il ne fait que recycler son propre contexte
  Généraliser ces résultats est très trompeur
- Le but premier d’une « compétence » est d’être rappelée et utilisée au bon moment, comme une courte note pratique de type how-to
  Si la connaissance est déjà dans le modèle, il n’y a pas vraiment besoin de l’écrire dans un document ; cela n’a d’intérêt que pour des informations réellement difficiles à faire émerger
- Je m’intéresse moi aussi à une approche où le LLM formalise sous forme de compétence les leçons apprises après une tentative
  Créer la compétence avant même l’essai est une approche déconnectée du réel
- J’ai créé des compétences utiles via des « role play sessions »
  Faire poser des questions à l’agent, lui faire traverser le processus de résolution, puis condenser le résultat en compétence compacte fondée sur des preuves s’est révélé efficace
- Comme je l’ai résumé sur thisistheway.to/ai, nous transformons les échecs des agents en opportunités d’apprentissage
  ① détection de l’échec → ② diagnostic de la cause → ③ choix de l’outil d’amélioration → ④ consignation dans un artefact versionné → ⑤ promotion éventuelle en gate
  Nous intégrons cette boucle comme consigne par défaut pour tous les agents
J’utilise aussi un skill-creator pour Claude que j’ai développé séparément
Pour éviter que Claude réécrive sous forme de compétence des informations qu’il connaît déjà, le document ne doit contenir que
① des informations hors des données d’entraînement, ② un contexte valable uniquement pour la session en cours, ③ des informations destinées à aligner le comportement du futur Claude
Le contenu complet est disponible via ce lien GitHub
- Les LLM sont faibles lorsqu’il s’agit de réfléchir à ce qu’ils savent ou ne savent pas, mais je trouve cette approche en elle-même très utile
- En revanche, il est risqué de supposer que Claude peut choisir « la meilleure connaissance »
  Les données d’entraînement issues d’Internet sont de qualité très inégale, donc il est difficile d’attendre du modèle une sélection de niveau expert
- J’aime le fait que ce document de compétence se lise comme un bon billet de blog
  On peut prendre comme critère qu’une bonne compétence est un texte contenant des intuitions non triviales
- Ce type d’intuition pratique pourrait même être publié d’abord sur arXiv avant que les chercheurs n’en fassent un article
Le résultat le plus intéressant de l’étude est que les compétences auto-générées dégradent les performances (-1,3 pp), tandis que les compétences curées les améliorent fortement (+16,2 pp)
Cela correspond à l’hypothèse selon laquelle les LLM sont excellents comme consommateurs de connaissances procédurales, mais faibles comme producteurs
L’effet est d’ailleurs bien plus fort dans la santé que dans le logiciel, probablement parce que les données SWE sont déjà abondantes
- Moi aussi, cette différence m’a frappé. L’effet des compétences devient spectaculaire quand on manipule des bibliothèques nouvelles ou rares
  Par exemple, Adobe React Spectrum UI donne des résultats catastrophiques sans compétence, mais tout change avec une compétence bien conçue
Demander simplement au modèle de « créer une compétence » n’a aucun sens
Sans extension des connaissances via de nouvelles informations ou des ressources externes, cela ne fait que boucler sur sa propre sortie
Pour la génération de compétences, j’utilise un skill-creator qui effectue automatiquement de la recherche puis raffine le résultat selon les informations récentes ou le workflow visé
- Dans l’étude, l’agent n’avait ni capacité d’exploration autonome ni accès à des ressources
  Dans ces conditions, créer des compétences ne sert à rien
- En pratique, c’est bien plus utile si les compétences sont utilisées sur le terrain puis améliorées automatiquement grâce au feedback
Plus on automatise les LLM sur plusieurs couches, plus la qualité tend à se dégrader à chaque étape
Quand l’humain s’occupe des idées et du plan d’implémentation, et que le LLM ne fait que coder, ça va ; mais si on lui confie aussi la planification, on observe une chute brutale de qualité
- J’appelle ce phénomène « semantic collapse »
  À force de résumés et de reproductions successifs, le sens finit par s’effondrer
  Il faut à intervalles réguliers une nouvelle entrée humaine
- Mais l’inverse peut aussi se produire si la gestion du contexte est bonne
  Sur de gros codebases, je fais d’abord écrire au LLM un rapport d’exploration, puis je m’en sers dans une nouvelle session pour travailler
  Cela coûte plus de tokens, mais évite de rater des détails importants
- Aletheia de Google améliore au contraire les performances dans ce type de structure en pipeline
  Au fond, la vraie question est de savoir si l’on fournit au modèle suffisamment de connaissance du monde
- J’ai envie de comparer ce processus au jeu du téléphone arabe
  Le langage naturel est intrinsèquement instable, donc plus on le retransmet, plus la distorsion augmente
  Le simple fait que nous parvenions à si bien communiquer est déjà étonnant
- Cela dit, avec une boucle de feedback, la situation change
  Dans une structure open loop, la précision baisse, mais si chaque étape peut s’auto-ajuster, le système devient bien plus stable
Je construis un data warehouse prêt pour l’agentique (GitHub.com/mathisdrn/orca)
Au départ, je voulais optimiser les compétences sur benchmark, mais des approches comme DsPy et GEPA, qui utilisent le langage du modèle lui-même à la fois comme évaluateur et comme constructeur, semblent plus efficaces
Je me demande si les skill-creators d’Anthropic ou d’OpenAI reposent eux aussi sur ce type de structure auto-optimisante
Je ne trouve pas cette étude surprenante, ni même très significative en pratique
En réalité, les modèles créent rarement des compétences à partir de leur seul savoir latent
L’étude teste précisément ce cas très limité, donc le résultat est attendu
Ce qui serait plus intéressant, ce serait une approche où le modèle interroge des humains ou génère des compétences après une recherche approfondie
- Je suis totalement d’accord avec cette critique.
  Ce qui m’étonne davantage, c’est qu’un tel article ait été publié
- La science moderne encourage aussi la publication de « résultats non surprenants »
  En plus, ce genre d’étude aide à freiner les « managers qui demandent au modèle d’écrire un document de bonnes pratiques sans aucun contexte »
- Par le passé, des approches comme « planifier puis exécuter » ont parfois réellement fonctionné
  Cette étude ne prend pas ce contexte en compte
- Au fond, c’est comme dire qu’un CLAUDE.md ou un AGENTS.md écrit par le modèle lui-même est forcément dénué de sens
J’ai l’impression qu’en ce moment, trop de gens intelligents gaspillent leur énergie dans ces débats sur l’IA
Avant, ils se contentaient de créer des logiciels utiles, alors qu’aujourd’hui ils se laissent happer par le nouveau sujet IA de la semaine
L’effet de nerd-sniping est encore plus puissant qu’avec Web3 ou les frameworks JS
Cet article n’a fait au fond que confirmer un résultat prévisible
- En ce moment, on assiste à un processus évolutif distribué, avec beaucoup de tentatives redondantes
  Mais il est aussi très possible qu’un nouveau modèle arrive bientôt et rende tous ces débats caducs
  Beaucoup d’équipes reçoivent l’ordre de basculer vers une « stratégie de compétences », puis, entre-temps, un nouveau modèle fait déjà mieux
  Au final, tout le monde essaie de trouver sa direction dans une structure de survie instable
J’ai moi aussi souvent constaté une baisse de qualité des documents auto-générés
Quand un LLM extrait des « bonnes pratiques » à partir du code, il documente parfois telles quelles des mauvaises habitudes
Par exemple, j’ai vu dans du code C# des usages incorrects de ConfigureAwait(false) ou de Task.Run
Pour résoudre ce problème, nous construisons un système de connaissances curées
Je pense que l’agentic coding fondé sur Markdown deviendra la prochaine couche d’abstraction
- Cela dit, la couche LLM se distingue des langages précédents par son caractère non déterministe
  On ne sait pas encore clairement quel impact cette propriété aura sur le fonctionnement global
Le titre soumis était « Self-generated agent skills are useless », ce qui enfreignait les règles de HN
Il est plus juste de conserver le titre d’origine et d’exprimer son opinion dans les commentaires
- Mais c’est aussi un problème lorsque le résultat central se retrouve noyé sous un titre trop vague
  Un titre explicite peut apporter davantage d’éclairage à la communauté
  L’intention n’était pas de faire du clickbait, mais de mettre en avant la découverte principale

SkillsBench : un benchmark pour évaluer les performances des compétences d’agent sur des tâches variées

Vue d’ensemble de SKILLSBENCH

Définition et composition des compétences (Agent Skills)

Structure des tâches (Task) et construction du dataset

Composition du benchmark et classification de la difficulté

Configuration expérimentale

Indicateurs d’évaluation

Principaux résultats

Conclusion

À lire aussi

1 commentaires

Commentaires sur Hacker News