SkillsBench : un benchmark pour évaluer les performances des compétences d’agent sur des tâches variées

(arxiv.org)

3 points par GN⁺ 2026-02-18 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Premier benchmark visant à évaluer quantitativement l’efficacité des compétences (Agent Skills) des agents basés sur des grands modèles de langage (LLM), avec 84 tâches réparties sur 11 domaines
Chaque tâche est évaluée dans trois conditions — sans compétence, avec compétence curée, avec compétence auto-générée — et un total de 7 308 trajectoires d’exécution a été collecté
Les compétences curées ont montré en moyenne +16,2 points de pourcentage d’amélioration, mais avec de fortes variations selon les domaines, et certaines tâches (16 sur 84) ont au contraire vu leurs performances baisser
Les compétences auto-générées (Self-generated Skills) n’ont pas montré d’effet positif en moyenne, ce qui indique que les modèles ne parviennent pas à générer de manière fiable des connaissances procédurales par eux-mêmes
Des modules de compétences petits et ciblés (composés de 2 à 3 éléments) se révèlent plus efficaces que des compétences documentaires exhaustives, et de petits modèles utilisant des compétences atteignent des performances similaires à celles de grands modèles sans compétences

Vue d’ensemble de SKILLSBENCH

SKILLSBENCH est un benchmark conçu pour évaluer l’effet du renforcement par compétences des agents LLM, construit sur la base du framework Harbor
- Chaque tâche inclut un environnement conteneurisé, un validateur déterministe et une réponse de référence (oracle)
- La même tâche est exécutée à plusieurs reprises selon que des compétences sont appliquées ou non, afin de mesurer l’effet pur des compétences
Alors que les benchmarks existants évaluent surtout les capacités de base des modèles, SKILLSBENCH mesure directement l’impact des compétences sur les performances

Une compétence est un package structuré contenant des connaissances procédurales (procedural knowledge), qui étend le comportement de l’agent au moment de l’inférence sans modifier le modèle
- Éléments constitutifs : SKILL.md (procédure d’approche de la tâche), scripts exécutables, templates de code, exemples, etc.
Une compétence doit satisfaire aux quatre critères suivants
- inclure un contenu procédural
- s’appliquer à une classe de tâches, et non à un seul cas
- contenir des composants structurés
- garantir la portabilité via une base sur le système de fichiers
Les system prompts, exemples few-shot, recherches RAG et documentations d’outils ne sont pas considérés comme des compétences

Chaque tâche se compose de quatre éléments : consigne, environnement, réponse, validateur
- L’environnement est isolé dans un conteneur Docker afin de garantir la reproductibilité
- Le validateur est un script de test déterministe qui juge automatiquement la réussite ou l’échec
105 contributeurs ont soumis 322 tâches candidates ; après validation automatique et revue humaine, 84 tâches finales ont été retenues
Les contributeurs devaient respecter les exigences suivantes
- consignes rédigées par des humains (génération par LLM interdite)
- les compétences doivent fournir des instructions procédurales, et non la réponse à une tâche spécifique
- toutes les validations doivent être effectuées de manière déterministe (basée sur des assertions)
- passer les contrôles de structure automatiques, l’exécution oracle, la détection de génération par IA et l’audit de fuite
Pour éviter les fuites, les compétences sont rejetées si elles contiennent des noms de fichiers propres à une tâche, des constantes, des références aux tests, etc.

SKILLSBENCH comprend 84 tâches dans 11 domaines (logiciel, santé, finance, robotique, etc.)
La difficulté est répartie en trois niveaux selon le temps d’exécution humain
- Core (moins de 60 minutes) : 17
- Extended (1 à 4 heures) : 43
- Extreme (plus de 4 heures) : 26

Évaluation de trois harnais d’agents commerciaux : Claude Code, Gemini CLI, Codex CLI
Sept modèles utilisés : GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
Évaluation dans trois conditions
- No Skills : sans compétence
- With Skills : avec compétences curées
- Self-Generated Skills : compétences générées directement par le modèle puis appliquées
Au total, 7 308 trajectoires valides (trajectories) ont été collectées

Le taux de réussite (pass rate) est utilisé comme indicateur principal
Un gain normalisé (normalized gain) est également calculé pour analyser à la fois l’amélioration absolue et l’amélioration relative
Chaque tâche est répétée 5 fois, puis un score moyen est calculé

Les compétences curées ont apporté en moyenne +16,2 points de pourcentage, avec une plage de +13,6 à +23,3 points selon les configurations
- Les écarts entre domaines sont importants : l’amélioration la plus forte apparaît en santé (+51,9 points), la plus faible en génie logiciel (+4,5 points)
- Sur 84 tâches, 16 ont au contraire enregistré une baisse de performance
Les compétences auto-générées n’ont en moyenne aucun effet positif, voire un effet négatif
- Les modèles ne parviennent pas à générer de manière fiable des connaissances procédurales par eux-mêmes
Les compétences ciblées (2 à 3 modules) montrent une meilleure efficacité que les compétences documentaires exhaustives
La combinaison petit modèle + compétences atteint des performances comparables à celles d’un grand modèle sans compétences

SKILLSBENCH fournit un cadre d’évaluation centré sur les compétences et démontre quantitativement l’impact des compétences sur la capacité réelle des agents LLM à accomplir des tâches
Les résultats montrent que la qualité de conception des compétences et leur adéquation au domaine sont déterminantes pour améliorer les performances
Le benchmark peut servir de base à de futurs travaux pour clarifier les principes de conception structurelle des compétences et les limites de leur génération automatique