3 points par GN⁺ 2026-02-18 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Premier benchmark visant à évaluer quantitativement l’efficacité des compétences (Agent Skills) des agents basés sur des grands modèles de langage (LLM), avec 84 tâches réparties sur 11 domaines
  • Chaque tâche est évaluée dans trois conditions — sans compétence, avec compétence curée, avec compétence auto-générée — et un total de 7 308 trajectoires d’exécution a été collecté
  • Les compétences curées ont montré en moyenne +16,2 points de pourcentage d’amélioration, mais avec de fortes variations selon les domaines, et certaines tâches (16 sur 84) ont au contraire vu leurs performances baisser
  • Les compétences auto-générées (Self-generated Skills) n’ont pas montré d’effet positif en moyenne, ce qui indique que les modèles ne parviennent pas à générer de manière fiable des connaissances procédurales par eux-mêmes
  • Des modules de compétences petits et ciblés (composés de 2 à 3 éléments) se révèlent plus efficaces que des compétences documentaires exhaustives, et de petits modèles utilisant des compétences atteignent des performances similaires à celles de grands modèles sans compétences

Vue d’ensemble de SKILLSBENCH

  • SKILLSBENCH est un benchmark conçu pour évaluer l’effet du renforcement par compétences des agents LLM, construit sur la base du framework Harbor
    • Chaque tâche inclut un environnement conteneurisé, un validateur déterministe et une réponse de référence (oracle)
    • La même tâche est exécutée à plusieurs reprises selon que des compétences sont appliquées ou non, afin de mesurer l’effet pur des compétences
  • Alors que les benchmarks existants évaluent surtout les capacités de base des modèles, SKILLSBENCH mesure directement l’impact des compétences sur les performances

Définition et composition des compétences (Agent Skills)

  • Une compétence est un package structuré contenant des connaissances procédurales (procedural knowledge), qui étend le comportement de l’agent au moment de l’inférence sans modifier le modèle
    • Éléments constitutifs : SKILL.md (procédure d’approche de la tâche), scripts exécutables, templates de code, exemples, etc.
  • Une compétence doit satisfaire aux quatre critères suivants
    • inclure un contenu procédural
    • s’appliquer à une classe de tâches, et non à un seul cas
    • contenir des composants structurés
    • garantir la portabilité via une base sur le système de fichiers
  • Les system prompts, exemples few-shot, recherches RAG et documentations d’outils ne sont pas considérés comme des compétences

Structure des tâches (Task) et construction du dataset

  • Chaque tâche se compose de quatre éléments : consigne, environnement, réponse, validateur
    • L’environnement est isolé dans un conteneur Docker afin de garantir la reproductibilité
    • Le validateur est un script de test déterministe qui juge automatiquement la réussite ou l’échec
  • 105 contributeurs ont soumis 322 tâches candidates ; après validation automatique et revue humaine, 84 tâches finales ont été retenues
  • Les contributeurs devaient respecter les exigences suivantes
    • consignes rédigées par des humains (génération par LLM interdite)
    • les compétences doivent fournir des instructions procédurales, et non la réponse à une tâche spécifique
    • toutes les validations doivent être effectuées de manière déterministe (basée sur des assertions)
    • passer les contrôles de structure automatiques, l’exécution oracle, la détection de génération par IA et l’audit de fuite
  • Pour éviter les fuites, les compétences sont rejetées si elles contiennent des noms de fichiers propres à une tâche, des constantes, des références aux tests, etc.

Composition du benchmark et classification de la difficulté

  • SKILLSBENCH comprend 84 tâches dans 11 domaines (logiciel, santé, finance, robotique, etc.)
  • La difficulté est répartie en trois niveaux selon le temps d’exécution humain
    • Core (moins de 60 minutes) : 17
    • Extended (1 à 4 heures) : 43
    • Extreme (plus de 4 heures) : 26

Configuration expérimentale

  • Évaluation de trois harnais d’agents commerciaux : Claude Code, Gemini CLI, Codex CLI
  • Sept modèles utilisés : GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
  • Évaluation dans trois conditions
    • No Skills : sans compétence
    • With Skills : avec compétences curées
    • Self-Generated Skills : compétences générées directement par le modèle puis appliquées
  • Au total, 7 308 trajectoires valides (trajectories) ont été collectées

Indicateurs d’évaluation

  • Le taux de réussite (pass rate) est utilisé comme indicateur principal
  • Un gain normalisé (normalized gain) est également calculé pour analyser à la fois l’amélioration absolue et l’amélioration relative
  • Chaque tâche est répétée 5 fois, puis un score moyen est calculé

Principaux résultats

  • Les compétences curées ont apporté en moyenne +16,2 points de pourcentage, avec une plage de +13,6 à +23,3 points selon les configurations
    • Les écarts entre domaines sont importants : l’amélioration la plus forte apparaît en santé (+51,9 points), la plus faible en génie logiciel (+4,5 points)
    • Sur 84 tâches, 16 ont au contraire enregistré une baisse de performance
  • Les compétences auto-générées n’ont en moyenne aucun effet positif, voire un effet négatif
    • Les modèles ne parviennent pas à générer de manière fiable des connaissances procédurales par eux-mêmes
  • Les compétences ciblées (2 à 3 modules) montrent une meilleure efficacité que les compétences documentaires exhaustives
  • La combinaison petit modèle + compétences atteint des performances comparables à celles d’un grand modèle sans compétences

Conclusion

  • SKILLSBENCH fournit un cadre d’évaluation centré sur les compétences et démontre quantitativement l’impact des compétences sur la capacité réelle des agents LLM à accomplir des tâches
  • Les résultats montrent que la qualité de conception des compétences et leur adéquation au domaine sont déterminantes pour améliorer les performances
  • Le benchmark peut servir de base à de futurs travaux pour clarifier les principes de conception structurelle des compétences et les limites de leur génération automatique

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.