- Une vaste étude pilotée par l’Oxford Internet Institute (OII), à laquelle ont participé 42 chercheurs du monde entier, a confirmé le manque de rigueur scientifique des benchmarks utilisés pour évaluer les grands modèles de langage (LLM)
- L’examen de 445 benchmarks d’IA montre que plus de la moitié reposent sur des définitions conceptuelles floues ou des méthodes d’analyse faibles, ce qui rend difficile d’en tirer des conclusions fiables
- Parmi les études examinées, seulement 16 % utilisaient des méthodes statistiques, et des concepts abstraits comme le « raisonnement » ou l’« innocuité » n’étaient souvent pas clairement définis
- Les chercheurs ont proposé huit recommandations d’amélioration, incluant la clarification des définitions, des évaluations représentatives et un renforcement de l’analyse statistique, et ont publié pour cela l’outil Construct Validity Checklist
- Garantir la validité scientifique des benchmarks d’IA s’impose comme un enjeu central pour le progrès des technologies d’IA et la fiabilité de leur régulation
Aperçu de l’étude
- Il s’agit d’une étude dirigée par l’Oxford Internet Institute (OII), avec la participation de grandes institutions comme EPFL, Stanford, TUM, UC Berkeley et Yale
- Le titre de l’article est Measuring What Matters: Construct Validity in Large Language Model Benchmarks et sa présentation est prévue à NeurIPS 2025
- L’étude a procédé à un examen systématique de 445 benchmarks d’IA afin d’analyser la validité scientifique des critères d’évaluation
Principales conclusions
- Manque de rigueur statistique : parmi les études examinées, seulement 16 % utilisaient des méthodes de comparaison statistique
- Les écarts de performance entre modèles ou les affirmations de supériorité pourraient donc être dus au hasard
- Définitions floues ou contestées : environ la moitié des benchmarks ne définissaient pas clairement des concepts abstraits comme le « raisonnement » ou l’« innocuité »
- L’absence de définition claire entraîne un décalage entre l’objectif de l’évaluation et ce qui est réellement mesuré
Exemples de problèmes
- Confusion entre règles de forme : lorsqu’on demande de résoudre un simple casse-tête logique tout en imposant un format de réponse complexe, une bonne réponse peut être comptée comme un échec à cause d’une erreur de format
- Performance fragile : certains modèles réussissent sur des problèmes mathématiques simples, mais échouent dès qu’on modifie légèrement les chiffres ou la structure des phrases
- Affirmations sans fondement : obtenir un score élevé à des questions d’examen médical peut conduire à croire à tort qu’un modèle possède une expertise de niveau médecin
Recommandations d’amélioration
- Les chercheurs estiment qu’il est possible de résoudre ces problèmes et proposent huit recommandations inspirées des méthodologies de validation en psychométrie et en médecine
- Définir et isoler (Define and isolate) : définir clairement le concept mesuré et contrôler les facteurs non pertinents
- Construire des évaluations représentatives (Build representative evaluations) : refléter les environnements réels et couvrir l’ensemble des compétences visées
- Renforcer l’analyse et la justification (Strengthen analysis and justification) : signaler l’incertitude statistique, effectuer une analyse des erreurs et fournir des éléments attestant de la validité du benchmark
- Grâce à la Construct Validity Checklist, chercheurs, développeurs et autorités de régulation peuvent vérifier en amont la validité de conception d’un benchmark
Portée de l’étude
- Les benchmarks servent d’outils clés pour déterminer l’orientation de la recherche en IA, la compétition entre modèles, ainsi que les critères de politique publique et de régulation
- Des benchmarks à faible fondement scientifique risquent d’entraîner des malentendus sur les performances et la sécurité de l’IA
- Cette étude est présentée comme un modèle de coopération internationale pour renforcer la fiabilité de l’évaluation de l’IA
Autres informations
- L’article sera présenté à NeurIPS 2025 du 2 au 7 décembre 2025
- Le projet a bénéficié de soutiens variés, dont la bourse Clarendon, l’ESRC, l’EPSRC et le Meta LLM Evaluation Research Grant
- Depuis 25 ans, l’OII étudie les impacts sociaux des nouvelles technologies comme l’intelligence artificielle, les plateformes numériques et les systèmes autonomes
1 commentaires
Commentaires Hacker News
Je travaille dans un labo de recherche sur les benchmarks LLM et l’évaluation humaine
Honnêtement, ce domaine est actuellement une véritable zone de non-droit. Il n’existe pas de solution correcte, et les chercheurs n’aiment pas non plus se consacrer uniquement au benchmarking
Au final, au niveau produit, les tests A/B traditionnels restent la méthode la plus réaliste. Ils permettent de mesurer à grande échelle des métriques directes
Bien sûr, il existe aussi des choses comme le « benchmarketing », mais la plupart des gens veulent sincèrement construire de bons benchmarks. C’est simplement trop difficile, voire impossible
Même lorsque les métriques mesurables sont claires, le traitement statistique est médiocre. La plupart du temps, on compare juste des différences de moyenne, et même les calculs de p-value sont peu fiables
En plus, la corrélation avec les performances sur les workloads réels est quasiment nulle. Les expériences en production sont tellement bruitées qu’on peut facilement rater une régression
Côté IA, c’est encore pire. Ce qu’on mesure est flou, et il existe une incitation à faire de la mesure de bruit pour le cours de Bourse. Dans ces conditions, il est normal que les benchmarks LLM soient dans un état lamentable
B peut simplement obtenir un meilleur score en « trompant les gens ». Le cas de 4o chez OpenAI en est un exemple représentatif
Avec une lecture plus indulgente, le problème est plutôt qu’il est difficile de benchmarker l’intelligence elle-même. Déjà, pour les humains, il est difficile d’évaluer l’adéquation à un poste avec des questions standardisées ; pour l’IA, c’est encore plus vrai
Je travaille dans le domaine du TTS (Text-to-Speech), et ici, c’est un territoire encore plus chaotique que pour les LLM
Les démos sont parfaites, mais dès qu’on génère sur des centaines de minutes, on voit apparaître en continu des dérives de volume, des variations de vitesse et des erreurs de prononciation
Le plus gros problème, c’est l’absence de benchmark standard pour la synthèse vocale longue durée.
J’ai résumé dans Death of Demo un texte qui propose ce type de critères
J’ai écrit à propos du projet Humanity’s Last Exam
L’idée consiste à crowdsourcer des problèmes difficiles auprès d’experts du monde entier pour tester les modèles d’IA
Il était intéressant de voir que des problèmes faciles pour les humains restent encore difficiles pour l’IA
Au final, je pense que l’avenir de l’apprentissage de l’IA dépendra de l’expérience dans le monde réel (meatspace) et d’annotations de raisonnement
Je pense que les benchmarks ressemblent aux scores du SAT. Ce ne sont pas des prédictions parfaites, mais ils donnent un signal approximatif utile
Les LLM progressent dans une direction significative, et les benchmarks en reflètent une partie
Dans le boom actuel des LLM, le maillon le plus faible, ce sont les benchmarks
La comparaison entre modèles relève presque d’un chaos quasi pseudoscientifique.
J’utilise le classement LMArena, mais les écarts entre modèles y sont inexplicablement différents
Les prompts sont fortement couplés à la version du modèle, donc ce qui marchait bien sur GPT-4 casse sur GPT-5
Du coup, en ce moment, je tends simplement à utiliser Gemini
Ce tuning basé sur le feedback aggrave le problème d’excès de confiance des LLM
Mais les utilisateurs n’aiment pas évaluer eux-mêmes et veulent des classements façon leaderboard
On peut aussi utiliser un LLM comme juge, mais cela donne l’impression qu’il y a quelque chose de fondamentalement bancal.
Au final, il faut une évaluation fondée sur des relecteurs experts, mais cela coûte cher
Au niveau d’un développeur individuel, la solution consiste à créer soi-même ses benchmarks
Il suffit de construire des tests à partir de problèmes de code qu’on a soi-même résolus, puis de vérifier des métriques comme tok/s ou TTFT
En fin de compte, l’évaluation la plus réaliste, c’est que l’utilisateur l’essaie lui-même
Certains prennent comme exemple les problèmes d’AIME, passés sans calculatrice, pour souligner que des benchmarks portant seulement sur de petits nombres ne reflètent pas les capacités réelles
Mais, pour ma part, je considère que le fait qu’un modèle apprenne les ficelles de l’examen comme un humain est déjà une forme de progrès. C’est plus proche d’un raisonnement humain
Moi, je veux une évaluation non gamifiée. Pour l’instant, ce ne sont que des autocomplétions intelligentes
Quelqu’un propose de créer entre nous un repo Git de bugs pénibles pour tester les LLM
Par exemple, on a essayé un bug Yjs/CRDT avec Claude Code, GPT5-codex et GLM-4.6, mais au final, seul un contournement a été possible
Ce n’est qu’en envoyant les logs frontend vers le backend pour que l’IA les voie en temps réel qu’il y a enfin eu des progrès
Car dès qu’ils sont rendus publics, ils sont absorbés comme données d’entraînement et perdent leur valeur.
Le maintien de ces benchmarks personnels permet d’avoir une vision beaucoup plus froide de la vitesse réelle des progrès des modèles
Un benchmark n’est finalement qu’une spécification dans un contexte particulier. Il montre simplement que du code fonctionne bien dans une situation donnée, sans rien garantir dans tous les cas
Appliqué aux LLM, cela devient : « les benchmarks ne montrent que les tâches possibles, mais ne prouvent pas les tâches impossibles »
Dans cette étude, 445 benchmarks ont été passés en revue, et la plupart souffraient d’un manque de validité de construit
Pour mesurer une vraie intelligence, il faut évaluer la nouveauté (novelty).
Résoudre des motifs similaires à des problèmes déjà vus n’est qu’une simple mémorisation
Mais avec des centaines de pétaoctets de données d’entraînement, il est presque impossible de créer des problèmes entièrement nouveaux en évitant ce que le modèle a déjà vu
C’est ainsi qu’apparaît une illusion d’intelligence
En réalité, il existe d’innombrables zones grises entre ces deux notions.
Même un problème totalement nouveau doit conserver un certain degré de similarité pour pouvoir être résolu