Une étude met en lumière les faiblesses des méthodes d’évaluation des systèmes d’IA

(oii.ox.ac.uk)

4 points par GN⁺ 2025-11-09 | 1 commentaires | Partager sur WhatsApp

Une vaste étude pilotée par l’Oxford Internet Institute (OII), à laquelle ont participé 42 chercheurs du monde entier, a confirmé le manque de rigueur scientifique des benchmarks utilisés pour évaluer les grands modèles de langage (LLM)
L’examen de 445 benchmarks d’IA montre que plus de la moitié reposent sur des définitions conceptuelles floues ou des méthodes d’analyse faibles, ce qui rend difficile d’en tirer des conclusions fiables
Parmi les études examinées, seulement 16 % utilisaient des méthodes statistiques, et des concepts abstraits comme le « raisonnement » ou l’« innocuité » n’étaient souvent pas clairement définis
Les chercheurs ont proposé huit recommandations d’amélioration, incluant la clarification des définitions, des évaluations représentatives et un renforcement de l’analyse statistique, et ont publié pour cela l’outil Construct Validity Checklist
Garantir la validité scientifique des benchmarks d’IA s’impose comme un enjeu central pour le progrès des technologies d’IA et la fiabilité de leur régulation

Aperçu de l’étude

Il s’agit d’une étude dirigée par l’Oxford Internet Institute (OII), avec la participation de grandes institutions comme EPFL, Stanford, TUM, UC Berkeley et Yale
Le titre de l’article est Measuring What Matters: Construct Validity in Large Language Model Benchmarks et sa présentation est prévue à NeurIPS 2025
L’étude a procédé à un examen systématique de 445 benchmarks d’IA afin d’analyser la validité scientifique des critères d’évaluation

Principales conclusions

Manque de rigueur statistique : parmi les études examinées, seulement 16 % utilisaient des méthodes de comparaison statistique
- Les écarts de performance entre modèles ou les affirmations de supériorité pourraient donc être dus au hasard
Définitions floues ou contestées : environ la moitié des benchmarks ne définissaient pas clairement des concepts abstraits comme le « raisonnement » ou l’« innocuité »
- L’absence de définition claire entraîne un décalage entre l’objectif de l’évaluation et ce qui est réellement mesuré

Exemples de problèmes

Confusion entre règles de forme : lorsqu’on demande de résoudre un simple casse-tête logique tout en imposant un format de réponse complexe, une bonne réponse peut être comptée comme un échec à cause d’une erreur de format
Performance fragile : certains modèles réussissent sur des problèmes mathématiques simples, mais échouent dès qu’on modifie légèrement les chiffres ou la structure des phrases
Affirmations sans fondement : obtenir un score élevé à des questions d’examen médical peut conduire à croire à tort qu’un modèle possède une expertise de niveau médecin

Recommandations d’amélioration

Les chercheurs estiment qu’il est possible de résoudre ces problèmes et proposent huit recommandations inspirées des méthodologies de validation en psychométrie et en médecine
- Définir et isoler (Define and isolate) : définir clairement le concept mesuré et contrôler les facteurs non pertinents
- Construire des évaluations représentatives (Build representative evaluations) : refléter les environnements réels et couvrir l’ensemble des compétences visées
- Renforcer l’analyse et la justification (Strengthen analysis and justification) : signaler l’incertitude statistique, effectuer une analyse des erreurs et fournir des éléments attestant de la validité du benchmark
Grâce à la Construct Validity Checklist, chercheurs, développeurs et autorités de régulation peuvent vérifier en amont la validité de conception d’un benchmark

Portée de l’étude

Les benchmarks servent d’outils clés pour déterminer l’orientation de la recherche en IA, la compétition entre modèles, ainsi que les critères de politique publique et de régulation
Des benchmarks à faible fondement scientifique risquent d’entraîner des malentendus sur les performances et la sécurité de l’IA
Cette étude est présentée comme un modèle de coopération internationale pour renforcer la fiabilité de l’évaluation de l’IA

Autres informations

L’article sera présenté à NeurIPS 2025 du 2 au 7 décembre 2025
Le projet a bénéficié de soutiens variés, dont la bourse Clarendon, l’ESRC, l’EPSRC et le Meta LLM Evaluation Research Grant
Depuis 25 ans, l’OII étudie les impacts sociaux des nouvelles technologies comme l’intelligence artificielle, les plateformes numériques et les systèmes autonomes

1 commentaires

GN⁺ 2025-11-09

Commentaires Hacker News

Je travaille dans un labo de recherche sur les benchmarks LLM et l’évaluation humaine
Honnêtement, ce domaine est actuellement une véritable zone de non-droit. Il n’existe pas de solution correcte, et les chercheurs n’aiment pas non plus se consacrer uniquement au benchmarking
Au final, au niveau produit, les tests A/B traditionnels restent la méthode la plus réaliste. Ils permettent de mesurer à grande échelle des métriques directes
Bien sûr, il existe aussi des choses comme le « benchmarketing », mais la plupart des gens veulent sincèrement construire de bons benchmarks. C’est simplement trop difficile, voire impossible
- Je m’occupe d’infrastructure de plateforme chez un hyperscaler, et dans notre domaine aussi, les benchmarks sont catastrophiques
  Même lorsque les métriques mesurables sont claires, le traitement statistique est médiocre. La plupart du temps, on compare juste des différences de moyenne, et même les calculs de p-value sont peu fiables
  En plus, la corrélation avec les performances sur les workloads réels est quasiment nulle. Les expériences en production sont tellement bruitées qu’on peut facilement rater une régression
  Côté IA, c’est encore pire. Ce qu’on mesure est flou, et il existe une incitation à faire de la mesure de bruit pour le cours de Bourse. Dans ces conditions, il est normal que les benchmarks LLM soient dans un état lamentable
- Les tests A/B sont eux aussi risqués. Au fond, cela revient à optimiser indirectement le feedback utilisateur, et les évaluateurs humains peuvent être manipulés facilement
  B peut simplement obtenir un meilleur score en « trompant les gens ». Le cas de 4o chez OpenAI en est un exemple représentatif
- J’ai été choqué de voir qu’un modèle résolvait bien des problèmes de maths de niveau primaire, puis échouait dès qu’on modifiait légèrement les chiffres ou les phrases. Au final, ce n’est que de la mémorisation de motifs
- Je pense que le plus gros problème, c’est que les entreprises tech et les médias ne rendent pas ces problèmes publics de manière transparente. Ils promeuvent les scores de benchmark comme s’il s’agissait de mesures objectives
- Je travaille moi aussi sur l’évaluation des LLM et, avec un regard cynique, la plupart des benchmarks sont des tâches factices. Parce qu’ils correspondent rarement à des cas d’usage réels
  Avec une lecture plus indulgente, le problème est plutôt qu’il est difficile de benchmarker l’intelligence elle-même. Déjà, pour les humains, il est difficile d’évaluer l’adéquation à un poste avec des questions standardisées ; pour l’IA, c’est encore plus vrai
Je travaille dans le domaine du TTS (Text-to-Speech), et ici, c’est un territoire encore plus chaotique que pour les LLM
Les démos sont parfaites, mais dès qu’on génère sur des centaines de minutes, on voit apparaître en continu des dérives de volume, des variations de vitesse et des erreurs de prononciation
Le plus gros problème, c’est l’absence de benchmark standard pour la synthèse vocale longue durée.
J’ai résumé dans Death of Demo un texte qui propose ce type de critères
J’ai écrit à propos du projet Humanity’s Last Exam
L’idée consiste à crowdsourcer des problèmes difficiles auprès d’experts du monde entier pour tester les modèles d’IA
Il était intéressant de voir que des problèmes faciles pour les humains restent encore difficiles pour l’IA
Au final, je pense que l’avenir de l’apprentissage de l’IA dépendra de l’expérience dans le monde réel (meatspace) et d’annotations de raisonnement
- Des entreprises comme Mercor ou Micro1 génèrent déjà un chiffre d’affaires annuel à neuf chiffres avec cette approche
Je pense que les benchmarks ressemblent aux scores du SAT. Ce ne sont pas des prédictions parfaites, mais ils donnent un signal approximatif utile
Les LLM progressent dans une direction significative, et les benchmarks en reflètent une partie
- Mais il n’y a aucune raison que des examens conçus pour des humains prédisent les performances des LLM au travail. Par exemple, un simple problème de multiplication est corrélé à l’intelligence humaine, mais n’a aucun sens pour un ordinateur
- C’est un peu comme un examen pour évaluer des critiques d’art. La tentative même de noter objectivement un résultat subjectif est contradictoire
- Dire que « les progrès sont clairs » brouille le débat. En réalité, le fait même qu’il y ait des progrès significatifs est encore discuté
Dans le boom actuel des LLM, le maillon le plus faible, ce sont les benchmarks
La comparaison entre modèles relève presque d’un chaos quasi pseudoscientifique.
J’utilise le classement LMArena, mais les écarts entre modèles y sont inexplicablement différents
Les prompts sont fortement couplés à la version du modèle, donc ce qui marchait bien sur GPT-4 casse sur GPT-5
Du coup, en ce moment, je tends simplement à utiliser Gemini
- Les évaluations de LMArena sont trop faciles à manipuler. Les évaluateurs humains aussi se laissent facilement séduire par des réponses flatteuses
  Ce tuning basé sur le feedback aggrave le problème d’excès de confiance des LLM
- J’ai créé un site nommé AImodelReview pour comparer les sorties de plusieurs modèles
  Mais les utilisateurs n’aiment pas évaluer eux-mêmes et veulent des classements façon leaderboard
  On peut aussi utiliser un LLM comme juge, mais cela donne l’impression qu’il y a quelque chose de fondamentalement bancal.
  Au final, il faut une évaluation fondée sur des relecteurs experts, mais cela coûte cher
- Cela me rappelle que les tests psychologiques humains sont eux aussi difficiles pour des raisons similaires
Au niveau d’un développeur individuel, la solution consiste à créer soi-même ses benchmarks
Il suffit de construire des tests à partir de problèmes de code qu’on a soi-même résolus, puis de vérifier des métriques comme tok/s ou TTFT
- Comme je n’utilise les LLM que dans un environnement de wrapper agentique, le benchmarking est simple. J’essaie avec un nouveau modèle et je juge le résultat en pass/fail au feeling
  En fin de compte, l’évaluation la plus réaliste, c’est que l’utilisateur l’essaie lui-même
- Si on ajoute une évaluation sur le GitHub d’OpenAI, le modèle suivant deviendra meilleur sur ce problème
- On appelle ce type d’évaluation des evals, et c’est indispensable pour tout projet IA sérieux
- Des sites comme AI Stupid Level suivent aussi cette approche
- Il ne faut toutefois pas oublier que « résoudre un problème » peut n’être que de la reconnaissance de motifs
Certains prennent comme exemple les problèmes d’AIME, passés sans calculatrice, pour souligner que des benchmarks portant seulement sur de petits nombres ne reflètent pas les capacités réelles
Mais, pour ma part, je considère que le fait qu’un modèle apprenne les ficelles de l’examen comme un humain est déjà une forme de progrès. C’est plus proche d’un raisonnement humain
- À l’inverse, certains estiment que s’il s’agissait d’une vraie capacité de raisonnement, il faudrait aussi résoudre les problèmes avec de grands nombres
- Quand des étudiants résolvent des problèmes grâce aux astuces d’examen, cela ne représente qu’une partie de l’évaluation humaine ; les LLM, eux, présentent cela comme leur capacité globale
  Moi, je veux une évaluation non gamifiée. Pour l’instant, ce ne sont que des autocomplétions intelligentes
- Les problèmes de calcul finiront par disparaître dès lors que la capacité d’utiliser des outils sera acquise
- La vidéo Forbidden Technique qui traite de cette discussion est aussi intéressante
- Si l’on permettait aux LLM d’utiliser des outils externes comme Excel ou Mathematica, ils pourraient résoudre les problèmes de calcul comme des humains
Quelqu’un propose de créer entre nous un repo Git de bugs pénibles pour tester les LLM
Par exemple, on a essayé un bug Yjs/CRDT avec Claude Code, GPT5-codex et GLM-4.6, mais au final, seul un contournement a été possible
Ce n’est qu’en envoyant les logs frontend vers le backend pour que l’IA les voie en temps réel qu’il y a enfin eu des progrès
- Faire utiliser directement la bibliothèque Playwright s’est révélé efficace pour résoudre les problèmes frontend
- Mais une telle proposition revient peut-être en pratique à offrir gratuitement des données de haute qualité pour l’entraînement de l’IA
- Moi aussi, à titre personnel, j’ai constitué une collection de bugs et demandé à un LLM d’écrire du code de test, mais même les modèles les plus récents échouent encore
- En réalité, la plupart des utilisateurs expérimentés de LLM maintiennent déjà leurs propres benchmarks privés
  Car dès qu’ils sont rendus publics, ils sont absorbés comme données d’entraînement et perdent leur valeur.
  Le maintien de ces benchmarks personnels permet d’avoir une vision beaucoup plus froide de la vitesse réelle des progrès des modèles
Un benchmark n’est finalement qu’une spécification dans un contexte particulier. Il montre simplement que du code fonctionne bien dans une situation donnée, sans rien garantir dans tous les cas
- Comme le disait Dijkstra, « les tests peuvent montrer la présence de bugs, mais jamais prouver leur absence »
  Appliqué aux LLM, cela devient : « les benchmarks ne montrent que les tâches possibles, mais ne prouvent pas les tâches impossibles »
Dans cette étude, 445 benchmarks ont été passés en revue, et la plupart souffraient d’un manque de validité de construit
Pour mesurer une vraie intelligence, il faut évaluer la nouveauté (novelty).
Résoudre des motifs similaires à des problèmes déjà vus n’est qu’une simple mémorisation
Mais avec des centaines de pétaoctets de données d’entraînement, il est presque impossible de créer des problèmes entièrement nouveaux en évitant ce que le modèle a déjà vu
C’est ainsi qu’apparaît une illusion d’intelligence
- Réduire la résolution de problèmes à une opposition entre « mémoire » et « créativité » est une mauvaise approche
  En réalité, il existe d’innombrables zones grises entre ces deux notions.
  Même un problème totalement nouveau doit conserver un certain degré de similarité pour pouvoir être résolu

Une étude met en lumière les faiblesses des méthodes d’évaluation des systèmes d’IA

Aperçu de l’étude

Principales conclusions

Exemples de problèmes

Recommandations d’amélioration

Portée de l’étude

Autres informations

À lire aussi

1 commentaires

Commentaires Hacker News