- Récemment, OpenAI a dévoilé son nouveau modèle o3 en annonçant des performances révolutionnaires en mathématiques
- Le point le plus remarqué est qu’il a atteint 25 % sur le benchmark FrontierMath, alors que les modèles précédents n’atteignaient que 2 %
- Après cette annonce, des critiques ont émergé sur le manque de transparence entourant la constitution de ce benchmark
- Cette affaire peut fournir des enseignements pour les futurs benchmarks d’IA, leur évaluation et les discussions sur la sécurité
Aperçu de l’affaire
- Avant novembre 2024, Epoch AI a commencé à construire FrontierMath, un benchmark d’évaluation en mathématiques
- Des problèmes ont été commandés à des mathématiciens externes, rémunérés entre environ 300 et 1 000 dollars
- À l’époque, il n’était pas clairement indiqué qui finançait le projet ni qui pouvait voir les problèmes et leurs solutions
- Le 7 novembre 2024, Epoch AI a publié sur arXiv une première version de son article, sans aucune mention de la source du financement
- Le 20 décembre 2024, OpenAI a dévoilé le modèle o3 en annonçant un score de 25 % sur FrontierMath
- Le même jour, la v5 de l’article d’Epoch AI a été mise à jour sur arXiv, révélant qu’OpenAI avait entièrement financé le projet et pouvait accéder à la plupart des problèmes difficiles ainsi qu’à leurs solutions
Détails supplémentaires
- Des inquiétudes existaient déjà juste après la mise à jour de décembre, et d’autres informations connexes ont récemment émergé
- FrontierMath répartit la difficulté en (a) niveau olympiade (25 %), (b) difficulté intermédiaire (50 %), (c) niveau nécessitant plusieurs semaines de travail pour un expert (25 %)
- Dans l’annonce selon laquelle o3 avait atteint 25 %, le fait de ne pas préciser quels niveaux de difficulté avaient été principalement résolus peut prêter à confusion
- OpenAI avait accès à l’ensemble des problèmes et de leurs solutions, mais on suppose qu’en vertu d’un accord oral, ce jeu de données n’a pas été utilisé directement pour l’entraînement
- Certains soulignent toutefois qu’il est difficile pour quiconque de savoir précisément comment les modèles sont entraînés en interne
Pourquoi c’est problématique par ailleurs
- Le fait de posséder ou de pouvoir consulter les problèmes de FrontierMath pourrait indirectement aider à améliorer les performances d’un modèle
- Des inquiétudes portent notamment sur la possibilité d’utiliser des problèmes difficiles non publics pour affiner la validation du modèle ou les méthodes de recherche
- Il reste flou de savoir si l’annonce des 25 % reflète une réelle capacité à résoudre des problèmes difficiles, ou si le score provient surtout de problèmes plus faciles
Un jeu de données qui peut améliorer les capacités même sans entraînement explicite
- L’architecture interne de o3 est peu documentée, mais certaines autres recherches adoptent une « mise à l’échelle au moment de l’inférence »
- Des travaux présentent l’apprentissage automatique d’une évaluation Chain-of-thought fondée sur MCMC, ou le renforcement de la recherche en ajoutant un modèle de récompense intermédiaire (PRM)
- Un benchmark difficile comme FrontierMath peut être utile pour valider ce type de modèles de récompense
- Autrement dit, même sans être utilisé directement pour l’entraînement, il pourrait servir à ajuster les stratégies de recherche du modèle ou les techniques de validation
- Si l’objectif est une évaluation indépendante et équitable, certains estiment qu’il vaudrait mieux ne l’utiliser qu’une seule fois pour l’évaluation, sans autre réutilisation
Inquiétudes sur la sécurité de l’IA
- Epoch AI est connu comme un organisme qui suit les tendances de développement de l’IA et réfléchit aux questions de sécurité
- Parmi les mathématiciens ayant fourni des problèmes à FrontierMath, certains n’auraient peut-être pas contribué s’ils avaient su que cela pourrait servir à améliorer les capacités de l’IA
- Au final, on reproche à OpenAI d’avoir indirectement obtenu des problèmes auprès de personnes non consentantes pour valider et développer son modèle
- Ce manque de transparence soulève des inquiétudes du point de vue de la sécurité de l’IA et de l’éthique de la recherche
Commentaire de meemi, chercheur en AI Safety
- FrontierMath a reçu un financement d’OpenAI
- Il est reproché que ce fait n’ait pas été communiqué de manière transparente au public avant le 20 décembre
- Les premières versions publiées sur arXiv (v1–v4) ne mentionnaient pas le soutien d’OpenAI, et cette information n’est apparue que dans les versions publiées après le 20 décembre
- On ne sait pas clairement quel accord Epoch AI avait conclu avec OpenAI, mais certains avancent que le financement a pu rester non public jusqu’au moment de l’annonce de o3, le 20 décembre
- Il est également indiqué que les mathématiciens ayant participé à la création des problèmes n’ont pas été (activement) informés du financement par OpenAI
- Les contractuels ont signé des NDA et des règles de sécurité strictes empêchant de partager les problèmes et les solutions par e-mail, Overleaf ou d’autres moyens
- En revanche, le financement par OpenAI ou la possibilité d’une utilisation des données ne leur aurait pas été clairement expliquée
- Certains affirment que même certains auteurs ignoraient peut-être qu’OpenAI finançait le projet
- La plupart des personnes et des contractuels semblaient penser que « les problèmes et réponses de ce benchmark resteraient totalement privés et ne seraient utilisés que par Epoch »
- À ce jour, ni Epoch AI ni OpenAI n’ont publiquement déclaré qu’« OpenAI a accès aux problèmes ou aux solutions », même si des rumeurs disent qu’OpenAI les utilise effectivement
- Il est aussi indiqué qu’on ignore s’il existe un accord explicite interdisant l’utilisation de ce jeu de données pour l’entraînement
- En conséquence, il existe un point de vue critique selon lequel le financement et les possibilités d’usage des données auraient dû être clairement divulgués, et les contractuels chargés de créer les problèmes auraient dû recevoir des informations suffisantes
Commentaire de Tamay, membre d’Epoch AI
- Tamay, d’Epoch AI, reconnaît directement le problème de transparence
- Il existait des conditions contractuelles empêchant de révéler l’implication d’OpenAI avant la sortie de o3
- Il admet ensuite que la transparence a été insuffisante et qu’il aurait fallu informer les contributeurs plus tôt
- Il reconnaît la faute d’Epoch sur le fait de ne pas avoir pu communiquer explicitement la source du financement et les droits d’accès aux données
- Promesse d’améliorer la transparence dans les futures collaborations
- À l’avenir, ils chercheront à faire en sorte que les contributeurs connaissent clairement dès le départ la source du financement, l’accès aux données et les intentions d’usage
- Il mentionne que, pour certains mathématiciens, il avait été dit qu’un laboratoire finançait le projet, mais que cela n’avait pas été communiqué de manière systématique
- Il estime que le problème venait du fait de ne pas avoir nommé le laboratoire en question (c’est-à-dire OpenAI)
- Il déclare qu’il aurait fallu négocier plus fermement pour pouvoir rendre cette relation de coopération publique dès le début
- Publication restreinte jusqu’à la sortie de o3
- En raison d’obligations contractuelles, le partenariat avec OpenAI ne pouvait pas être rendu public avant les environs de la sortie de o3
- Les mathématiciens rédigeant les problèmes avaient le droit de savoir à qui leur travail pouvait être transmis
- Il dit regretter de ne pas avoir pu l’expliquer correctement aux contributeurs à cause du contrat
- Accès aux données et possibilité d’usage pour l’entraînement
- OpenAI peut accéder à une part importante des problèmes et solutions de FrontierMath
- Mais il affirme qu’il existe un accord oral selon lequel ils ne seront pas utilisés à des fins d’entraînement
- Des employés d’OpenAI ont publiquement décrit FrontierMath comme un « strongly held out set »
- Il existe en pratique un holdout set séparé auquel OpenAI n’a pas accès, destiné à une vérification indépendante
- L’objectif est ainsi d’éviter un entraînement excessif du modèle ou l’overfitting, et de conserver une mesure de performance objective
- Objectif initial de FrontierMath
- Dès l’origine, FrontierMath a été conçu et présenté comme un projet d’évaluation
- OpenAI aurait également soutenu la décision de maintenir un véritable test set
- Il souligne qu’il est important, pour le monde académique comme pour les laboratoires, de disposer de test sets réellement non contaminés, c’est-à-dire non utilisés pour l’entraînement
- [Correction] Portée de l’accès d’OpenAI aux données
- Pour éviter toute confusion, il précise qu’OpenAI n’a finalement pas de droit d’accès au holdout set séparé destiné à la vérification indépendante
1 commentaires
Commentaires sur Hacker News
Souligne que, même lorsqu’il y avait une promesse verbale selon laquelle cela ne serait pas utilisé pour l’entraînement du modèle, ce type d’accord est souvent violé
Le cofondateur d’Epoch reconnaît qu’OpenAI pouvait accéder aux problèmes et aux solutions de FrontierMath, mais mentionne qu’un accord verbal prévoyait de ne pas les utiliser pour l’entraînement
Critique les personnes qui croient tel quel le marketing d’OpenAI
Tamay d’Epoch AI reconnaît ne pas avoir été plus transparent au sujet de la participation d’OpenAI
Mentionne que les résultats d’OpenAI sur le benchmark ont perdu toute crédibilité et que d’autres entreprises d’IA ont eu l’occasion d’obtenir des résultats importants sur FrontierMath
Affirme que, pour vérifier si les LLMs ou l’IA sont réellement intelligents, il faut prouver que les questions ne figuraient pas dans l’ensemble d’entraînement
Souligne que, même sans tricher délibérément sur un benchmark, le fait de subir le même test de manière répétée peut entraîner du surapprentissage ou du p-hacking
Exprime son malaise face au fait qu’OpenAI induise le public en erreur
Souligne qu’il devient de plus en plus probable que les entreprises d’IA construisent leurs propres évaluations, que les benchmarks publics sont épuisés, et qu’il faut davantage investir dans des benchmarks de frontier
Affirme qu’on ne peut pas faire confiance aux résultats d’évaluation présentés par les entreprises d’IA