Le projet FrontierMath soutenu par OpenAI

(lesswrong.com)

2 points par GN⁺ 2025-01-20 | 1 commentaires | Partager sur WhatsApp

Récemment, OpenAI a dévoilé son nouveau modèle o3 en annonçant des performances révolutionnaires en mathématiques
Le point le plus remarqué est qu’il a atteint 25 % sur le benchmark FrontierMath, alors que les modèles précédents n’atteignaient que 2 %
Après cette annonce, des critiques ont émergé sur le manque de transparence entourant la constitution de ce benchmark
Cette affaire peut fournir des enseignements pour les futurs benchmarks d’IA, leur évaluation et les discussions sur la sécurité

Aperçu de l’affaire

Avant novembre 2024, Epoch AI a commencé à construire FrontierMath, un benchmark d’évaluation en mathématiques
Des problèmes ont été commandés à des mathématiciens externes, rémunérés entre environ 300 et 1 000 dollars
À l’époque, il n’était pas clairement indiqué qui finançait le projet ni qui pouvait voir les problèmes et leurs solutions
Le 7 novembre 2024, Epoch AI a publié sur arXiv une première version de son article, sans aucune mention de la source du financement
Le 20 décembre 2024, OpenAI a dévoilé le modèle o3 en annonçant un score de 25 % sur FrontierMath
Le même jour, la v5 de l’article d’Epoch AI a été mise à jour sur arXiv, révélant qu’OpenAI avait entièrement financé le projet et pouvait accéder à la plupart des problèmes difficiles ainsi qu’à leurs solutions

Détails supplémentaires

Des inquiétudes existaient déjà juste après la mise à jour de décembre, et d’autres informations connexes ont récemment émergé
FrontierMath répartit la difficulté en (a) niveau olympiade (25 %), (b) difficulté intermédiaire (50 %), (c) niveau nécessitant plusieurs semaines de travail pour un expert (25 %)
Dans l’annonce selon laquelle o3 avait atteint 25 %, le fait de ne pas préciser quels niveaux de difficulté avaient été principalement résolus peut prêter à confusion
OpenAI avait accès à l’ensemble des problèmes et de leurs solutions, mais on suppose qu’en vertu d’un accord oral, ce jeu de données n’a pas été utilisé directement pour l’entraînement
Certains soulignent toutefois qu’il est difficile pour quiconque de savoir précisément comment les modèles sont entraînés en interne

Pourquoi c’est problématique par ailleurs

Le fait de posséder ou de pouvoir consulter les problèmes de FrontierMath pourrait indirectement aider à améliorer les performances d’un modèle
Des inquiétudes portent notamment sur la possibilité d’utiliser des problèmes difficiles non publics pour affiner la validation du modèle ou les méthodes de recherche
Il reste flou de savoir si l’annonce des 25 % reflète une réelle capacité à résoudre des problèmes difficiles, ou si le score provient surtout de problèmes plus faciles

Un jeu de données qui peut améliorer les capacités même sans entraînement explicite

L’architecture interne de o3 est peu documentée, mais certaines autres recherches adoptent une « mise à l’échelle au moment de l’inférence »
Des travaux présentent l’apprentissage automatique d’une évaluation Chain-of-thought fondée sur MCMC, ou le renforcement de la recherche en ajoutant un modèle de récompense intermédiaire (PRM)
Un benchmark difficile comme FrontierMath peut être utile pour valider ce type de modèles de récompense
Autrement dit, même sans être utilisé directement pour l’entraînement, il pourrait servir à ajuster les stratégies de recherche du modèle ou les techniques de validation
Si l’objectif est une évaluation indépendante et équitable, certains estiment qu’il vaudrait mieux ne l’utiliser qu’une seule fois pour l’évaluation, sans autre réutilisation

Inquiétudes sur la sécurité de l’IA

Epoch AI est connu comme un organisme qui suit les tendances de développement de l’IA et réfléchit aux questions de sécurité
Parmi les mathématiciens ayant fourni des problèmes à FrontierMath, certains n’auraient peut-être pas contribué s’ils avaient su que cela pourrait servir à améliorer les capacités de l’IA
Au final, on reproche à OpenAI d’avoir indirectement obtenu des problèmes auprès de personnes non consentantes pour valider et développer son modèle
Ce manque de transparence soulève des inquiétudes du point de vue de la sécurité de l’IA et de l’éthique de la recherche

Commentaire de meemi, chercheur en AI Safety

FrontierMath a reçu un financement d’OpenAI
Il est reproché que ce fait n’ait pas été communiqué de manière transparente au public avant le 20 décembre
Les premières versions publiées sur arXiv (v1–v4) ne mentionnaient pas le soutien d’OpenAI, et cette information n’est apparue que dans les versions publiées après le 20 décembre
On ne sait pas clairement quel accord Epoch AI avait conclu avec OpenAI, mais certains avancent que le financement a pu rester non public jusqu’au moment de l’annonce de o3, le 20 décembre
Il est également indiqué que les mathématiciens ayant participé à la création des problèmes n’ont pas été (activement) informés du financement par OpenAI
Les contractuels ont signé des NDA et des règles de sécurité strictes empêchant de partager les problèmes et les solutions par e-mail, Overleaf ou d’autres moyens
En revanche, le financement par OpenAI ou la possibilité d’une utilisation des données ne leur aurait pas été clairement expliquée
Certains affirment que même certains auteurs ignoraient peut-être qu’OpenAI finançait le projet
La plupart des personnes et des contractuels semblaient penser que « les problèmes et réponses de ce benchmark resteraient totalement privés et ne seraient utilisés que par Epoch »
À ce jour, ni Epoch AI ni OpenAI n’ont publiquement déclaré qu’« OpenAI a accès aux problèmes ou aux solutions », même si des rumeurs disent qu’OpenAI les utilise effectivement
Il est aussi indiqué qu’on ignore s’il existe un accord explicite interdisant l’utilisation de ce jeu de données pour l’entraînement
En conséquence, il existe un point de vue critique selon lequel le financement et les possibilités d’usage des données auraient dû être clairement divulgués, et les contractuels chargés de créer les problèmes auraient dû recevoir des informations suffisantes

Commentaire de Tamay, membre d’Epoch AI

Tamay, d’Epoch AI, reconnaît directement le problème de transparence
- Il existait des conditions contractuelles empêchant de révéler l’implication d’OpenAI avant la sortie de o3
- Il admet ensuite que la transparence a été insuffisante et qu’il aurait fallu informer les contributeurs plus tôt
- Il reconnaît la faute d’Epoch sur le fait de ne pas avoir pu communiquer explicitement la source du financement et les droits d’accès aux données
Promesse d’améliorer la transparence dans les futures collaborations
- À l’avenir, ils chercheront à faire en sorte que les contributeurs connaissent clairement dès le départ la source du financement, l’accès aux données et les intentions d’usage
- Il mentionne que, pour certains mathématiciens, il avait été dit qu’un laboratoire finançait le projet, mais que cela n’avait pas été communiqué de manière systématique
- Il estime que le problème venait du fait de ne pas avoir nommé le laboratoire en question (c’est-à-dire OpenAI)
- Il déclare qu’il aurait fallu négocier plus fermement pour pouvoir rendre cette relation de coopération publique dès le début
Publication restreinte jusqu’à la sortie de o3
- En raison d’obligations contractuelles, le partenariat avec OpenAI ne pouvait pas être rendu public avant les environs de la sortie de o3
- Les mathématiciens rédigeant les problèmes avaient le droit de savoir à qui leur travail pouvait être transmis
- Il dit regretter de ne pas avoir pu l’expliquer correctement aux contributeurs à cause du contrat
Accès aux données et possibilité d’usage pour l’entraînement
- OpenAI peut accéder à une part importante des problèmes et solutions de FrontierMath
- Mais il affirme qu’il existe un accord oral selon lequel ils ne seront pas utilisés à des fins d’entraînement
- Des employés d’OpenAI ont publiquement décrit FrontierMath comme un « strongly held out set »
- Il existe en pratique un holdout set séparé auquel OpenAI n’a pas accès, destiné à une vérification indépendante
- L’objectif est ainsi d’éviter un entraînement excessif du modèle ou l’overfitting, et de conserver une mesure de performance objective
Objectif initial de FrontierMath
- Dès l’origine, FrontierMath a été conçu et présenté comme un projet d’évaluation
- OpenAI aurait également soutenu la décision de maintenir un véritable test set
- Il souligne qu’il est important, pour le monde académique comme pour les laboratoires, de disposer de test sets réellement non contaminés, c’est-à-dire non utilisés pour l’entraînement
[Correction] Portée de l’accès d’OpenAI aux données
- Pour éviter toute confusion, il précise qu’OpenAI n’a finalement pas de droit d’accès au holdout set séparé destiné à la vérification indépendante

1 commentaires

GN⁺ 2025-01-20

Commentaires sur Hacker News

Souligne que, même lorsqu’il y avait une promesse verbale selon laquelle cela ne serait pas utilisé pour l’entraînement du modèle, ce type d’accord est souvent violé
- Adopte une position sceptique sur le fait qu’OpenAI ait pu accéder aux données du benchmark tout en convenant seulement oralement de ne pas les utiliser pour l’entraînement
Le cofondateur d’Epoch reconnaît qu’OpenAI pouvait accéder aux problèmes et aux solutions de FrontierMath, mais mentionne qu’un accord verbal prévoyait de ne pas les utiliser pour l’entraînement
- Met en doute la fiabilité d’un accord verbal et souligne qu’il existe de nombreuses façons pour OpenAI d’obtenir un avantage indu sur le benchmark tout en respectant techniquement l’accord
Critique les personnes qui croient tel quel le marketing d’OpenAI
- Donne comme exemple le fait que la démo de Sora incluait un montage manuel sans que cela soit mentionné
Tamay d’Epoch AI reconnaît ne pas avoir été plus transparent au sujet de la participation d’OpenAI
- Regrette que la divulgation d’informations ait été limitée par contrat, et qu’il aurait fallu négocier plus fermement afin d’offrir plus tôt de la transparence aux contributeurs du benchmark
Mentionne que les résultats d’OpenAI sur le benchmark ont perdu toute crédibilité et que d’autres entreprises d’IA ont eu l’occasion d’obtenir des résultats importants sur FrontierMath
Affirme que, pour vérifier si les LLMs ou l’IA sont réellement intelligents, il faut prouver que les questions ne figuraient pas dans l’ensemble d’entraînement
- Si l’on ne sait pas si les questions ou les réponses étaient présentes dans l’ensemble d’entraînement, il ne faudrait pas prétendre que l’IA est intelligente
Souligne que, même sans tricher délibérément sur un benchmark, le fait de subir le même test de manière répétée peut entraîner du surapprentissage ou du p-hacking
- Explique qu’il peut être difficile de déterminer si de petits changements constituent de véritables améliorations ou simplement du bruit, et que les chercheurs peuvent croire avoir trouvé une optimisation fondée sur du bruit
Exprime son malaise face au fait qu’OpenAI induise le public en erreur
- Mentionne que le comportement du CEO nuira à la réputation de FrontierMath et d’Epoch AI
Souligne qu’il devient de plus en plus probable que les entreprises d’IA construisent leurs propres évaluations, que les benchmarks publics sont épuisés, et qu’il faut davantage investir dans des benchmarks de frontier
Affirme qu’on ne peut pas faire confiance aux résultats d’évaluation présentés par les entreprises d’IA

Le projet FrontierMath soutenu par OpenAI

Aperçu de l’affaire

Détails supplémentaires

Pourquoi c’est problématique par ailleurs

Un jeu de données qui peut améliorer les capacités même sans entraînement explicite

Inquiétudes sur la sécurité de l’IA

Commentaire de meemi, chercheur en AI Safety

Commentaire de Tamay, membre d’Epoch AI

À lire aussi

1 commentaires

Commentaires sur Hacker News