- Un LLM expérimental de raisonnement développé par OpenAI a obtenu un score de niveau médaille d’or à l’Olympiade internationale de mathématiques (IMO) 2025
- Dans les mêmes conditions que le règlement officiel de l’IMO — résolution des problèmes, rédaction de preuves en langage naturel, et notation à l’unanimité par trois correcteurs humains — il a obtenu 35 points sur 42 (5 problèmes résolus sur 6)
- Les problèmes de l’IMO exigent une pensée créative de très haut niveau et des preuves en plusieurs étapes ; cela montre qu’un LLM peut dépasser les limites des approches RL existantes et potentiellement produire des preuves logiques de niveau humain
- Le fait que cela ait été atteint non pas via un entraînement centré sur une tâche spécifique, mais grâce à l’apprentissage par renforcement généraliste et à l’extension du calcul au moment de l’inférence est particulièrement significatif
- Le modèle est une version de recherche distincte de GPT-5, dont la sortie est proche, et la publication de ces performances mathématiques de tout premier plan n’est prévue que dans plusieurs mois
Aperçu des résultats du LLM d’OpenAI à l’IMO 2025
- Alexander Wei (@alexwei_) d’OpenAI a annoncé que le dernier modèle expérimental de raisonnement linguistique avait obtenu un score correspondant au seuil de la médaille d’or à l’IMO 2025
- L’IMO est une compétition extrêmement difficile réunissant les jeunes les plus doués en mathématiques du monde, connue pour ses problèmes exigeant un raisonnement logique complexe et une compréhension conceptuelle profonde
- L’évaluation a été conduite dans les mêmes conditions que pour les participants humains : deux sessions d’examen de 4 h 30, utilisation des sujets officiels, aucun outil externe, et soumission de preuves en langage naturel
- Chaque problème a été corrigé indépendamment par 3 anciens médaillés de l’IMO, puis la note a été validée à l’unanimité
Importance du résultat et niveau de difficulté atteint
- Les problèmes de l’IMO demandent un temps de réflexion bien plus long, davantage de créativité et des argumentations bien plus complexes que les benchmarks existants (GSM8K, MATH, AIME)
- Ce modèle a obtenu 35/42 points en résolvant complètement 5 problèmes (P1 à P5), sans soumettre de solution à P6, atteignant ainsi le seuil réel de la médaille d’or à l’IMO
- Sa capacité à générer des preuves logiques sur plusieurs pages dépasse les limites de l’apprentissage par renforcement (RL) tel qu’il était utilisé jusqu’ici
Approche de recherche et contexte des progrès de l’IA
- Les hautes performances ont été obtenues non avec un modèle conçu uniquement pour résoudre ce type de problème, mais sur la base d’un RL généraliste et d’une mise à l’échelle du calcul
- Le modèle a réussi à produire des résultats créatifs complexes malgré l’absence d’un système de récompense clair, comme c’est souvent le cas avec le RL traditionnel
- Il s’agit d’un modèle expérimental, distinct de GPT-5, qui doit sortir prochainement, et ce niveau de capacités mathématiques ne devrait pas être rendu public dans les prochains mois
Perspectives et réactions de la communauté
- La vitesse des progrès des capacités mathématiques de l’IA dépasse largement les attentes (par rapport à une prévision de 30 % sur le benchmark MATH formulée en 2021, le niveau médaille d’or à l’IMO est désormais atteint)
- Alexander a adressé ses félicitations à tous les participants de l’IMO 2025 et a également souligné que l’équipe comptait de nombreux anciens participants à l’IMO
- Les solutions du modèle aux problèmes de l’IMO 2025 devraient aussi être publiées, bien qu’avec un style encore expérimental
1 commentaires
Réactions Hacker News
Noam Brown : quand on travaille dans un labo à la pointe, on a souvent quelques mois d’avance pour voir apparaître de nouvelles capacités, mais ce résultat-ci était une avancée vraiment nouvelle qui utilisait des techniques développées tout récemment ; cela a surpris même les chercheurs d’OpenAI, et aujourd’hui tout le monde peut enfin voir où se situe réellement l’état de l’art
En outre, ce résultat a été porté par une petite équipe : Alex Wei a transformé en résultat concret une idée de recherche à laquelle peu de gens croyaient vraiment, et les longues années de recherche et d’ingénierie d’OpenAI ainsi que de la communauté IA ont aussi joué un grand rôle
Lien : https://x.com/polynoamial/status/1946478258968531288
Il est intéressant de voir que les solutions IMO utilisent un vocabulaire assez limité
Lien : https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt « Pas besoin d’en dire plus quand moins de mots sont plus efficaces »
Et il faut aussi noter qu’Alex Wei est lui-même médaillé d’or à l’IOI
À ceux qui minimisent cela sous prétexte que c’est « du niveau lycée », je recommande d’essayer de résoudre un problème d’IMO ; ils sont tous publics, y compris ceux de cette année
Lien : https://www.imo-official.org/problems.aspx
Moi, ça me donne le vertige
Par exemple, j’ai vu un problème du type x+y=1, xy=1, et la solution n’utilisait en apparence que l’algèbre élémentaire qu’on connaît tous (factorisation, formule quadratique, etc.), mais même l’explication était élégante
Cela donne l’impression qu’en y réfléchissant assez longtemps on finira par trouver, mais selon mon expérience ce n’est pas du tout le cas
Lien : https://www.youtube.com/watch?v=csS4BjQuhCc
Il doit y en avoir une cinquantaine, et ça fait penser au fait qu’avec autant de versions, garder la sécurité et éviter les fuites de sujets doit être bien plus difficile
Dire que ces problèmes sont « de niveau lycée » ne concerne que les prérequis ; en réalité ils sont extrêmement difficiles
Même des mathématiciens professionnels non issus de l’IMO auraient du mal à atteindre ce niveau de performance
Cela ne signifie pas que l’IA est supérieure à l’humain en mathématiques ; les mathématiciens se concentrent sur l’extension de la frontière des mathématiques
On dit aussi que les bonnes réponses n’étaient pas dans les données d’entraînement
Et ils affirment que ce modèle n’est pas spécialisé uniquement pour les problèmes d’IMO
On continue d’ajuster le processus d’entraînement et, à mesure que les performances sur l’ensemble de validation s’améliorent, on revoit aussi l’architecture et les données
Même sans le vouloir, des informations de l’ensemble de validation finissent par s’infiltrer dans le modèle
Et si on choisit un autre ensemble de validation, on obtient un modèle complètement différent
Rien que la manière de répondre donne cette impression
Ex. : https://xcancel.com/alexwei_/status/1946477742855532918
Capture d’écran de la réponse réelle : https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
On dirait un style AlphaProof, passant du langage naturel à un système de type Lean puis revenant
OpenAI ne partagera probablement pas ce genre de détails d’implémentation
Dans le fil : « le modèle a résolu P1 à P5, mais n’a pas donné de réponse à P6 »
Le problème le plus difficile (P6) était aussi presque impossible pour les humains ; même l’équipe de Chine n’a obtenu que 21 points sur 42, et dans la plupart des autres pays personne n’a réussi
L’ordre de difficulté est en général conçu comme P1, P4, P2, P5, P3, P6, avec P1 le plus facile et P6 le plus difficile
Dans la pratique, il arrive que ce ne soit pas exactement le cas
Même si ce n’était qu’un hasard mécanique, elle aurait aussi pu produire de mauvaises réponses ; je me demande donc s’ils n’ont pas retenu uniquement les réponses correctes, autrement dit seulement les résultats réussis
Google a lui aussi participé à cet IMO et a obtenu l’or
Lien : https://x.com/natolambert/status/1946569475396120653
Comme OAI l’a annoncé en premier, Google fera probablement bientôt une annonce officielle aussi
Sur Twitter, on disait que Google avait utilisé Lean, alors qu’OpenAI n’avait utilisé qu’un LLM sans outils
Quelle que soit l’approche, le résultat compte davantage, mais les limites des techniques précises et leur progression restent aussi des éléments intéressants
Ce qui rend l’or d’OpenAI particulier, c’est l’idée que cela aurait été possible avec un pur LLM
Quand Google publiera sa communication officielle, on saura quelle approche a été employée
L’avantage d’une approche LLM est qu’elle pourrait se généraliser non seulement aux preuves mathématiques, mais aussi à un large éventail de problèmes de raisonnement
Noam Brown :
Ce n’est pas un modèle spécialisé IMO, mais un LLM de raisonnement intégrant de nouvelles techniques générales expérimentales
Le raisonnement est bien plus efficace que dans o1 et o3, et l’efficacité à l’inférence pourrait encore être poussée davantage
Les progrès récents de l’IA ont été rapides, et il s’attend à ce que cela continue
Il pense en particulier qu’on approche du moment où l’IA contribuera sérieusement aux découvertes scientifiques
Jusqu’à récemment, je pensais que les progrès ralentissaient, mais entre les affirmations selon lesquelles ce n’est pas un modèle spécialisé et qu’il reste une marge d’amélioration de l’efficacité, il y a manifestement un progrès réel très net
Lien : https://x.com/polynoamial/status/1946478249187377206
« Si l’adversaire adopte une stratégie de réponse (fixe), elle ne peut jamais perdre. Pour qu’elle gagne (et que l’adversaire perde), il faudrait que Q_{even-1}>even, donc qu’un certain a_j> sqrt2, or on a déjà a_j<=c< sqrt2. Donc elle ne peut jamais perdre » etc.
On y sent cette volonté de maximiser l’efficacité avec un minimum de mots
Lien : https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
C’est vraiment impressionnant, mais je me demande comment ils s’y sont pris
Quand Wei parle d’augmenter le calcul à l’inférence (scaling up test-time compute), on a l’impression qu’ils y ont englouti énormément d’argent
S’ils ont simplement lancé des milliers ou des dizaines de milliers d’exécutions en parallèle pour ne garder que le meilleur résultat, ce serait décevant
Si c’est une vraie avancée solide, ils devraient être transparents sur les outils utilisés et la manière dont ils les ont exploités
J’imagine que plusieurs techniques d’amélioration de performance sur des problèmes difficiles à vérifier ont dû être utilisées ici
Cela voudrait plutôt dire qu’on sait distinguer l’exactitude et la rigueur d’une bonne réponse, ce qui n’est pas si différent de la façon dont les humains résolvent parfois ce genre de problème
C’était déjà la méthode utilisée au moment des premiers benchmarks ARC avec o3
Il est aussi possible qu’ils aient employé plusieurs agents en coopération, ce qui leur aurait permis de contourner la longueur de contexte (la limite de tokens)
À ce stade, l’IA a déjà dépassé 99,99 % des humains sur la plupart des problèmes de maths usuels, donc passer à 99,999 % n’a rien d’étonnant en soi
Si c’est le LLM lui-même qui a vérifié puis retenu la bonne solution, cela ressemble davantage au processus par lequel un humain résout un problème difficile en faisant plusieurs tentatives
La différence, c’est que l’IA peut les faire en parallèle grâce aux ressources de calcul, alors qu’un humain ne peut essayer qu’en séquentiel
Cette compétition (l’IMO) est si élitiste qu’il semble même y avoir beaucoup de gens dans la communauté des programmeurs qui ne savent pas exactement de quoi il s’agit
En faisant un calcul simple pour les États-Unis, on peut prendre environ 20 élèves sélectionnés pour le camp comme ordre de grandeur des potentiels médaillés d’or, sur une cohorte d’environ 20 millions de lycéens ; on parle donc d’un talent de l’ordre de « un sur un million »
Moi aussi, j’ai fait un très bon lycée, mais je n’avais jamais entendu parler de l’IMO avant l’université, quand j’ai rencontré des participants
En pratique, le nombre d’élèves qui savent que la compétition existe et y participent est bien inférieur au nombre total d’élèves
Indépendamment du niveau, beaucoup auraient peut-être pu obtenir de bons résultats s’ils avaient simplement eu les bonnes opportunités et les bonnes informations
J’ai récemment vu un rapport d’évaluation des LLM sur l’IMO 2025, et o3 high n’atteignait même pas le niveau bronze
Lien : https://matharena.ai/imo/
J’attends aussi l’avis de Terry Tao, mais c’est justement dans ce genre de domaine que je vois un usage positif de l’IA
Plutôt qu’une innovation désordonnée dans une économie qui n’y est pas prête, j’aimerais que cela serve à accélérer le progrès scientifique
Lien : https://mathstodon.xyz/@tao/114881419368778558