5 points par GN⁺ 2025-07-20 | 1 commentaires | Partager sur WhatsApp
  • Un LLM expérimental de raisonnement développé par OpenAI a obtenu un score de niveau médaille d’or à l’Olympiade internationale de mathématiques (IMO) 2025
  • Dans les mêmes conditions que le règlement officiel de l’IMO — résolution des problèmes, rédaction de preuves en langage naturel, et notation à l’unanimité par trois correcteurs humains — il a obtenu 35 points sur 42 (5 problèmes résolus sur 6)
  • Les problèmes de l’IMO exigent une pensée créative de très haut niveau et des preuves en plusieurs étapes ; cela montre qu’un LLM peut dépasser les limites des approches RL existantes et potentiellement produire des preuves logiques de niveau humain
  • Le fait que cela ait été atteint non pas via un entraînement centré sur une tâche spécifique, mais grâce à l’apprentissage par renforcement généraliste et à l’extension du calcul au moment de l’inférence est particulièrement significatif
  • Le modèle est une version de recherche distincte de GPT-5, dont la sortie est proche, et la publication de ces performances mathématiques de tout premier plan n’est prévue que dans plusieurs mois

Aperçu des résultats du LLM d’OpenAI à l’IMO 2025

  • Alexander Wei (@alexwei_) d’OpenAI a annoncé que le dernier modèle expérimental de raisonnement linguistique avait obtenu un score correspondant au seuil de la médaille d’or à l’IMO 2025
    • L’IMO est une compétition extrêmement difficile réunissant les jeunes les plus doués en mathématiques du monde, connue pour ses problèmes exigeant un raisonnement logique complexe et une compréhension conceptuelle profonde
  • L’évaluation a été conduite dans les mêmes conditions que pour les participants humains : deux sessions d’examen de 4 h 30, utilisation des sujets officiels, aucun outil externe, et soumission de preuves en langage naturel
  • Chaque problème a été corrigé indépendamment par 3 anciens médaillés de l’IMO, puis la note a été validée à l’unanimité

Importance du résultat et niveau de difficulté atteint

  • Les problèmes de l’IMO demandent un temps de réflexion bien plus long, davantage de créativité et des argumentations bien plus complexes que les benchmarks existants (GSM8K, MATH, AIME)
  • Ce modèle a obtenu 35/42 points en résolvant complètement 5 problèmes (P1 à P5), sans soumettre de solution à P6, atteignant ainsi le seuil réel de la médaille d’or à l’IMO
  • Sa capacité à générer des preuves logiques sur plusieurs pages dépasse les limites de l’apprentissage par renforcement (RL) tel qu’il était utilisé jusqu’ici

Approche de recherche et contexte des progrès de l’IA

  • Les hautes performances ont été obtenues non avec un modèle conçu uniquement pour résoudre ce type de problème, mais sur la base d’un RL généraliste et d’une mise à l’échelle du calcul
  • Le modèle a réussi à produire des résultats créatifs complexes malgré l’absence d’un système de récompense clair, comme c’est souvent le cas avec le RL traditionnel
  • Il s’agit d’un modèle expérimental, distinct de GPT-5, qui doit sortir prochainement, et ce niveau de capacités mathématiques ne devrait pas être rendu public dans les prochains mois

Perspectives et réactions de la communauté

  • La vitesse des progrès des capacités mathématiques de l’IA dépasse largement les attentes (par rapport à une prévision de 30 % sur le benchmark MATH formulée en 2021, le niveau médaille d’or à l’IMO est désormais atteint)
  • Alexander a adressé ses félicitations à tous les participants de l’IMO 2025 et a également souligné que l’équipe comptait de nombreux anciens participants à l’IMO
  • Les solutions du modèle aux problèmes de l’IMO 2025 devraient aussi être publiées, bien qu’avec un style encore expérimental

1 commentaires

 
GN⁺ 2025-07-20
Réactions Hacker News
  • Noam Brown : quand on travaille dans un labo à la pointe, on a souvent quelques mois d’avance pour voir apparaître de nouvelles capacités, mais ce résultat-ci était une avancée vraiment nouvelle qui utilisait des techniques développées tout récemment ; cela a surpris même les chercheurs d’OpenAI, et aujourd’hui tout le monde peut enfin voir où se situe réellement l’état de l’art
    En outre, ce résultat a été porté par une petite équipe : Alex Wei a transformé en résultat concret une idée de recherche à laquelle peu de gens croyaient vraiment, et les longues années de recherche et d’ingénierie d’OpenAI ainsi que de la communauté IA ont aussi joué un grand rôle
    Lien : https://x.com/polynoamial/status/1946478258968531288

    • J’espère quand même que cette « nouvelle technique » ne consistait pas à s’entraîner sur les données de test /je plaisante
  • Il est intéressant de voir que les solutions IMO utilisent un vocabulaire assez limité
    Lien : https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt « Pas besoin d’en dire plus quand moins de mots sont plus efficaces »
    Et il faut aussi noter qu’Alex Wei est lui-même médaillé d’or à l’IOI

    • D’un autre côté, c’est amusant de constater que cela ressemble aux notes qu’un vrai participant pourrait laisser en résolvant le problème : réduire les mots superflus diminue le bruit informationnel et aide à se concentrer ; surtout avec les LLM, qui génèrent un token à la fois avec une limite de longueur de contexte, on peut se demander si n’utiliser que des tokens porteurs de sens ne permettrait pas d’obtenir un fil de pensée plus long et plus cohérent
    • C’est amusant qu’il soit médaillé d’or à l’IOI (olympiade d’informatique), alors qu’ici la discussion porte sur l’IMO (olympiade de mathématiques)
    • Terence Tao a lui aussi récemment prédit dans un podcast que des LLM remporteraient l’or cette année
    • Dans les transformeurs, quel que soit le sens porté, chaque token prend le même temps à générer ; couper les parties répétitives ou inutiles du texte accélère donc énormément les choses
    • J’ai envie de demander si « see the world » veut dire « voir le monde » ou s’il s’agit d’un jeu de mots sonore comme « SeaWorld »
  • À ceux qui minimisent cela sous prétexte que c’est « du niveau lycée », je recommande d’essayer de résoudre un problème d’IMO ; ils sont tous publics, y compris ceux de cette année
    Lien : https://www.imo-official.org/problems.aspx
    Moi, ça me donne le vertige

    • À ce sujet, il existe des vidéos montrant comment on réfléchit réellement à ce type de problème et comment on les résout
    • J’aime regarder ce genre de vidéos YouTube de résolution de problèmes IMO ; en surface cela paraît simple, mais c’est trompeur
      Par exemple, j’ai vu un problème du type x+y=1, xy=1, et la solution n’utilisait en apparence que l’algèbre élémentaire qu’on connaît tous (factorisation, formule quadratique, etc.), mais même l’explication était élégante
      Cela donne l’impression qu’en y réfléchissant assez longtemps on finira par trouver, mais selon mon expérience ce n’est pas du tout le cas
      Lien : https://www.youtube.com/watch?v=csS4BjQuhCc
    • Je me demande comment ces problèmes IMO se comparent aux problèmes de niveau hard sur leetcode
    • Je n’avais jamais réalisé avant aujourd’hui qu’il existait plusieurs versions linguistiques des problèmes IMO
      Il doit y en avoir une cinquantaine, et ça fait penser au fait qu’avec autant de versions, garder la sécurité et éviter les fuites de sujets doit être bien plus difficile
  • Dire que ces problèmes sont « de niveau lycée » ne concerne que les prérequis ; en réalité ils sont extrêmement difficiles
    Même des mathématiciens professionnels non issus de l’IMO auraient du mal à atteindre ce niveau de performance
    Cela ne signifie pas que l’IA est supérieure à l’humain en mathématiques ; les mathématiciens se concentrent sur l’extension de la frontière des mathématiques
    On dit aussi que les bonnes réponses n’étaient pas dans les données d’entraînement
    Et ils affirment que ce modèle n’est pas spécialisé uniquement pour les problèmes d’IMO

    • Cela me rappelle qu’en data science, il est souvent bien plus difficile qu’on ne le croit d’éviter les fuites depuis l’ensemble de validation
      On continue d’ajuster le processus d’entraînement et, à mesure que les performances sur l’ensemble de validation s’améliorent, on revoit aussi l’architecture et les données
      Même sans le vouloir, des informations de l’ensemble de validation finissent par s’infiltrer dans le modèle
      Et si on choisit un autre ensemble de validation, on obtient un modèle complètement différent
    • Je doute vraiment qu’il ne s’agisse pas d’un modèle spécialisé IMO ; sur Twitter ils parlent de « raisonnement général », mais s’ils n’ont vraiment pas fait de RL sur des problèmes de maths olympiques, j’aimerais absolument entendre une déclaration officielle d’OpenAI là-dessus
    • Je me demande sur quoi repose l’affirmation « ce n’est pas un modèle spécialisé IMO »
    • Je me demande quelles preuves ou quels éléments étayent « les réponses n’étaient pas dans les données d’entraînement » et « ce n’est pas un modèle spécialisé IMO »
    • À mes yeux, cela ressemble presque à coup sûr à un modèle spécialisé IMO
      Rien que la manière de répondre donne cette impression
      Ex. : https://xcancel.com/alexwei_/status/1946477742855532918
      Capture d’écran de la réponse réelle : https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      On dirait un style AlphaProof, passant du langage naturel à un système de type Lean puis revenant
      OpenAI ne partagera probablement pas ce genre de détails d’implémentation
  • Dans le fil : « le modèle a résolu P1 à P5, mais n’a pas donné de réponse à P6 »
    Le problème le plus difficile (P6) était aussi presque impossible pour les humains ; même l’équipe de Chine n’a obtenu que 21 points sur 42, et dans la plupart des autres pays personne n’a réussi

    • À l’IMO, on voit P1, P2, P3 le premier jour, puis P4, P5, P6 le deuxième
      L’ordre de difficulté est en général conçu comme P1, P4, P2, P5, P3, P6, avec P1 le plus facile et P6 le plus difficile
      Dans la pratique, il arrive que ce ne soit pas exactement le cas
    • Il me semble que quelqu’un dans l’équipe canadienne a réussi P6, mais globalement cela reste extrêmement rare
    • Le fait que la machine échoue précisément sur les problèmes que les humains trouvent aussi difficiles, notamment P6, donne l’impression qu’il y a peut-être eu intervention humaine
      Même si ce n’était qu’un hasard mécanique, elle aurait aussi pu produire de mauvaises réponses ; je me demande donc s’ils n’ont pas retenu uniquement les réponses correctes, autrement dit seulement les résultats réussis
  • Google a lui aussi participé à cet IMO et a obtenu l’or
    Lien : https://x.com/natolambert/status/1946569475396120653
    Comme OAI l’a annoncé en premier, Google fera probablement bientôt une annonce officielle aussi

    • La remarque de Noam Brown, selon laquelle « même les chercheurs d’OpenAI ont été surpris par le résultat », est d’autant plus frappante si plusieurs labos ont obtenu ce genre de résultat en même temps
      Sur Twitter, on disait que Google avait utilisé Lean, alors qu’OpenAI n’avait utilisé qu’un LLM sans outils
      Quelle que soit l’approche, le résultat compte davantage, mais les limites des techniques précises et leur progression restent aussi des éléments intéressants
    • AlphaProof de Google a obtenu l’argent l’an dernier avec une approche neurale + symbolique
      Ce qui rend l’or d’OpenAI particulier, c’est l’idée que cela aurait été possible avec un pur LLM
      Quand Google publiera sa communication officielle, on saura quelle approche a été employée
      L’avantage d’une approche LLM est qu’elle pourrait se généraliser non seulement aux preuves mathématiques, mais aussi à un large éventail de problèmes de raisonnement
  • Noam Brown :
    Ce n’est pas un modèle spécialisé IMO, mais un LLM de raisonnement intégrant de nouvelles techniques générales expérimentales
    Le raisonnement est bien plus efficace que dans o1 et o3, et l’efficacité à l’inférence pourrait encore être poussée davantage
    Les progrès récents de l’IA ont été rapides, et il s’attend à ce que cela continue
    Il pense en particulier qu’on approche du moment où l’IA contribuera sérieusement aux découvertes scientifiques
    Jusqu’à récemment, je pensais que les progrès ralentissaient, mais entre les affirmations selon lesquelles ce n’est pas un modèle spécialisé et qu’il reste une marge d’amélioration de l’efficacité, il y a manifestement un progrès réel très net
    Lien : https://x.com/polynoamial/status/1946478249187377206

    • Je pense qu’il y a un écart considérable entre « un modèle qui résout des sujets d’examen » et « une IA qui contribue à des découvertes scientifiques »
    • Cela fait rêver, mais comme pour les modèles ajustés sur mesure pour des examens précis, comme le barreau, ces systèmes sont souvent déjà entraînés sur des sessions précédentes du même type d’épreuve
    • Je me demande si l’usage d’outils pendant le fine-tuning, comme des prouveurs automatiques, a aussi été impliqué
    • La partie sur un « raisonnement plus efficace que o1 et o3 »
      « Si l’adversaire adopte une stratégie de réponse (fixe), elle ne peut jamais perdre. Pour qu’elle gagne (et que l’adversaire perde), il faudrait que Q_{even-1}>even, donc qu’un certain a_j> sqrt2, or on a déjà a_j<=c< sqrt2. Donc elle ne peut jamais perdre » etc.
      On y sent cette volonté de maximiser l’efficacité avec un minimum de mots
      Lien : https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • Maintenant qu’on parle de « pic des données » et d’un monde où les données manquent, je me demande quelle est la voie de progrès la plus claire en matière d’efficacité
  • C’est vraiment impressionnant, mais je me demande comment ils s’y sont pris
    Quand Wei parle d’augmenter le calcul à l’inférence (scaling up test-time compute), on a l’impression qu’ils y ont englouti énormément d’argent
    S’ils ont simplement lancé des milliers ou des dizaines de milliers d’exécutions en parallèle pour ne garder que le meilleur résultat, ce serait décevant
    Si c’est une vraie avancée solide, ils devraient être transparents sur les outils utilisés et la manière dont ils les ont exploités
    J’imagine que plusieurs techniques d’amélioration de performance sur des problèmes difficiles à vérifier ont dû être utilisées ici

    • Même avec 10000 exécutions parallèles, ce ne serait pas tellement moins intéressant
      Cela voudrait plutôt dire qu’on sait distinguer l’exactitude et la rigueur d’une bonne réponse, ce qui n’est pas si différent de la façon dont les humains résolvent parfois ce genre de problème
    • D’après le fil Twitter, aucun outil séparé n’a été fourni
    • En réalité, je pense qu’il est très probable qu’OpenAI ait lancé des milliers ou des dizaines de milliers d’exécutions en parallèle et n’ait gardé que le résultat
      C’était déjà la méthode utilisée au moment des premiers benchmarks ARC avec o3
      Il est aussi possible qu’ils aient employé plusieurs agents en coopération, ce qui leur aurait permis de contourner la longueur de contexte (la limite de tokens)
      À ce stade, l’IA a déjà dépassé 99,99 % des humains sur la plupart des problèmes de maths usuels, donc passer à 99,999 % n’a rien d’étonnant en soi
    • Si OpenAI a fait 10000 essais puis qu’un humain a choisi manuellement le bon résultat, le sens du résultat change fortement
      Si c’est le LLM lui-même qui a vérifié puis retenu la bonne solution, cela ressemble davantage au processus par lequel un humain résout un problème difficile en faisant plusieurs tentatives
      La différence, c’est que l’IA peut les faire en parallèle grâce aux ressources de calcul, alors qu’un humain ne peut essayer qu’en séquentiel
  • Cette compétition (l’IMO) est si élitiste qu’il semble même y avoir beaucoup de gens dans la communauté des programmeurs qui ne savent pas exactement de quoi il s’agit
    En faisant un calcul simple pour les États-Unis, on peut prendre environ 20 élèves sélectionnés pour le camp comme ordre de grandeur des potentiels médaillés d’or, sur une cohorte d’environ 20 millions de lycéens ; on parle donc d’un talent de l’ordre de « un sur un million »

    • Ce n’est pas du tout pour minimiser la difficulté énorme de la compétition
      Moi aussi, j’ai fait un très bon lycée, mais je n’avais jamais entendu parler de l’IMO avant l’université, quand j’ai rencontré des participants
      En pratique, le nombre d’élèves qui savent que la compétition existe et y participent est bien inférieur au nombre total d’élèves
      Indépendamment du niveau, beaucoup auraient peut-être pu obtenir de bons résultats s’ils avaient simplement eu les bonnes opportunités et les bonnes informations
  • J’ai récemment vu un rapport d’évaluation des LLM sur l’IMO 2025, et o3 high n’atteignait même pas le niveau bronze
    Lien : https://matharena.ai/imo/
    J’attends aussi l’avis de Terry Tao, mais c’est justement dans ce genre de domaine que je vois un usage positif de l’IA
    Plutôt qu’une innovation désordonnée dans une économie qui n’y est pas prête, j’aimerais que cela serve à accélérer le progrès scientifique