Une légère transformation des problèmes Putnam réduit de 30 % la précision d’O1-preview

(openreview.net)

1 points par GN⁺ 2025-01-02 | 1 commentaires | Partager sur WhatsApp

Présentation du benchmark Putnam-AXIOM
- Putnam-AXIOM est un benchmark exigeant pour évaluer la capacité de raisonnement mathématique des grands modèles de langage (LLM).
- Il inclut les 236 problèmes et les solutions étape par étape de la William Lowell Putnam Mathematical Competition.
- Pour éviter la contamination des données, une version Putnam-AXIOM Variation du benchmark a été créée en appliquant une transformation fonctionnelle à 52 problèmes.
- En modifiant de manière programmatique les éléments d’un problème (variables, constantes, etc.), il est possible de générer indéfiniment de nouveaux exercices absents d’Internet.
Importance et résultats du benchmark
- La plupart des modèles voient leur précision chuter nettement sur les problèmes transformés par rapport aux versions originales.
- Le modèle o1-preview d’OpenAI a obtenu une précision de 41,95 % sur Putnam-AXIOM Original, puis a subi une baisse d’environ 30 % de précision sur le jeu de données transformé.
Retour des reviewers
- Reviewer 9XA : le benchmark est conçu pour minimiser le bruit, notamment dans la formulation des problèmes et la vérification de l’équivalence des réponses, mais le niveau de protection contre la contamination pourrait ne pas être suffisant. Le fait que la transformation fonctionnelle ne soit appliquée qu’à 53 problèmes pourrait réduire la puissance de l’évaluation.
- Reviewer krr4 : le dataset, composé de 236 exemples, peut manquer d’impact en tant que benchmark. La plupart des modèles affichent une faible précision, donc la difficulté des problèmes devrait être plus hiérarchisée.
- Reviewer Nbvs : c’est une bonne contribution pour fournir un ensemble de problèmes exigeants afin d’évaluer la capacité à résoudre des problèmes mathématiques. La transformation des problèmes peut être une bonne stratégie pour réduire la fuite dans l’évaluation actuelle basée sur des boîtes.
- Reviewer MsMi : un nouveau benchmark de raisonnement difficile où même des modèles puissants n’obtiennent pas de bons résultats. L’exigence de l’utilisation de la commande "\boxed{}" limite l’expressivité du benchmark.
Questions et suggestions supplémentaires
- Question sur le nombre de problèmes mal notés parce que la commande "\boxed{}" n’a pas été utilisée correctement.
- Question sur une méthode algorithmique pour continuer à modifier les problèmes et maintenir un dataset qu’aucun modèle ne puisse mémoriser.

1 commentaires

GN⁺ 2025-01-02

Avis sur Hacker News

Je me souviens que, quand ce problème est apparu pour la première fois, les gens étaient enthousiastes parce que ChatGPT avait correctement répondu à « Qu’est-ce qui est le plus lourd, 10 livres de plumes ou 10 livres de briques ? »
Mais évidemment qu’il a répondu correctement, et il y a de fortes chances que ce problème figurait dans les données d’entraînement
Si l’on se contente de changer les noms ou les nombres pour qu’un côté soit effectivement plus lourd, les performances deviennent irrégulières
Je viens de demander sur chatgpt.com : « Qu’est-ce qui est le plus lourd, un sac de lingots d’acier de 9,99 livres ou un sac de coton duveteux de 10,01 livres ? » ; dans sa première réponse, il a dit que les lingots d’acier étaient plus lourds, puis à la fin que le coton était légèrement plus lourd, donnant ainsi une réponse à la fois correcte et incorrecte
Pour évaluer correctement ce genre de capacité, il faut absolument sortir des données d’entraînement, et les problèmes qui viennent à l’esprit en moins de 5 secondes sont généralement des choses déjà souvent vues, ou que d’autres peuvent facilement imaginer aussi
Dès qu’on s’éloigne un peu des sentiers familiers, les performances en maths paraissent bien moins impressionnantes
- Sur ChatGPT Plus, dans une nouvelle session et sans piège, si l’on ne regarde que la première réponse, GPT-4, GPT-4o et GPT o1 répondent tous correctement que le sac de coton de 10,01 livres est plus lourd que le sac de lingots d’acier de 9,99 livres
  Ils expliquent que, indépendamment du matériau ou de la densité, il s’agit de comparer des poids dans la même unité, donc que 10,01 est supérieur à 9,99
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  Jusqu’ici, dans ce fil, o1-mini traite correctement toutes les tâches que les gens affirment impossibles pour les LLM
- Si vous essayez sans abonnement, il est actuellement très probable que la plupart des réponses que vous recevrez soient générées par 4o-mini
  Ce n’est pas la famille de modèles de raisonnement abordée dans l’article lié, à savoir o1, o1-mini et l’ancien o1-preview
  Ce n’est peut-être même pas 4o, le principal modèle non spécialisé en raisonnement, et le « 4o auto » affiché sur les comptes gratuits semble être un mécanisme visant à choisir automatiquement le modèle le plus rentable, pas un nom de modèle
  Sans abonnement ChatGPT, il n’est désormais plus possible, comme auparavant, de choisir un modèle précis avec une limite d’utilisation
- J’ai posé à Claude 3.5 Sonnet la devinette classique du médecin ; il a ajouté un raisonnement et la réponse s’est améliorée, mais on voit aussi des signes qu’il ne comprend pas réellement
  À la question « Une femme et son fils ont un accident de voiture ; la femme meurt, et le médecin qui voit l’enfant dit : “Je ne peux pas l’opérer, c’est mon fils.” Comment est-ce possible ? », il répond : « Le médecin est le père de l’enfant » et explique que c’est une devinette classique illustrant les biais de genre
  Mais l’intention originale était de demander si le médecin pouvait être la mère ; il a bien ajouté la possibilité de parents de même sexe, mais il est passé à côté de l’essentiel
- La première variante que j’ai rencontrée était : « Qu’est-ce qui est le plus lourd, 1 livre de plumes ou 1 livre d’or ? », et c’est une question bien plus difficile
  La réponse que j’ai entendue disait que l’or se mesure en poids troy et les plumes en poids avoirdupois ; comme la livre troy compte 12 onces et la livre avoirdupois 16 onces, les plumes sont plus lourdes
  Tout cela est vrai, mais la réponse est incomplète
  De même que la livre avoirdupois est plus lourde que la livre troy, l’once avoirdupois est plus légère que l’once troy
  Simplement, cet écart n’est pas assez grand pour inverser la différence entre 16 onces et 12 onces
  Si l’on ne reconnaît pas la différence entre les onces, la réponse officielle devient aussi fausse que la réponse naïve
Une expérience qui serait difficile en pratique, mais que j’aimerais tenter, consisterait à entraîner un modèle sur toutes les ressources numérisées antérieures à 1905 — articles, lettres, livres, émissions, cours, etc. — puis à lui demander la relation d’équivalence masse-énergie
S’il donnait une réponse fiable, cela pourrait clore le débat sur la question de savoir si la reconnaissance de motifs est une forme d’intelligence
- Dès qu’on envisage que la masse et l’énergie puissent être équivalentes, l’analyse dimensionnelle laisse très peu de possibilités pour la formule
  Ce qui est intéressant dans E=mc^2, ce n’est pas la formule elle-même, mais l’affirmation selon laquelle la masse est une forme d’énergie et les observations périphériques sur l’univers
  La véritable intuition de 1905 consistait plutôt à poser la bonne question et à imaginer que le principe d’équivalence puisse réellement tenir
  Une grande partie des mathématiques existait déjà avant 1905 et pourrait se retrouver dans les données d’entraînement d’une IA : https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- J’ai entendu une idée similaire dans un podcast avec Adam Brown
  L’idée était que si une IA pouvait dériver la relativité restreinte uniquement à partir de livres et d’articles antérieurs à Einstein, on aurait atteint un prochain jalon de type game changer dans les progrès du raisonnement artificiel
- Les litiges de brevets devraient aussi être jugés ainsi
  Si un LLM peut le découvrir, alors il faut considérer que ce n’est pas nouveau
- Je me demande même si les données antérieures à 1905 suffiraient pour qu’un modèle dise « hello world » de manière fiable
  Je doute qu’il existe les téraoctets de données d’entraînement nécessaires à un LLM convenable ; on serait plutôt au niveau de quelques gigaoctets
Sur les tâches réelles, les performances des LLM donnent vraiment l’impression d’un étudiant qui bachote avant un examen à l’asiatique
Ils ont la capacité de recracher parfaitement, mais pas de concepts signifiants
- o3 réussit 25 % de problèmes FrontierMath jamais vus auparavant
  Il est vrai qu’il fait mieux quand la réponse est directement dans le jeu de données, mais sur la nouveauté des problèmes retenus à part, il a déjà dépassé l’humain moyen
- Il suffit de regarder le JEE Advanced
- Au final, c’est plutôt une preuve supplémentaire qu’on a réussi à reproduire parfaitement la bêtise humaine
Si l’on modifie très légèrement l’entrée, le modèle semble revenir à la question qu’il attendait et se tromper
Si on la modifie un peu plus, et qu’on ajoute une technique de prompt générique du type « décompose d’abord en faits connus, apporte les connaissances contextuelles pertinentes, puis évalue sous plusieurs angles avant de conclure ; n’écris pas immédiatement la première conclusion évidente », la réponse sera bien meilleure
Cela ressemble moins à « les LLM sont des raisonneurs idiots incapables de résoudre ce genre de problème sans mémorisation » qu’à « quand on essaie de les piéger sur un motif attendu, les LLM donnent de mauvaises réponses immédiates »
Les LLM mémorisent, c’est vrai, mais c’est à double tranchant
Si l’on rend un problème trop similaire à un problème mémorisé, leur perception peut vaciller, comme un humain qui réagit instinctivement à quelque chose qui ressemble à un visage avant de réévaluer
C’est intéressant, mais il faut souligner quelques points.
D’abord, o1 dépasse quand même 40 % sur les problèmes de Putnam modifiés, ce qui est une performance difficile à atteindre même pour la plupart des étudiants en mathématiques.
Ensuite, o3 a résolu 25 % du dataset d’Epoch AI.
Il y a aussi eu un article intéressant qui remettait en question la difficulté réelle de ces problèmes, mais cela reste très impressionnant.
La conclusion équitable me semble être que les modèles de raisonnement restent très bons sur des problèmes de mathématiques et de programmation compétitive très difficiles, mais qu’ils sont plus forts sur les problèmes qu’ils ont déjà vus.
- Les commentaires de ce fil sont complètement déconnectés du contenu de l’article, et le titre relève presque de l’incitation à l’indignation sans refléter ce que dit l’article.
  Le simple fait de pouvoir résoudre une part importante de ces problèmes est déjà assez remarquable, même s’ils se font parfois piéger par des variantes mineures.
  Lancer des mots comme « arnaque » ou « mensonge » relève plutôt du vœu pieux ou du refus de voir la réalité.
Je me demande si c’est un secret de Polichinelle que les modèles actuels sont hardcodés pour des benchmarks aléatoires.
Demander des problèmes de Putnam à un chatbot me paraît déjà étrange.
- Parce que les gens continuent de poser des problèmes de maths à ces modèles et, quand ils répondent correctement, citent cela comme preuve qu’ils sont capables de raisonnement mathématique réel.
  Il est difficile de déterminer ce que le modèle sait, et donc aussi de distinguer le moment où il régurgite simplement un contenu qu’il a appris spécifiquement.
- Ce n’est pas du hardcoding ; je pense plutôt que ces problèmes se trouvent probablement, sous une forme ou une autre, dans les données d’entraînement.
- Ils réussissent aussi des tests qui, par conception, ne peuvent pas être hardcodés.
  Il reste toutes sortes de défauts et de problèmes de cohérence, mais s’énerver parce qu’un modèle répond « 2+2=4 » au motif que quelqu’un lui aurait appris la réponse à 2+2 est absurde.
- Ce travail ressemble à l’application au Putnam de l’article GSM-Symbolic : https://arxiv.org/html/2410.05229v1
  À l’avenir, les performances des LLM devraient aussi être rapportées sur des benchmarks perturbés.
Ce sont des apparieurs de motifs très efficaces.
Si l’on change le motif, ils ne fonctionnent plus.
Je me souviens que quelqu’un, peut-être @tszzl(roon), avait dit sur X que o1 ou o3 étaient toujours entraînés de façon traditionnelle, sans calcul au moment du test façon AlphaGo ni recherche arborescente Monte-Carlo.
Si c’est vrai, il s’agit toujours de prédire le mot suivant à partir des données d’entraînement, et même avec une petite variation, il est probable qu’ils suivent le chemin le plus plausible issu de l’entraînement.
Cela dit, si le calcul au moment du test n’a pas encore été correctement exploré, il reste une longue marge de progression.
Une autre raison pour laquelle il est difficile de spéculer est que nous ne savons pas quelle part de ce que nous demandons se trouve dans les données d’entraînement.
Même sur des tâches similaires, ils peuvent bien réussir certaines choses et échouer sur d’autres.
- J’ai vu récemment deux interviews de chercheurs d’OpenAI : ils y expliquent que la percée de la série o, contrairement à la série GPT, vient d’une conception centrée sur le calcul au moment du test pour faire davantage « réfléchir » le modèle, et en particulier pour éviter l’appariement de motifs.
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 et Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- Je pense qu’ils utilisent un calcul au moment du test extensible.
  Lors de l’annonce d’o3, ils ont publié séparément les chiffres de précision avec beaucoup et peu de calcul, ce qui me semble difficile à obtenir avec le même modèle sans calcul au moment du test.
  Je pense aussi que l’abonnement à 200 dollars sert à laisser tourner plus longtemps le calcul au moment du test avant de forcer une réponse.
  Cela dit, si l’affirmation selon laquelle il n’y a pas de calcul au moment du test est vraie, alors au vu des expériences de Hugging Face avec des modèles 1B/3B, la marge d’amélioration est énorme.
- OpenAI a déclaré publiquement que o1 et o3 utilisent du calcul au moment du test, et a aussi publié un graphique en échelle logarithmique montrant que les performances s’améliorent linéairement quand la quantité de calcul augmente exponentiellement.
  https://openai.com/index/learning-to-reason-with-llms/
  Ce qui est confirmé, c’est seulement que le modèle ou le système effectue une chaîne de pensée, mais le facteur exponentiel et la source de l’amélioration des performances de raisonnement pourraient bien être un arbre de pensée, c’est-à-dire une recherche arborescente sur plusieurs chaînes de raisonnement.
  roon est sans doute bien identifié en interne chez OpenAI et, en tant qu’employé, il est difficile d’imaginer qu’il divulgue sur Twitter des détails d’implémentation.
Cette contribution à l’atelier est correcte, et même sans la partie sur la reformulation des problèmes, le benchmark a une certaine valeur.
Mais, pour le petit nombre de problèmes reformulés, certaines reformulations deviennent en fait plus déroutantes même pour des humains, à cause de formulations maladroites (fig. 3) ou de ruptures de conventions inutiles (fig. 4 ; pour un point en 2D, on utilise généralement P et les coordonnées x,y).
Il aurait été utile de montrer l’effet de la reformulation avec une augmentation du bruit sur des problèmes récents ou postérieurs à l’entraînement, afin de distinguer une partie de cette confusion.
Je me demande aussi à quel point o3 ferait mieux sur le même benchmark.
Et le titre exact de cette contribution est « Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning ».
L’article contient plusieurs exemples de questions modifiées.
Comme il y a eu un saut important de o1-preview à o1, j’ai essayé quelques échantillons avec o1 et o1-pro, et la famille o1 actuelle donne les bonnes réponses à ces problèmes modifiés.
L’état de l’art évolue rapidement.
- L’article dit qu’il arrive plusieurs fois que les LLM produisent la bonne réponse tout en faisant de grands sauts sans justification, ou qu’ils atteignent la bonne solution après des étapes illogiques.
  Je me demande si tu as aussi vérifié cet aspect.
- Les défenseurs des LLM sont vraiment fatigants.
  Ce n’est même pas une évaluation rigoureuse, et ce jeu est public depuis octobre, donc il a très bien pu être facilement ajouté aux données d’entraînement.
Trop de commentaires négatifs ignorent le fait qu’o3 a obtenu 25 % sur FrontierMath
C’est un résultat vraiment incroyablement impressionnant
Bien sûr, si la réponse à un problème figure directement dans les données d’entraînement, un LLM fera mieux
Mais cela ne veut pas dire qu’il échoue quand la réponse n’est pas dans les données d’entraînement
- EpochAI doit envoyer les questions à OpenAI pour évaluer le modèle, mais n’envoie pas le corrigé
  Le fait que ce benchmark soit passé du jour au lendemain de 2 % à 25 % est assez intéressant
- Il est vrai qu’il a bien réussi sur FrontierMath, mais ce n’est pas le sujet de ce fil
  Donc cette remarque n’est pas très pertinente

Une légère transformation des problèmes Putnam réduit de 30 % la précision d’O1-preview

À lire aussi

1 commentaires

Avis sur Hacker News