Une légère transformation des problèmes Putnam réduit de 30 % la précision d’O1-preview
(openreview.net)-
Présentation du benchmark Putnam-AXIOM
- Putnam-AXIOM est un benchmark exigeant pour évaluer la capacité de raisonnement mathématique des grands modèles de langage (LLM).
- Il inclut les 236 problèmes et les solutions étape par étape de la William Lowell Putnam Mathematical Competition.
- Pour éviter la contamination des données, une version Putnam-AXIOM Variation du benchmark a été créée en appliquant une transformation fonctionnelle à 52 problèmes.
- En modifiant de manière programmatique les éléments d’un problème (variables, constantes, etc.), il est possible de générer indéfiniment de nouveaux exercices absents d’Internet.
-
Importance et résultats du benchmark
- La plupart des modèles voient leur précision chuter nettement sur les problèmes transformés par rapport aux versions originales.
- Le modèle o1-preview d’OpenAI a obtenu une précision de 41,95 % sur Putnam-AXIOM Original, puis a subi une baisse d’environ 30 % de précision sur le jeu de données transformé.
-
Retour des reviewers
- Reviewer 9XA : le benchmark est conçu pour minimiser le bruit, notamment dans la formulation des problèmes et la vérification de l’équivalence des réponses, mais le niveau de protection contre la contamination pourrait ne pas être suffisant. Le fait que la transformation fonctionnelle ne soit appliquée qu’à 53 problèmes pourrait réduire la puissance de l’évaluation.
- Reviewer krr4 : le dataset, composé de 236 exemples, peut manquer d’impact en tant que benchmark. La plupart des modèles affichent une faible précision, donc la difficulté des problèmes devrait être plus hiérarchisée.
- Reviewer Nbvs : c’est une bonne contribution pour fournir un ensemble de problèmes exigeants afin d’évaluer la capacité à résoudre des problèmes mathématiques. La transformation des problèmes peut être une bonne stratégie pour réduire la fuite dans l’évaluation actuelle basée sur des boîtes.
- Reviewer MsMi : un nouveau benchmark de raisonnement difficile où même des modèles puissants n’obtiennent pas de bons résultats. L’exigence de l’utilisation de la commande "\boxed{}" limite l’expressivité du benchmark.
-
Questions et suggestions supplémentaires
- Question sur le nombre de problèmes mal notés parce que la commande "\boxed{}" n’a pas été utilisée correctement.
- Question sur une méthode algorithmique pour continuer à modifier les problèmes et maintenir un dataset qu’aucun modèle ne puisse mémoriser.
1 commentaires
Avis de Hacker News
Un commentaire évoque le temps où ChatGPT répondait correctement à la question « 10 livres de plumes ou 10 livres de briques, lequel est le plus lourd ? », mais souligne que la performance chute de 30 % quand le problème est légèrement modifié.
Quelqu’un a exprimé le souhait de former le modèle sur l’ensemble des données numérisées avant 1905, puis de le questionner sur l’équation de l’équivalence masse-énergie.
Un avis compare la performance réelle des LLM à celle des élèves qui révisent à la dernière minute pour les examens de type asiatique.
Un avis affirme qu’en modifiant légèrement l’entrée, le modèle peut revenir à la question prévue et fournir une mauvaise réponse.
Un commentaire indique que les LLM restent excellents pour résoudre des problèmes de mathématiques très difficiles et de programmation compétitive.
Une question est soulevée : n’est-il pas de notoriété publique que le modèle est codé en dur pour les benchmarks aléatoires actuels ?
Un avis souligne que la reformulation des problèmes peut également semer la confusion chez les humains.
Un avis indique que le modèle est très bon en appariement de motifs, mais que cela cesse de fonctionner lorsqu’on modifie le motif.
Un avis souligne qu’OpenAI n’a pas revendiqué de gains de performance sur un jeu de données spécifique.
Un avis signale une amélioration de performance de o1-preview à o1, et le fait qu’il ait donné les bonnes réponses sur des problèmes reformulés.