1 points par GN⁺ 2025-01-02 | 1 commentaires | Partager sur WhatsApp
  • Présentation du benchmark Putnam-AXIOM

    • Putnam-AXIOM est un benchmark exigeant pour évaluer la capacité de raisonnement mathématique des grands modèles de langage (LLM).
    • Il inclut les 236 problèmes et les solutions étape par étape de la William Lowell Putnam Mathematical Competition.
    • Pour éviter la contamination des données, une version Putnam-AXIOM Variation du benchmark a été créée en appliquant une transformation fonctionnelle à 52 problèmes.
    • En modifiant de manière programmatique les éléments d’un problème (variables, constantes, etc.), il est possible de générer indéfiniment de nouveaux exercices absents d’Internet.
  • Importance et résultats du benchmark

    • La plupart des modèles voient leur précision chuter nettement sur les problèmes transformés par rapport aux versions originales.
    • Le modèle o1-preview d’OpenAI a obtenu une précision de 41,95 % sur Putnam-AXIOM Original, puis a subi une baisse d’environ 30 % de précision sur le jeu de données transformé.
  • Retour des reviewers

    • Reviewer 9XA : le benchmark est conçu pour minimiser le bruit, notamment dans la formulation des problèmes et la vérification de l’équivalence des réponses, mais le niveau de protection contre la contamination pourrait ne pas être suffisant. Le fait que la transformation fonctionnelle ne soit appliquée qu’à 53 problèmes pourrait réduire la puissance de l’évaluation.
    • Reviewer krr4 : le dataset, composé de 236 exemples, peut manquer d’impact en tant que benchmark. La plupart des modèles affichent une faible précision, donc la difficulté des problèmes devrait être plus hiérarchisée.
    • Reviewer Nbvs : c’est une bonne contribution pour fournir un ensemble de problèmes exigeants afin d’évaluer la capacité à résoudre des problèmes mathématiques. La transformation des problèmes peut être une bonne stratégie pour réduire la fuite dans l’évaluation actuelle basée sur des boîtes.
    • Reviewer MsMi : un nouveau benchmark de raisonnement difficile où même des modèles puissants n’obtiennent pas de bons résultats. L’exigence de l’utilisation de la commande "\boxed{}" limite l’expressivité du benchmark.
  • Questions et suggestions supplémentaires

    • Question sur le nombre de problèmes mal notés parce que la commande "\boxed{}" n’a pas été utilisée correctement.
    • Question sur une méthode algorithmique pour continuer à modifier les problèmes et maintenir un dataset qu’aucun modèle ne puisse mémoriser.

1 commentaires

 
GN⁺ 2025-01-02
Avis de Hacker News
  • Un commentaire évoque le temps où ChatGPT répondait correctement à la question « 10 livres de plumes ou 10 livres de briques, lequel est le plus lourd ? », mais souligne que la performance chute de 30 % quand le problème est légèrement modifié.

    • Par exemple, le modèle a donné une mauvaise réponse à une question comme « 9,99 livres d’acier ou 10,01 livres de coton, lequel est le plus lourd ? ».
    • Pour analyser les véritables capacités du modèle, il faut s’éloigner des données d’entraînement.
  • Quelqu’un a exprimé le souhait de former le modèle sur l’ensemble des données numérisées avant 1905, puis de le questionner sur l’équation de l’équivalence masse-énergie.

    • Il espère que cela permettra de régler le débat sur la question de savoir si la reconnaissance de motifs constitue une forme d’intelligence.
  • Un avis compare la performance réelle des LLM à celle des élèves qui révisent à la dernière minute pour les examens de type asiatique.

    • Il ne s’agirait que de la capacité à reproduire parfaitement sans comprendre le sens.
  • Un avis affirme qu’en modifiant légèrement l’entrée, le modèle peut revenir à la question prévue et fournir une mauvaise réponse.

    • En évaluant le problème sous plusieurs angles et en incitant le modèle à tirer une conclusion, on peut obtenir de meilleures réponses.
  • Un commentaire indique que les LLM restent excellents pour résoudre des problèmes de mathématiques très difficiles et de programmation compétitive.

    • Cependant, ils gèrent mieux les problèmes qu’ils ont déjà vus.
  • Une question est soulevée : n’est-il pas de notoriété publique que le modèle est codé en dur pour les benchmarks aléatoires actuels ?

  • Un avis souligne que la reformulation des problèmes peut également semer la confusion chez les humains.

    • On aimerait voir l’effet d’une reformulation sur des problèmes plus récents.
  • Un avis indique que le modèle est très bon en appariement de motifs, mais que cela cesse de fonctionner lorsqu’on modifie le motif.

    • Il souligne qu’il a été entraîné de manière traditionnelle, sans calcul au moment de l’inférence ni recherche d’arbre de Monte-Carlo.
  • Un avis souligne qu’OpenAI n’a pas revendiqué de gains de performance sur un jeu de données spécifique.

    • On peut en déduire une amélioration significative des performances pour les questions présentes dans ce jeu de données.
  • Un avis signale une amélioration de performance de o1-preview à o1, et le fait qu’il ait donné les bonnes réponses sur des problèmes reformulés.

    • Le SOTA évolue très rapidement.