GSM-Symbolic : comprendre les limites du raisonnement mathématique des grands modèles de langage
- Les progrès récents des grands modèles de langage (LLM) ont suscité un intérêt pour leurs capacités de raisonnement formel en mathématiques.
- Le benchmark GSM8K est largement utilisé pour évaluer le raisonnement mathématique des modèles sur des questions de niveau école primaire.
- Les performances des LLM sur GSM8K se sont fortement améliorées ces dernières années, mais il reste difficile de savoir si leurs capacités réelles de raisonnement mathématique ont réellement progressé.
- Pour répondre à cette question, une étude à grande échelle a été menée sur plusieurs modèles récents, open source comme propriétaires.
- Pour dépasser les limites des évaluations existantes, les auteurs introduisent GSM-Symbolic, un benchmark amélioré composé de gabarits symboliques permettant de générer des questions variées.
- GSM-Symbolic permet une évaluation plus contrôlée et fournit ainsi un indicateur plus fiable pour mesurer les capacités de raisonnement.
- Les résultats montrent que les LLM présentent une variabilité notable lorsqu’ils répondent à différentes instanciations d’une même question.
- En particulier, sur le benchmark GSM-Symbolic, le simple fait de modifier les valeurs numériques d’une question dégrade les performances de tous les modèles.
- L’étude examine aussi la fragilité du raisonnement mathématique de ces modèles et montre que leurs performances chutent fortement à mesure que le nombre de propositions dans la question augmente.
- Les auteurs avancent l’hypothèse que les LLM actuels ne réalisent pas un véritable raisonnement logique, mais reproduisent plutôt des étapes de raisonnement vues dans leurs données d’entraînement.
- L’ajout d’une seule proposition semblant pertinente dans la question peut entraîner jusqu’à 65 % de baisse de performance sur tous les modèles récents, même si elle ne contribue pas à la chaîne de raisonnement nécessaire pour obtenir la réponse finale.
Résumé de GN⁺
- Cette étude permet de mieux comprendre, avec davantage de finesse, les capacités et les limites du raisonnement mathématique des grands modèles de langage.
- Le benchmark GSM-Symbolic fournit un outil permettant d’évaluer plus précisément les capacités de raisonnement des modèles à travers des questions variées.
- Cette recherche montre que les LLM ont tendance à reproduire des étapes de raisonnement issues de leurs données d’entraînement plutôt qu’à effectuer un véritable raisonnement logique.
- D’autres benchmarks sont recommandés pour évaluer les capacités de raisonnement mathématique, notamment MATH et MATHQA.
1 commentaires
Avis Hacker News