2 points par GN⁺ 2024-10-13 | 1 commentaires | Partager sur WhatsApp

GSM-Symbolic : comprendre les limites du raisonnement mathématique des grands modèles de langage

  • Les progrès récents des grands modèles de langage (LLM) ont suscité un intérêt pour leurs capacités de raisonnement formel en mathématiques.
  • Le benchmark GSM8K est largement utilisé pour évaluer le raisonnement mathématique des modèles sur des questions de niveau école primaire.
  • Les performances des LLM sur GSM8K se sont fortement améliorées ces dernières années, mais il reste difficile de savoir si leurs capacités réelles de raisonnement mathématique ont réellement progressé.
  • Pour répondre à cette question, une étude à grande échelle a été menée sur plusieurs modèles récents, open source comme propriétaires.
  • Pour dépasser les limites des évaluations existantes, les auteurs introduisent GSM-Symbolic, un benchmark amélioré composé de gabarits symboliques permettant de générer des questions variées.
  • GSM-Symbolic permet une évaluation plus contrôlée et fournit ainsi un indicateur plus fiable pour mesurer les capacités de raisonnement.
  • Les résultats montrent que les LLM présentent une variabilité notable lorsqu’ils répondent à différentes instanciations d’une même question.
  • En particulier, sur le benchmark GSM-Symbolic, le simple fait de modifier les valeurs numériques d’une question dégrade les performances de tous les modèles.
  • L’étude examine aussi la fragilité du raisonnement mathématique de ces modèles et montre que leurs performances chutent fortement à mesure que le nombre de propositions dans la question augmente.
  • Les auteurs avancent l’hypothèse que les LLM actuels ne réalisent pas un véritable raisonnement logique, mais reproduisent plutôt des étapes de raisonnement vues dans leurs données d’entraînement.
  • L’ajout d’une seule proposition semblant pertinente dans la question peut entraîner jusqu’à 65 % de baisse de performance sur tous les modèles récents, même si elle ne contribue pas à la chaîne de raisonnement nécessaire pour obtenir la réponse finale.

Résumé de GN⁺

  • Cette étude permet de mieux comprendre, avec davantage de finesse, les capacités et les limites du raisonnement mathématique des grands modèles de langage.
  • Le benchmark GSM-Symbolic fournit un outil permettant d’évaluer plus précisément les capacités de raisonnement des modèles à travers des questions variées.
  • Cette recherche montre que les LLM ont tendance à reproduire des étapes de raisonnement issues de leurs données d’entraînement plutôt qu’à effectuer un véritable raisonnement logique.
  • D’autres benchmarks sont recommandés pour évaluer les capacités de raisonnement mathématique, notamment MATH et MATHQA.

1 commentaires

 
GN⁺ 2024-10-13
Avis Hacker News
  • La baisse de performance des LLM ressemble à la capacité de résolution de problèmes d’un étudiant de première année d’université. Ils résolvent bien les problèmes simples, mais leur précision chute sur les problèmes qui demandent d’enchaîner plusieurs étapes. Cela signifie que les LLM peuvent raisonner logiquement à un niveau proche de celui d’un lycéen diplômé
    • Par exemple, les performances des LLM se dégradent fortement sur des problèmes contenant des informations inutiles. C’est une situation qui peut aussi se produire chez les humains lorsqu’ils lisent un énoncé avec des éléments superflus
  • Des recherches sur les faiblesses du raisonnement mathématique montrent que les performances baissent à mesure que le nombre de propositions dans la question augmente. Cela pourrait venir du fait que les LLM ne sont pas capables d’un véritable raisonnement logique
    • Lors du processus de tokenisation, la prédiction sur de simples problèmes arithmétiques devient dénuée de sens. Cela suggère la nécessité d’utiliser des outils, mais c’est défavorable au véritable raisonnement logique
  • Des résultats similaires apparaissent avec des problèmes du type "Alice in Wonderland". Cela peut être le signe d’un problème propre à des modèles situés dans un état intermédiaire entre appariement de motifs et raisonnement
    • Cela suggère qu’on ne peut pas faire confiance aux résultats des benchmarks LLM liés aux mathématiques et au raisonnement. Les caractères, les nombres et la structure des phrases influencent fortement les résultats
  • Dans le benchmark GSM-Symbolic, le simple fait de modifier les valeurs numériques fait baisser les performances de tous les modèles. C’est une preuve de surapprentissage, qui montre qu’il existe des limites fondamentales à l’apprentissage du raisonnement mathématique par les LLM
  • La manière dont les LLM « pensent » est globalement suffisante pour réussir la plupart des cursus scolaires. Mais ils peuvent avoir des difficultés si l’enseignant pose des problèmes qui ne reposent pas sur l’appariement de motifs
  • Sur des énigmes logiques bien connues, les LLM échouent à résoudre le problème dès qu’on modifie certains éléments. Cela montre qu’ils ne sont pas capables de raisonnement formel
  • Les LLM ne sont pas capables de raisonnement formel, mais ils peuvent résoudre de nombreux problèmes logiques en appliquant des « étapes de raisonnement » issues des données d’entraînement. C’est une dichotomie intéressante
  • Il serait intéressant de voir des études montrant les limites du raisonnement mathématique chez les humains et les animaux. Il pourrait exister des idées incompréhensibles pour l’être humain, et cela amène à se demander si l’on pourra créer des machines capables de raisonner d’une manière inaccessible aux humains