LIMO : moins il y a d’exemples, mieux c’est pour le raisonnement (Less is More for Reasoning)

(arxiv.org)

3 points par GN⁺ 2025-02-10 | 1 commentaires | Partager sur WhatsApp

Contrairement à l’idée reçue selon laquelle le raisonnement mathématique complexe nécessite de vastes jeux de données supervisés, LIMO montre qu’il est possible de faire émerger des capacités avancées de raisonnement avec seulement 800 échantillons
En appliquant un simple supervised fine-tuning (SFT) à Qwen2.5-32B-Instruct, le modèle atteint 63,3 % de précision sur AIME24 et 95,6 % sur MATH500, surpassant largement les 6,5 % et 59,2 % des modèles fine-tunés existants
Le volume de données d’entraînement ne représente qu’environ 1 % de celui des approches précédentes, mais le modèle montre une meilleure généralisation sur divers benchmarks et sur des scénarios inédits que des modèles entraînés avec 100 fois plus de données
L’idée centrale est que les connaissances du domaine déjà encodées dans le modèle de base, combinées à quelques exemples de haute qualité qui guident le processus de résolution, agissent comme des gabarits cognitifs
Le principal goulet d’étranglement de l’apprentissage du raisonnement dépend moins de la complexité de la tâche elle-même que du niveau d’achèvement des connaissances acquises au préentraînement et de la qualité des exemples de post-entraînement qui amènent le modèle à exploiter une chaîne de raisonnement

La croyance dominante que l’hypothèse LIMO remet en cause

Dans l’apprentissage du raisonnement, l’idée dominante était qu’il fallait des dizaines de milliers, voire des centaines de milliers d’exemples pour résoudre des problèmes de mathématiques ou de programmation
Cette approche s’appuie sur de grands volumes de données supervisées pour montrer au modèle des raisonnements logiques en plusieurs étapes, l’application de connaissances métier et des parcours de résolution structurés
Même si elle a connu des succès, la collecte de grandes quantités de données et l’entraînement impliquent un coût de calcul considérable
L’hypothèse LIMO considère que le seuil nécessaire pour faire émerger un raisonnement complexe dépend davantage de deux conditions que du niveau de difficulté de la tâche
- que les connaissances requises existent de façon latente dans les paramètres du modèle
- qu’un petit nombre d’exemples montre efficacement le processus de résolution et amène le modèle à exploiter son espace de calcul à l’inférence

Pourquoi cela fonctionne même avec peu de données

Les modèles de base récents intègrent déjà beaucoup plus de contenu mathématique lors de la phase de préentraînement
- le volume total des données d’entraînement de Llama 2 est de 1,8T tokens
- Llama 3 utilise 3,7T tokens pour le raisonnement mathématique
Avec cette évolution, l’objectif de l’apprentissage du raisonnement se déplace : il ne s’agit plus tant d’injecter de nouvelles connaissances mathématiques que de faire ressortir celles qui sont déjà encodées
L’extension du calcul à l’inférence est également une condition importante
- les techniques qui allongent les chaînes de raisonnement améliorent fortement les capacités de raisonnement
- le calcul à l’inférence agit comme un espace de travail cognitif permettant au modèle de déployer et d’appliquer les connaissances acquises au préentraînement
LIMO estime que, lorsque des connaissances riches issues du préentraînement sont combinées à des ressources de calcul suffisantes à l’inférence, un petit nombre d’échantillons de haute qualité peut suffire à activer les capacités de raisonnement à la place d’un grand volume de données

Comment les 800 échantillons sont sélectionnés

L’approche LIMO commence non pas par la collecte d’un grand volume de données, mais par une sélection rigoureuse d’échantillons de haute qualité
Un filtrage multicouche est appliqué à un grand ensemble de paires QA
- un filtrage grossier par difficulté retire d’abord les problèmes faciles
- une évaluation plus fine de la difficulté identifie les problèmes réellement exigeants
- les points de connaissance sont diversifiés afin d’assurer une couverture large
Les chaînes de raisonnement sont examinées séparément
- cohérence logique
- clarté étape par étape
- exactitude de la résolution
À l’issue de ce processus, un petit jeu de données solide composé de 800 échantillons d’entraînement est constitué

Performances sur les benchmarks

LIMO prend Qwen2.5-32B-Instruct comme base et applique un simple SFT en n’utilisant que les 800 échantillons sélectionnés
Les principales performances sont les suivantes
- précision de 63,3 % sur AIME24
- précision de 95,6 % sur MATH500
Les modèles fine-tunés existants obtiennent 6,5 % sur AIME24 et 59,2 % sur MATH500, ce qui montre un écart important avec LIMO
Le volume de données d’entraînement requis ne représente qu’environ 1 % de celui des approches précédentes
Le modèle montre une forte généralisation hors distribution sur divers benchmarks mathématiques et interdisciplinaires, avec une amélioration absolue globale de 45,8 %
Dans plusieurs scénarios inédits également, il surpasse des modèles entraînés avec 100 fois plus de données

Contributions et ressources publiées

La contribution centrale de LIMO est la formalisation de la Less-Is-More Reasoning Hypothesis, selon laquelle quelques exemples peuvent suffire à faire émerger des capacités de raisonnement complexes
Conformément aux principes de LIMO, les auteurs ont constitué un dataset puis fine-tuné Qwen2.5-32B-Instruct avec un simple SFT
Les résultats expérimentaux montrent des performances compétitives sur des benchmarks difficiles de raisonnement mathématique ainsi que de bonnes performances hors distribution
Les analyses et l’ablation study valident l’efficacité des principes de sélection des données et explorent leur applicabilité selon le niveau de connaissances du modèle de base, la taille du modèle et les différences d’architecture
Le volume minimal de données nécessaire pour obtenir des performances compétitives a également été étudié
Le modèle, le code et le dataset sélectionné sont publiés via le dépôt GitHub

1 commentaires

GN⁺ 2025-02-10

Avis sur Hacker News

Résultat impressionnant, mais deux points méritent d’être soulignés : le modèle a été affiné à partir de Qwen-2.5 Instruct, qui incluait déjà, lors du pré-entraînement et du fine-tuning supervisé, des millions d’exemples de mathématiques soigneusement sélectionnés.
Par ailleurs, pour créer les 817 exemples de mathématiques parfaits destinés à LIMO, ils ont filtré un corpus de 10 millions de problèmes mathématiques à l’aide de modèles de pointe comme R1.
Autrement dit, beaucoup d’intelligence a déjà été injectée pour produire des données de fine-tuning aussi informatives et distillées que possible ; je ne sais donc pas si c’est plus ou moins impressionnant que de simplement affiner sur l’ensemble initial des 10 millions d’exemples et d’obtenir le même résultat.
Cela dit, cette dernière approche aurait sans doute été moins séduisante comme titre.
- Les auteurs mentionnent eux aussi ces deux points dans le résumé comme des conditions critiques pour faire émerger un raisonnement complexe : un modèle de base pré-entraîné extrêmement abouti, et un ensemble d’exemples de très haute qualité pour le post-entraînement.
  Intuitivement, affiner sur le corpus initial de 10 millions d’exemples semble demander une quantité énorme de données de fine-tuning pour faire bouger les performances, et 817 exemples ne devraient pas suffire à modifier fortement le gradient.
  Ce corpus initial joue en fait le rôle d’une régularisation assez forte.
  En ce moment, l’intérêt grandit pour montrer que les petites données et le scaling à l’inférence peuvent apporter de gros gains.
  Parmi les exemples récents, on trouve TinyZero : https://github.com/Jiayi-Pan/TinyZero, et s1 Simple Test Time Scaling : https://arxiv.org/abs/2501.19393.
- Je ne comprends pas pourquoi on critique autant le fait d’utiliser les informations de modèles précédents pour créer un modèle plus efficace.
  S’appuyer sur des travaux antérieurs pour progresser n’a rien de répréhensible, et améliorer l’efficacité est aussi un progrès.
  On ne reproche pas à quelqu’un qui fait du kombucha de ne pas avoir assemblé son SCOBY microbe par microbe.
- On peut aussi considérer que choisir 817 échantillons parmi 10 millions contient 12 290 bits d’information.
- Il suffit d’imaginer un manuel qui donne la compréhension nécessaire pour obtenir un excellent score à un concours de mathématiques, mais qui explique moins de 1 000 problèmes.
  En soi, c’est une découverte majeure en matière de métacognition.
- L’article et cette explication ressemblent beaucoup à la création d’un manuel d’exemples cognitifs « aussi informatifs et distillés que possible » pour enseigner le raisonnement de niveau supérieur à un étudiant ayant déjà acquis les bases.
  Ces dernières années, les progrès des LLM ont montré qu’ils pouvaient prédire les réponses humaines de « raisonnement » en modélisant des réactions humaines plausibles, comme si elles avaient été générées par un LLM.
  Autrement dit, beaucoup de réponses relèvent moins d’un raisonnement réellement réfléchi que d’une chaîne de génération de tokens.
  Cela devient plus clair quand on s’assoit à côté de quelqu’un qui « se parle à lui-même » en résolvant un problème.
  On comprend la définition de tokgen en écoutant des conversations au restaurant.
  Beaucoup d’échanges sont des réactions presque parfaitement prévisibles à partir du prompt, plutôt qu’une pensée profonde.
  Pour les distinguer des paroles qui viennent après une pause et une réflexion, on peut utiliser les étiquettes thought et token generation, c’est-à-dire tokgen.
Je ne suis pas spécialiste du domaine, mais je pense qu’un modèle pré-entraîné sur Internet acquiert déjà la plupart des capacités nécessaires au raisonnement mathématique.
Simplement, comme son objectif est de prédire la distribution du mot suivant sur tout Internet, et que la majorité des textes en ligne ne sont pas des textes de raisonnement de ce type, il n’utilise généralement pas beaucoup cette capacité.
C’est un peu comme, il y a quelques années, quand ajouter « unreal engine » au prompt d’un modèle de génération d’images améliorait fortement la qualité du résultat.
Le modèle avait été entraîné à générer la distribution des images d’Internet ; la plupart n’étaient pas particulièrement impressionnantes, mais les images contenant « unreal engine » étaient généralement des captures d’écran de haute qualité, ce qui déplaçait aussi la distribution générée vers davantage de qualité.
Le modèle possède donc déjà l’essentiel de cette capacité latente, et il suffit d’ajuster quelques connexions pour qu’il l’utilise réellement ; il est donc logique que quelques exemples d’entraînement suffisent à améliorer ses capacités de raisonnement mathématique.
- C’est assez proche de ce qu’Anthropic a fait en analysant et en manipulant les valeurs d’activation pour créer golden gate Claude, ou en maximisant/minimisant des caractéristiques comme « buggy code »[0].
  [0]: https://www.anthropic.com/news/mapping-mind-language-model
- Pour compléter un peu, l’identification et la poursuite de motifs peuvent aussi s’appliquer à l’évaluation du raisonnement symbolique.
  Par exemple, cela se voit lorsqu’on définit la sémantique d’un langage de programmation fonctionnel sous forme de règles de réécriture.
  Si le modèle peut reformuler un problème dans un langage suffisamment précis, commencer à faire du pattern matching avec les programmes génératifs encodés dans le LLM, puis évaluer les implications logiques, on entre dans un domaine très intéressant.
  La prédiction autorégressive peut se transformer en évaluation symbolique incrémentale et en calcul, tandis que le LLM en arrière-plan continue de guider le choix des évaluations et la recherche d’objectifs.
  S’il existe déjà suffisamment de contenu dans le modèle de base pour y greffer proprement un langage plus précis, il ne semble pas forcément nécessaire de disposer d’un corpus gigantesque pour renforcer ces règles d’évaluation.
- Le raisonnement que montre R1 me donne surtout l’impression d’un niveau d’expression de CM2, ce qui va dans le sens de l’explication ci-dessus.
  Cela dit, si l’on continue à compresser les connaissances nécessaires au raisonnement mathématique, on finira peut-être par obtenir quelque chose qui combine la théorie des catégories et un système à règles de type Prolog.
- Cela pourrait signifier que fine-tuner un modèle de base par apprentissage supervisé ou par apprentissage par renforcement ne le rend généralement pas intrinsèquement plus intelligent, et que seul l’apprentissage auto-supervisé initial pendant le pré-entraînement le fait.
  Bien sûr, il serait aussi étrange qu’aucune quantité d’apprentissage par renforcement ne puisse rendre un LLM réellement plus intelligent.
À mon avis, certains domaines comme les mathématiques sont généraux, mais ont une taille de vocabulaire effectif anormalement grande — comme l’ensemble de tous les nombres possibles — si bien que les entraîner avec des méthodes qui fonctionnent pour des domaines au vocabulaire de taille ordinaire coûte plus cher.
En entraînant les étapes de raisonnement dans ce type de domaine, on peut renforcer un vocabulaire général relativement réduit, comme « additionner », « inverse », « résoudre ».
Ainsi, l’arithmétique des combinaisons de nombres est découplée des problèmes individuels, et l’on met moins l’accent sur la bonne réponse ponctuelle.
Il suffit d’apprendre N exemples de raisonnement et M exemples d’arithmétique, sans avoir à apprendre N*M problèmes mathématiques complets.
Donc il faut dépenser davantage de ressources de raisonnement, mais on peut obtenir de meilleures réponses avec moins d’entraînement.
Au-delà de la théorie, côté applications, une bonne approche semble consister à structurer la formule finale via ce processus de raisonnement général, puis à la transmettre à un évaluateur traditionnel.
Le raisonnement et son apprentissage n’ont alors besoin d’aller que jusqu’à la manipulation symbolique.
C’est une approche à la Wolfram Alpha, où le traitement du langage naturel est transmis bien plus tard à l’évaluateur.
- Question connexe : a-t-on déjà eu un LLM qui soit une calculatrice parfaite ?
  Du genre : on lui donne une expression avec les opérations standard +/- et des entiers, et il renvoie toujours le bon résultat.
  Je ne me souviens pas avoir vu d’article à ce sujet, mais je ne suis pas expert.
J’ai l’impression d’avoir lu récemment deux choses qui semblent se contredire : d’un côté, l’affirmation que les LLM ne pourront jamais généraliser la démonstration de théorèmes ; de l’autre, cette phrase de l’article : « les LLM modernes peuvent déjà posséder de riches connaissances mathématiques dans leur espace de paramètres, et la tâche passe de l’acquisition de connaissances à l’élicitation de connaissances ».
À ce stade, je ne sais plus très bien quoi en penser.
- Pour avaler cette pilule amère, il faut peut-être admettre que tout le savoir humain est en pratique une distribution finie relativement « petite », et que les modèles sont désormais assez grands pour faire du pattern matching dessus, ce qui leur permet de « généraliser ».
- Peut-être que les LLM peuvent générer le bon espace de recherche pour un problème, mais que le processus d’identification de la solution à l’intérieur de cet espace est inefficace ?
  Autrement dit, la plupart des élèves qui ont étudié des notes de cours de mathématiques de lycée ont en eux la possibilité de décrocher une médaille d’or aux Olympiades.
  Les mathématiques elles-mêmes ne vont pas tellement au-delà du programme de lycée.
  Mais amener concrètement un lycéen au niveau d’une médaille d’or aux Olympiades est difficile, et relève peut-être de quelque chose qui ressemble à P contre NP.
- Qu’ils soient dans l’exagération ou dans le scepticisme, on verra beaucoup de gens continuer à affirmer des choses vérifiables.
  Il arrive qu’ils répètent les mêmes affirmations même lorsqu’on dispose de captures d’écran qui les contredisent.
  Pour les sceptiques en particulier, on peut utiliser soi-même les meilleurs LLM et vérifier : « est-ce que ce modèle fait réellement ce que quelqu’un prétend impossible ? »
  Souvent, il le fait vraiment.
  Dans des articles récemment soumis par des sceptiques, on voit parfois des affirmations sur les LLM les plus récents alors que seuls des modèles vieux de plus d’un an ont été testés.
  C’est effectivement arrivé récemment^
  Si l’on veut être sûr de ce qui est vrai, il n’y a pas d’autre solution que d’essayer soi-même et de juger ce qui est exact.
  ^ https://x.com/tylercowen/status/1881051976102035880
- Un modèle peut avoir de riches connaissances mathématiques tout en étant mauvais en démonstration de théorèmes.
  À l’inverse, il peut être bon pour démontrer des problèmes de mathématiques de concours sans disposer de riches connaissances mathématiques.
  Il est aussi possible d’avoir de riches connaissances mathématiques et d’être bon en démonstration de théorèmes, mais surtout dans son domaine de spécialité.
- Les phrases du type « les LLM ne pourront jamais faire X » me semblent tout simplement toujours fausses.
De même que les modèles de diffusion d’images ont montré qu’il était possible de résumer une approximation plausible de tout le monde visuel dans un modèle de 5 Go, les schémas de raisonnement sont-ils compressibles de manière similaire ?
Les schémas de raisonnement utilisés dans tous les domaines sont-ils réellement assez peu nombreux pour être capturés avec un ensemble d’entraînement relativement petit ?
- Je pense qu’il n’existe pas tant de « schémas de raisonnement » véritablement généraux, c’est-à-dire de stratégies ou d’approches.
  Mais le raisonnement appliqué nécessite non seulement des schémas de raisonnement, mais aussi un répertoire d’étapes de raisonnement valides propres au domaine, applicables selon cette approche.
  Il faut également une combinaison de capacités permettant de dépasser les blocages quand les connaissances et les étapes de raisonnement apprises ne suffisent pas à atteindre la solution.
  Dans un domaine comme les mathématiques, un petit nombre d’étapes de raisonnement spécialisées peut probablement mener assez loin, mais les mathématiques elles-mêmes comportent de nombreux sous-domaines comme l’algèbre, la géométrie, le calcul différentiel et intégral ou la topologie.
  À ma connaissance, les techniques d’un domaine ne sont utiles dans un autre que dans la mesure où l’on peut mapper le problème vers cet autre domaine.
Je me demande si cet ensemble soigneusement sélectionné de 817 problèmes de mathématiques serait aussi utile comme manuel pour entraîner des étudiants en mathématiques avec des problèmes variés.
Si, comme le suggère l’hypothèse LIMO, on peut faire émerger le potentiel de raisonnement efficace d’un petit modèle grâce à un fine-tuning sur un petit jeu de données, il pourrait y avoir un important transfert de pouvoir des grands modèles vers les petits modèles.
Si ce processus peut être répété, il semble offrir une puissance presque illimitée.
Mais pour alimenter cette boucle, le jeu de données doit posséder certaines propriétés.
Il doit apprendre à ajuster le raisonnement à la taille du modèle, et être validé comme une sorte de couverture minimale capable d’étendre la profondeur des chaînes de raisonnement avec un faible facteur de branchement dans l’espace de recherche, afin de détecter des schémas profonds.
Il est intéressant de voir que le domaine devient de plus en plus une pédagogie des LLM.
Le raisonnement est l’art de la prédiction.
Il consiste à distiller de nombreuses observations du réel en un petit modèle du réel capable de prédire assez bien de nouvelles observations.
« Quel est le modèle le plus simple qui explique la majeure partie de ce que j’observe ? » est la question centrale à laquelle l’esprit cherche à répondre.
Une fois que l’on maîtrise l’art de créer de tels modèles, on peut faire correspondre de nouveaux problèmes à notre modèle par reconnaissance de motifs, puis utiliser ce modèle pour prédire le résultat.

LIMO : moins il y a d’exemples, mieux c’est pour le raisonnement (Less is More for Reasoning)

La croyance dominante que l’hypothèse LIMO remet en cause

Pourquoi cela fonctionne même avec peu de données

Comment les 800 échantillons sont sélectionnés

Performances sur les benchmarks

Contributions et ressources publiées

À lire aussi

1 commentaires

Avis sur Hacker News