LADDER : un LLM qui s'améliore par lui-même grâce à une décomposition récursive des problèmes

(arxiv.org)

1 points par GN⁺ 2025-03-08 | 1 commentaires | Partager sur WhatsApp

LADDER est un framework qui améliore les capacités de résolution de problèmes des LLM en les faisant descendre vers des variantes plus simples de problèmes difficiles, puis remonter, sans feedback humain ni données curées
L'idée centrale consiste à créer un gradient de difficulté jusqu'au niveau que le modèle peut résoudre, puis à utiliser les réponses de sous-problèmes vérifiables comme tremplins pour résoudre des problèmes plus difficiles
Sur des exercices d'intégration en mathématiques, Llama 3.2 3B a vu sa précision sur des problèmes de niveau licence passer de 1 % à 82 %, même si la section des contributions indique aussi un point de départ à 2 %
Qwen2.5 7B Deepseek-R1 Distilled a atteint 73 % au tour préliminaire du MIT Integration Bee avec LADDER seul, dépassant les 42 % de GPT-4o et la performance humaine typique de 15 à 30 %
TTRL applique aussi la transformation de problèmes et l'apprentissage par renforcement au moment du test, faisant passer la précision sur le même examen de 73 % à 90 %, avec un niveau de pointe supérieur à OpenAI o1

Le goulot d'étranglement d'apprentissage visé par LADDER

L'apprentissage par renforcement est efficace pour entraîner les LLM, mais il nécessite des tâches vérifiables adaptées aux capacités actuelles du modèle et dont les résultats peuvent être contrôlés
Si le problème est trop difficile par rapport aux capacités du modèle, l'entraînement peut s'arrêter ou provoquer un effondrement des performances
Dans les domaines de raisonnement complexes, l'écart entre les tâches faciles et avancées est important, d'où l'importance d'une progression graduelle de la difficulté
LADDER part de problèmes complexes et utilise une décomposition récursive des problèmes dans laquelle le modèle crée plusieurs variantes plus simples, chacune pouvant à son tour générer ses propres sous-variantes
Une fois descendu jusqu'à des problèmes que le modèle peut résoudre de manière stable, leurs solutions servent de tremplins pour résoudre des variantes plus difficiles

Apprentissage auto-dirigé et conditions de vérification

Au lieu de s'appuyer sur des jeux de données créés par des humains ou sur du feedback humain, le modèle génère un gradient de difficulté naturel à partir de ses capacités existantes
L'entraînement nécessite une récompense vérifiable, et cette étude utilise l'intégration numérique pour valider les réponses
Le framework permet au modèle d'évaluer sa propre progression et d'ajuster son parcours d'apprentissage, ce qui rend possible l'application de l'apprentissage par renforcement sans intervention humaine
La décomposition récursive des problèmes et l'apprentissage auto-dirigé sont combinés à un apprentissage par renforcement basé sur GRPO
La génération de variantes de problèmes et leur vérification fonctionnent lorsqu'il existe un mécanisme de validation fiable

Résultats sur le benchmark d'intégration et TTRL

Sur un benchmark mathématique d'intégration, LADDER a montré des gains de performance au-delà de ce qu'il est possible d'obtenir avec un échantillonnage pass@k standard
Llama 3.2 3B a atteint 82 % de précision sur des problèmes d'intégration de niveau licence
- Le résumé indique une précision initiale de 1 %
- La section des contributions indique une précision initiale de 2 %
Qwen2.5 7B Deepseek-R1 Distilled a atteint 73 % de précision au tour préliminaire du MIT Integration Bee 2025 après application de LADDER
- GPT-4o : 42 %
- performance humaine typique : 15 à 30 %
TTRL (Test-Time Reinforcement Learning) est un processus de micro-apprentissage qui crée dynamiquement des variantes de problèmes au moment du test et applique l'apprentissage par renforcement à chaque instance de test
TTRL réutilise au moment de l'inférence le mécanisme de validation employé pendant l'entraînement afin d'affiner davantage les réponses
Au MIT Integration Bee, TTRL a fait passer le score de 73 % avec LADDER seul à 90 %, atteignant un niveau de pointe supérieur à OpenAI o1
Ces résultats montrent que de forts gains de performance sont possibles, même sans mise à l'échelle de l'architecture ni supervision humaine, grâce à une décomposition stratégique des problèmes et à un auto-apprentissage fondé sur la vérification

1 commentaires

GN⁺ 2025-03-08

Commentaires sur Hacker News

C’est presque étonnant de voir autant de percées en ML cette semaine
Rien que ces deux derniers jours, j’ai vu au moins trois résultats intéressants et prometteurs, et l’équipe de recherche de Google a montré qu’on pouvait combiner réseaux de neurones et CLA via des portes logiques numériques
Cela ouvre même la possibilité de réduire plusieurs problèmes non linéaires à des circuits numériques simples et efficaces, et c’est aussi arrivé aujourd’hui en première page de HN : https://news.ycombinator.com/item?id=43286161
Avec toutes ces avancées qui donnent le tournis sur les réseaux de neurones, la logique et l’intelligence en général, on en vient à imaginer à quel point nous sommes proches de vraiment comprendre, à partir des premiers principes, comment fonctionne l’intelligence
- Ce genre de choses ressemblait presque à des recettes secrètes que les gens gardaient pour eux depuis environ un an
  Depuis la publication open source de DeepSeek, leur valeur a beaucoup baissé, et les entreprises semblent préférer les convertir en gain de réputation avant que quelqu’un d’autre ne les devance
  En septembre 2023, j’ai fait exactement la même chose avec un fine-tuning de Llama 2, mais je n’ai jamais obtenu l’autorisation de le partager avec qui que ce soit
- Il est intéressant de voir apparaître beaucoup de nouvelles approches en IA/ML maintenant que le secteur réalise enfin qu’un scaling naïf ne mènera pas à l’AGI
  Cela a l’avantage de permettre aussi à de petits acteurs de rivaliser et de contribuer par de véritables innovations, ce qui contraste avec l’ambiance que de grands acteurs comme OpenAI/MS ont essayé d’installer pendant des années, à savoir que l’open source ne pourrait jamais les rattraper
  Ces dernières années, beaucoup trop de ressources, de temps et d’argent ont été gaspillés dans l’extension brute du calcul GPU
  Gary Marcus le signalait depuis plusieurs années, et les résultats décevants de GPT-4.5, entraîné pendant environ deux ans, semblent aller dans ce sens
- On est actuellement dans une sorte de nouveau verger rempli de fruits faciles à cueillir
  Indépendamment de l’utilité finale, ça brille, il y a beaucoup de hype, beaucoup de surprises, et il est presque difficile de suivre l’argent qui afflue
  Cela attire donc naturellement l’attention d’une bonne partie des personnes les plus compétentes, et les tentatives de produire des percées se multiplient
- Les percées sur les LLM sont en train de devenir comme les nouvelles percées sur les batteries
  Pour l’instant, il nous manque surtout la capacité à quantifier les compromis
- Cela semble lié au fait que de grandes conférences vont bientôt ouvrir leurs soumissions
  Certaines conférences interdisent la publication de prépublications pendant les quelques semaines précédant la soumission, donc il est possible que des gens se soient dépêchés de les mettre en ligne
Cela me rappelle une phrase du célèbre théoricien des nombres Hendrik Lenstra : « Pour tout problème insoluble, il existe un problème plus simple qui est lui aussi insoluble »
- Je me demande si cette citation est authentique
  Je connais bien la phrase de George Pólya : « Si vous ne pouvez pas résoudre le problème proposé, essayez d’abord de résoudre un problème connexe plus simple », mais je n’ai pas trouvé de source pour la citation attribuée à Lenstra
- Cela ne donne pas une induction très élégante
  Sauf si c’était une insulte
Leur approche de renforcement à l’inférence me paraît un peu suspecte
Si je comprends bien, TTRL consiste à faire générer par le modèle de langage des versions plus faciles d’un cas de test, puis à appliquer du reinforcement learning sur ces problèmes simplifiés en espérant que les performances sur le problème initial s’améliorent aussi
Le problème, c’est qu’ils utilisent un intégrateur numérique pour vérifier les problèmes simplifiés
On peut imaginer que des problèmes presque identiques au problème original soient générés, et que le modèle s’entraîne sur quelque chose de très proche du cas de test tout en connaissant la bonne réponse
Cela ressemble à un entraînement sur le jeu de test, même si le reste de l’article est correct
- Il me semble que la tâche que résout le modèle est de l’intégration symbolique
  Même si le modèle pouvait utiliser directement un outil d’intégration numérique sur le problème original, celui-ci resterait difficile à résoudre
LADDER aurait montré son efficacité sur l’intégration mathématique, et ferait passer la précision de Llama 3.2 3B de 1 % à 82 % sur des problèmes de niveau licence
- Il faut aussi tenir compte du fait que les systèmes modernes de réécriture de termes sont très performants en intégration symbolique : https://rulebasedintegration.org/
Frank Herbert le savait déjà
C’est, en gros, assez proche d’une implémentation de l’auto-vérification récursive des Mentats dans Dune
L’apprentissage/renforcement à l’inférence semble clairement être la bonne approche pour les futures IA mathématiques
C’est l’un des rares moyens de consacrer à un problème donné une quantité absurde de calcul, par exemple 10^5 GPU pendant plusieurs jours, et d’espérer progresser même lorsque le scaling de l’inférence ne fonctionne pas très bien au début
On peut penser, par exemple, à un MCTS appliqué à une position de go avec de mauvais réseaux de valeur/politique
AlphaProof a déjà fait ce genre de chose, mais c’est agréable de le revoir avec de bons résultats
- Le point intéressant est de savoir dans quelle mesure les performances améliorées peuvent être distillées dans un LLM de petite taille
  On obtiendrait alors un améliorateur de politique, c’est-à-dire du reinforcement learning à l’inférence sur des problèmes similaires, ce qui permettrait de mieux imiter la manière dont fonctionne AlphaZero
  Et cela permettrait aussi de voir jusqu’où un petit réseau neuronal, comme un 32B, peut théoriquement aller
Pour référence, l’équipe de Tufa Labs inclut l’équipe MindsAI, connue pour ARC-AGI
https://tufalabs.ai/team.html
Certains noms sont trop tentants : https://arxiv.org/abs/1507.02672
À la fin de l’article, ils mentionnent deux problèmes de qualification du MIT Integration Bee 2025 que le système continuait à rater
Ils disent que ces problèmes étaient parmi les plus complexes de l’épreuve, mais le premier est simplement ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx, et il suffit finalement de calculer 1/3 + 1/(34) + 1/(34*5) + ...
Ce n’est donc pas vraiment des mathématiques très avancées
- Cela reste un modèle 7B
  Le problème n’est pas avancé, mais le modèle ne l’est pas vraiment non plus
Le simple fait que cela fonctionne, même un peu, est assez intéressant, et le fait que cela semble particulièrement bien fonctionner en maths l’est encore plus
Cela dit, cet article s’inscrit dans le mouvement actuel de brouillage de la frontière entre entraînement et inférence
Une partie de la méthode consiste à décomposer des questions dont on ne connaît pas la réponse en questions plus faciles, puis à entraîner par renforcement sur ces questions avec GRPO et un vérificateur numérique
Le modèle ainsi renforcé devient capable de répondre à davantage de questions
J’aime bien cette approche
C’est aussi en grande partie ce que font les humains quand ils ruminent quelque chose, le retournent mentalement et raisonnent par analogie
Ajouter de l’apprentissage au moment du test permet de réfléchir bien davantage que le simple ajout de tokens dans le contexte lors d’une inférence fixe
De même que DeepSeek et o1/o3 ont montré qu’on pouvait accroître les capacités par génération et évaluation de tokens au moment de l’inférence, il semble aussi possible de les accroître par fine-tuning automatique au moment de l’inférence
J’espère que, lorsque ces techniques se stabiliseront, nous aurons de nouvelles façons d’en parler et d’y penser
À un certain niveau, tout cela semble faire partie du même processus fondamental, et quoi qu’il en soit, c’est vraiment impressionnant

LADDER : un LLM qui s'améliore par lui-même grâce à une décomposition récursive des problèmes

Le goulot d'étranglement d'apprentissage visé par LADDER

Apprentissage auto-dirigé et conditions de vérification

Résultats sur le benchmark d'intégration et TTRL

À lire aussi

1 commentaires

Commentaires sur Hacker News