LADDER : des LLMs qui s’améliorent eux-mêmes grâce à une décomposition récursive des problèmes
(arxiv.org)LADDER : amélioration des capacités de résolution de problèmes des LLM grâce à l’auto-amélioration
-
Présentation de LADDER : LADDER est un framework qui améliore la capacité des grands modèles de langage (LLM) à résoudre des problèmes en transformant progressivement des problèmes complexes en formes plus simples. Sans recourir à des jeux de données existants ni à des retours humains, il exploite les capacités propres du modèle pour générer des transformations de problèmes plus faciles.
-
Efficacité : LADDER a fait passer la précision de Llama 3.2 3B de 1 % à 82 % dans le domaine de l’intégration mathématique, et a permis à Qwen2.5 7B Deepseek-R1 Distilled d’atteindre 73 % aux qualifications du MIT Integration Bee.
-
Présentation de TTRL : TTRL (Test-Time Reinforcement Learning) est une méthode qui applique l’apprentissage par renforcement au moment de l’inférence via des transformations des problèmes de test. Grâce à cela, Qwen2.5 7B Deepseek-R1 Distilled a obtenu un score de pointe de 90 % aux qualifications du MIT Integration Bee, surpassant les performances d’OpenAI o1.
-
Importance des résultats : ces résultats montrent qu’un apprentissage autonome et stratégique peut produire des gains de capacité significatifs sans mise à l’échelle de l’architecture ni supervision humaine.
1 commentaires
Avis Hacker News
Je me demande ce qui se passe cette semaine. J’ai vu plusieurs percées intéressantes en machine learning au cours des deux derniers jours
Cela m’a rappelé une citation du célèbre mathématicien en théorie des nombres Hendrik Lenstra
Leur approche de reinforcement learning au moment du test me semble un peu douteuse
Ils démontrent l’efficacité de LADDER sur des tâches d’intégration mathématique. La précision de Llama 3.2 3B passe de 1 % à 82 %
Frank Herbert le savait déjà. C’est une implémentation de l’auto-inspection récursive des mentats décrite dans Dune
L’entraînement au moment du test / reinforcement learning est une approche adaptée à l’IA mathématique du futur. C’est probablement l’une des rares façons d’utiliser une quantité énorme de calcul sur un problème donné. Alphaproof le faisait déjà, mais c’est bien de le revoir avec de bons résultats
Hors sujet, mais leur site est magnifique. J’ai l’impression d’avoir trouvé une mine d’or
Certains noms sont tout simplement trop séduisants
Vers la fin de l’article, ils mentionnent deux problèmes de l’épreuve de qualification du MIT Integration Bee 2025. Ils disent que le système a continué à donner des réponses erronées