1 points par GN⁺ 2025-03-08 | 1 commentaires | Partager sur WhatsApp

LADDER : amélioration des capacités de résolution de problèmes des LLM grâce à l’auto-amélioration

  • Présentation de LADDER : LADDER est un framework qui améliore la capacité des grands modèles de langage (LLM) à résoudre des problèmes en transformant progressivement des problèmes complexes en formes plus simples. Sans recourir à des jeux de données existants ni à des retours humains, il exploite les capacités propres du modèle pour générer des transformations de problèmes plus faciles.

  • Efficacité : LADDER a fait passer la précision de Llama 3.2 3B de 1 % à 82 % dans le domaine de l’intégration mathématique, et a permis à Qwen2.5 7B Deepseek-R1 Distilled d’atteindre 73 % aux qualifications du MIT Integration Bee.

  • Présentation de TTRL : TTRL (Test-Time Reinforcement Learning) est une méthode qui applique l’apprentissage par renforcement au moment de l’inférence via des transformations des problèmes de test. Grâce à cela, Qwen2.5 7B Deepseek-R1 Distilled a obtenu un score de pointe de 90 % aux qualifications du MIT Integration Bee, surpassant les performances d’OpenAI o1.

  • Importance des résultats : ces résultats montrent qu’un apprentissage autonome et stratégique peut produire des gains de capacité significatifs sans mise à l’échelle de l’architecture ni supervision humaine.

1 commentaires

 
GN⁺ 2025-03-08
Avis Hacker News
  • Je me demande ce qui se passe cette semaine. J’ai vu plusieurs percées intéressantes en machine learning au cours des deux derniers jours

    • Une équipe de recherche de Google a découvert qu’il était possible de combiner des NN et des CLA via des portes logiques numériques. Cela permet de réduire de nombreux problèmes non linéaires à des circuits numériques simples et efficaces
    • De nouvelles découvertes continuent d’émerger autour des réseaux neuronaux et de la logique/intelligence, et cela fait imaginer à quel point nous sommes proches de comprendre les principes de l’intelligence
  • Cela m’a rappelé une citation du célèbre mathématicien en théorie des nombres Hendrik Lenstra

    • « Pour chaque problème insoluble, il existe un problème plus simple qui est lui aussi insoluble »
  • Leur approche de reinforcement learning au moment du test me semble un peu douteuse

    • Le TTRL fonctionne en demandant au modèle de langage de générer une version plus simple du cas de test. Une fois le problème simplifié obtenu, ils effectuent du reinforcement learning dessus afin d’améliorer les performances du modèle sur le problème d’origine
    • Le problème, c’est qu’ils utilisent un intégrateur numérique pour vérifier le problème simplifié. On peut imaginer des scénarios où un problème à peine simplifié est généré, permettant au modèle de s’entraîner en pratique sur le vrai cas de test. Cela revient à s’entraîner sur le jeu de test
    • Le reste de l’article est correct
  • Ils démontrent l’efficacité de LADDER sur des tâches d’intégration mathématique. La précision de Llama 3.2 3B passe de 1 % à 82 %

    • Le simple fait que cette méthode fonctionne est intéressant. Le fait qu’elle fonctionne bien en mathématiques l’est particulièrement
    • Cet article s’inscrit dans le mouvement actuel qui brouille la frontière entre entraînement et inférence. Une partie de leur méthode consiste à décomposer une question dont on ne connaît pas la réponse en questions plus simples, puis à utiliser un « checker » numérique pour faire du GRPO. Ce modèle renforcé peut alors répondre à davantage de questions
    • Je pense que les humains réfléchissent souvent de cette manière aussi. On rumine quelque chose, on le retourne dans sa tête, on fait des analogies, etc. Ajouter de l’entraînement au moment du test est une manière de penser davantage, au-delà du simple ajout de tokens de contexte à une inférence figée
    • De la même manière que DeepSeek et o1/o3 montrent qu’on peut augmenter les capacités via la génération et l’évaluation de tokens au moment de l’inférence, il semble qu’on puisse aussi les augmenter via du fine-tuning automatisé au moment de l’inférence
    • J’espère que, lorsque ces techniques seront bien établies, nous pourrons en parler et les penser autrement. À un certain niveau, elles font toutes partie du même processus fondamental
    • En tout cas, c’est vraiment très cool
  • Frank Herbert le savait déjà. C’est une implémentation de l’auto-inspection récursive des mentats décrite dans Dune

  • L’entraînement au moment du test / reinforcement learning est une approche adaptée à l’IA mathématique du futur. C’est probablement l’une des rares façons d’utiliser une quantité énorme de calcul sur un problème donné. Alphaproof le faisait déjà, mais c’est bien de le revoir avec de bons résultats

  • Hors sujet, mais leur site est magnifique. J’ai l’impression d’avoir trouvé une mine d’or

  • Certains noms sont tout simplement trop séduisants

  • Vers la fin de l’article, ils mentionnent deux problèmes de l’épreuve de qualification du MIT Integration Bee 2025. Ils disent que le système a continué à donner des réponses erronées

    • Ils disent que ces questions font partie des plus complexes de l’épreuve, mais la première consiste simplement à
    • calculer ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx
    • Ce qui revient à calculer 1/3 + 1/(34) + 1/(34*5) + ... Ce n’est pas des mathématiques très avancées