-
Comment les comportements cognitifs rendent possibles les raisonneurs auto-améliorants, ou les quatre habitudes de STaRs très efficaces
-
Raisonnement au moment de l’inférence : il s’agit d’un paradigme puissant qui permet aux modèles de langage de réfléchir plus longtemps et plus soigneusement à des problèmes complexes. L’apprentissage par renforcement (RL) peut favoriser l’auto-amélioration des modèles de langage sur des tâches vérifiables, mais certains modèles obtiennent des résultats remarquables tandis que d’autres stagnent rapidement. Par exemple, Qwen-2.5-3B surpasse largement Llama-3.2-3B sous le même entraînement RL.
-
Propriétés intrinsèques : cela soulève la question des propriétés intrinsèques qui permettent une auto-amélioration efficace. Pour l’étudier, un cadre d’analyse est introduit autour de quatre comportements cognitifs clés : la vérification, le backtracking, la définition de sous-objectifs et le chaînage arrière. Ces comportements sont utilisés par les experts humains en résolution de problèmes ainsi que par les modèles de langage qui réussissent.
-
Résultats expérimentaux : Qwen manifeste naturellement ces comportements de raisonnement, tandis que Llama en manque au départ. Des expériences systématiques menées avec des jeux de données comportementaux contrôlés montrent qu’en préparant Llama avec des exemples incluant ces comportements de raisonnement, il obtient des améliorations substantielles pendant le RL, jusqu’à égaler ou dépasser les performances de Qwen.
-
Importance des comportements de raisonnement : la présence de comportements de raisonnement est plus déterminante que l’exactitude de la réponse finale. Un modèle préparé avec des solutions incorrectes mais contenant les bons schémas de raisonnement atteint des performances comparables à celles d’un modèle entraîné avec des solutions correctes.
-
Poursuite du préentraînement : grâce à un filtrage des données OpenWebMath visant à amplifier les comportements de raisonnement, le modèle Llama peut suivre la trajectoire d’auto-amélioration de Qwen. Cela établit une relation fondamentale entre les comportements de raisonnement initiaux et la capacité d’amélioration, et explique pourquoi certains modèles de langage exploitent efficacement davantage de calcul.
Aucun commentaire pour le moment.