-
Progrès des LLMs pour le raisonnement de type System 2
- Des chercheurs, dont Violet Xiang, proposent un nouveau framework appelé Meta Chain-of-Thought (Meta-CoT)
- Meta-CoT étend le Chain-of-Thought (CoT) existant afin de modéliser explicitement le raisonnement fondamental nécessaire pour parvenir à un CoT donné
- Ils présentent des preuves empiriques montrant, sur les modèles les plus récents, des comportements alignés avec la recherche en contexte, et explorent des méthodes de génération de Meta-CoT via la supervision de processus, la génération de données synthétiques et des algorithmes de recherche
-
Pipeline de génération et d'entraînement de Meta-CoT
- Ils présentent un pipeline d'entraînement concret pour générer des Meta-CoT
- Il inclut des méthodes d'entraînement du modèle par ajustement d'instructions, avec des traces de recherche linéarisées et de l'apprentissage par renforcement
-
Questions de recherche ouvertes
- Ils discutent de plusieurs questions de recherche, notamment les lois de passage à l'échelle, le rôle du vérificateur et la possibilité de découvrir de nouveaux algorithmes de raisonnement
- Cette recherche fournit une feuille de route théorique et pratique pour rendre Meta-CoT possible dans les LLMs, ouvrant la voie à un raisonnement en IA plus puissant et plus proche de celui des humains
Aucun commentaire pour le moment.