Entraîner l’auto-correction des modèles de langage par apprentissage par renforcement
-
Nécessité de l’auto-correction
- La capacité d’auto-correction des grands modèles de langage (LLM) est très souhaitable, mais elle n’est pas efficace dans les LLM modernes
- Les méthodes existantes d’entraînement à l’auto-correction nécessitent plusieurs modèles, ou un modèle plus performant, ou une autre forme de supervision
-
Approche SCoRe
- SCoRe est une approche de RL en ligne multi-tour qui améliore fortement la capacité d’auto-correction des LLM en utilisant des données entièrement auto-générées
- Pour construire SCoRe, les auteurs montrent qu’une variante de réglage fin supervisé (SFT) sur des traces hors ligne de corrections générées par le modèle ne suffit pas à injecter un comportement d’auto-correction
- L’entraînement via SFT souffre soit d’un décalage de distribution entre les données d’entraînement et les propres réponses du modèle, soit d’une préférence pour certains modes de correction seulement, ce qui le rend inefficace au test
-
Solution de SCoRe
- Le processus d’apprentissage est ajusté pour entraîner le modèle sous la distribution de ses propres traces de correction générées, avec une régularisation appropriée, afin d’apprendre des stratégies d’auto-correction efficaces au moment du test
- Une première étape de RL est exécutée pour créer une initialisation de politique, puis un bonus de récompense est utilisé pour amplifier l’auto-correction pendant l’entraînement
-
Résultats de performance
- Appliqué aux modèles Gemini 1.0 Pro et 1.5 Flash, SCoRe obtient une amélioration des performances d’auto-correction de 15,6 % et 9,1 % respectivement sur les benchmarks MATH et HumanEval
Le récapitulatif de GN⁺
- Cet article propose une méthode pour améliorer fortement la capacité d’auto-correction des grands modèles de langage grâce à l’apprentissage par renforcement
- L’approche SCoRe utilise des données auto-générées pour résoudre le problème de décalage de distribution du modèle et lui faire apprendre des stratégies de correction efficaces au test
- Cette recherche montre des gains de performance particulièrement marqués sur les modèles Gemini
- La capacité d’auto-correction est un élément important pour améliorer la fiabilité et la précision des modèles de langage
- Un projet aux fonctionnalités similaires est la série GPT d’OpenAI
1 commentaires
Avis Hacker News
Cela ressemble à une approche similaire au modèle o1 d’OpenAI
Answer 1, Reasoning, Corrected Answerainsi que le signal « améliore Corrected Answer », il existe deux méthodesReasoning, Corrected AnswerAnswer 1afin de rendreCorrected Answeridentique àAnswer 1Les LLM n’ont pas de mémoire directe de leur propre entraînement
Quelqu’un se demande s’il s’agit d’une forme de distillation des connaissances
Certains estiment qu’on ne peut pas éliminer les hallucinations dans le paradigme auto-régressif de prédiction du prochain token
Certains se plaignent que les experts en IA aient popularisé le concept d’« hallucination »
Un algorithme intelligent qui guide un prédicteur non intelligent du mot suivant reste malgré tout un algorithme non intelligent