Quiet-STaR : on peut apprendre aux modèles de langage à réfléchir avant de parler
- Les humains s’arrêtent parfois pour réfléchir lorsqu’ils écrivent ou parlent, et ce type de raisonnement est inhérent à presque tous les textes écrits.
- Self-Taught Reasoner (STaR) montre comment apprendre des raisonnements utiles en inférant une justification à partir de quelques exemples en question-réponse, puis en apprenant à partir des justifications qui mènent à la bonne réponse.
- Quiet-STaR est une généralisation de STaR, qui entraîne un modèle de langage à générer une justification à chaque token afin d’expliquer le texte futur et d’améliorer ses prédictions.
Principaux défis et pistes de solution
- Parmi les défis figurent le coût de calcul de la génération de texte continue, le fait que le modèle de langage ne sait pas au départ comment générer ou utiliser des pensées internes, ainsi que la nécessité de prédire au-delà du simple token suivant.
- Pour résoudre ces problèmes, les auteurs proposent un algorithme d’échantillonnage parallèle par token utilisant des tokens apprenables indiquant le début et la fin de la pensée, ainsi qu’une technique étendue de teacher-forcing.
Amélioration des performances du modèle
- Les justifications générées aident à prédire les tokens difficiles et améliorent la capacité du modèle de langage à répondre directement à des questions complexes.
- Après avoir poursuivi le préentraînement d’un modèle de langage avec Quiet-STaR sur un corpus de textes issus d’Internet, les auteurs ont observé des gains en zero-shot sur GSM8K (5.9%→10.9%) et CommonsenseQA (36.3%→47.2%), ainsi qu’une amélioration de la perplexity sur les tokens difficiles dans le texte naturel.
- Ces améliorations sont obtenues sans fine-tuning sur ces tâches.
L’avis de GN⁺
- Quiet-STaR montre une avancée vers un apprentissage du raisonnement par les modèles de langage d’une manière plus générale et plus scalable.
- Cette recherche représente un progrès important dans le renforcement de la compréhension du langage et des capacités de raisonnement en IA, et pourrait contribuer à l’évolution des technologies de traitement du langage naturel.
- D’un point de vue critique, l’application de cette technique à des problèmes complexes du monde réel pourrait aussi produire des résultats inattendus, ce qui appelle des recherches supplémentaires et des mesures de sécurité.
- Parmi les autres projets offrant des fonctionnalités comparables figurent la série GPT d’OpenAI et BERT de Google, qui font eux aussi l’objet de recherches visant à améliorer la compréhension et la génération du langage.
- Parmi les points à considérer lors de l’adoption de cette technologie figurent la qualité et la diversité des données d’apprentissage, l’usage éthique du modèle et le coût de calcul ; parmi les avantages attendus, on trouve la génération de modèles de langage plus précis et plus fins.
1 commentaires
Commentaires Hacker News