2 points par GN⁺ 2024-03-17 | 1 commentaires | Partager sur WhatsApp

Quiet-STaR : on peut apprendre aux modèles de langage à réfléchir avant de parler

  • Les humains s’arrêtent parfois pour réfléchir lorsqu’ils écrivent ou parlent, et ce type de raisonnement est inhérent à presque tous les textes écrits.
  • Self-Taught Reasoner (STaR) montre comment apprendre des raisonnements utiles en inférant une justification à partir de quelques exemples en question-réponse, puis en apprenant à partir des justifications qui mènent à la bonne réponse.
  • Quiet-STaR est une généralisation de STaR, qui entraîne un modèle de langage à générer une justification à chaque token afin d’expliquer le texte futur et d’améliorer ses prédictions.

Principaux défis et pistes de solution

  • Parmi les défis figurent le coût de calcul de la génération de texte continue, le fait que le modèle de langage ne sait pas au départ comment générer ou utiliser des pensées internes, ainsi que la nécessité de prédire au-delà du simple token suivant.
  • Pour résoudre ces problèmes, les auteurs proposent un algorithme d’échantillonnage parallèle par token utilisant des tokens apprenables indiquant le début et la fin de la pensée, ainsi qu’une technique étendue de teacher-forcing.

Amélioration des performances du modèle

  • Les justifications générées aident à prédire les tokens difficiles et améliorent la capacité du modèle de langage à répondre directement à des questions complexes.
  • Après avoir poursuivi le préentraînement d’un modèle de langage avec Quiet-STaR sur un corpus de textes issus d’Internet, les auteurs ont observé des gains en zero-shot sur GSM8K (5.9%→10.9%) et CommonsenseQA (36.3%→47.2%), ainsi qu’une amélioration de la perplexity sur les tokens difficiles dans le texte naturel.
  • Ces améliorations sont obtenues sans fine-tuning sur ces tâches.

L’avis de GN⁺

  • Quiet-STaR montre une avancée vers un apprentissage du raisonnement par les modèles de langage d’une manière plus générale et plus scalable.
  • Cette recherche représente un progrès important dans le renforcement de la compréhension du langage et des capacités de raisonnement en IA, et pourrait contribuer à l’évolution des technologies de traitement du langage naturel.
  • D’un point de vue critique, l’application de cette technique à des problèmes complexes du monde réel pourrait aussi produire des résultats inattendus, ce qui appelle des recherches supplémentaires et des mesures de sécurité.
  • Parmi les autres projets offrant des fonctionnalités comparables figurent la série GPT d’OpenAI et BERT de Google, qui font eux aussi l’objet de recherches visant à améliorer la compréhension et la génération du langage.
  • Parmi les points à considérer lors de l’adoption de cette technologie figurent la qualité et la diversité des données d’apprentissage, l’usage éthique du modèle et le coût de calcul ; parmi les avantages attendus, on trouve la génération de modèles de langage plus précis et plus fins.

1 commentaires

 
GN⁺ 2024-03-17
Commentaires Hacker News
  • Si le réseau est composé d’environ 50 couches de profondeur, cela signifie qu’il peut raisonner sur environ 50 « étapes » de questions symboliques. Il se peut que 50 étapes dans le sous-espace sur lequel le modèle a été entraîné accomplissent davantage qu’une seule étape humaine, mais nous savons que les humains ont la capacité de penser et de délibérer au-delà de ces étapes.
  • Edsger Dijkstra, bien que néerlandophone, avait un style anglais extrêmement précis. Il se souvenait qu’on lui avait appris dès l’enfance à devoir savoir comment terminer une phrase avant même de la commencer. On peut supposer qu’il existe un lien de causalité entre ces deux observations.
  • Je me suis dit que les schémas de raisonnement en « chaîne de pensée », qui contribuent à améliorer les performances des systèmes fondés sur des LLM, sont parallèles au modèle à deux systèmes présenté dans Système 1 / Système 2 : Les deux vitesses de la pensée de Kahneman. Le « système 1 » correspond aux pensées traitées avec peu d’effort et peu de calcul, tandis que le « système 2 » est utilisé pour le travail cognitif conscient et exigeant. Face à la critique selon laquelle les LLM semblent n’utiliser que le « système 1 », le fait de les amener à penser étape par étape revient un peu à leur fournir un bac à sable décisionnel analogue au « système 2 ».
  • C’est la pièce manquante qui permet d’entraîner une IA sur de nombreuses tâches où l’on connaît déjà la réponse, mais pas les étapes de raisonnement. Avec cette méthode, il devient possible d’atteindre des capacités de raisonnement avec peu de données annotées. Si les pensées générées sont difficiles à comprendre pour les humains, mais aident beaucoup plus à obtenir la bonne réponse, on pourra dire que nous avons créé quelque chose de plus intelligent que nous.
  • Une grande partie du sens d’un texte est cachée entre les lignes, et si le lecteur ne comprend pas pourquoi une affirmation apparaît dans un document, il n’en a qu’une compréhension superficielle. Pourtant, la plupart des gens disposent d’un modèle du monde et comprennent dans une certaine mesure les raisons de la présence des affirmations dans un livre. Par exemple, en lisant un manuel de mécanique des fluides, on peut ne pas comprendre les mathématiques, tout en sachant pourquoi telle affirmation s’y trouve.
  • Certains se demandent si les auteurs de cet article ont un lien avec le modèle Q* d’OpenAI entouré de rumeurs, ou s’il s’agit simplement d’une coïncidence de nom.
  • Ils n’ont pas cité un article [1], antérieur de près de huit ans à leur travail, sur la modélisation du langage avec calcul variable (appris) appliqué aux RNN. À l’époque, Microsoft avait aussi quelque chose de similaire pour la reconnaissance d’images.
  • C’est fondamentalement la même chose que ce que j’ai essayé ce matin au niveau du prompt, mais j’ai poussé l’idée plus loin en introduisant des « méta-tokens » qui aident le LLM à réexplorer son contexte. Certains de ces méta-tokens pourraient avoir des effets secondaires comme mettre en avant, structurer, résumer ou oublier une partie du contexte. Cela pourrait non seulement donner au LLM des capacités logiques/de raisonnement, mais aussi lui fournir un moyen de générer sa propre structure cognitive.
  • Il y a un cas où l’équipe d’Intel a tenté, comme avec NeuralChat, d’utiliser Base Mistral 7B d’une manière qui le rendait inadapté à l’évaluation.
  • Cette recherche semble très intéressante, et quelqu’un demande si les chercheurs publieront probablement le code bientôt.