Coconut de Meta AI – améliorer le raisonnement des LLM avec une chaîne de pensée continue

(aipapersacademy.com)

6 points par GN⁺ 2025-01-01 | 1 commentaires | Partager sur WhatsApp

Les grands modèles de langage (LLM) montrent de fortes capacités de raisonnement grâce à un préentraînement sur d’immenses volumes de langage humain
L’approche "Chain-of-Thought (CoT)" aide le modèle à produire une réponse en générant un raisonnement étape par étape
Cependant, le raisonnement des LLM doit être généré sous forme de mots, ce qui impose une contrainte fondamentale au modèle
Les humains n’expriment pas toujours leurs pensées en langage. L’IA doit-elle le faire elle aussi ?
L’article de recherche de Meta, "Training Large Language Models to Reason in a Continuous Latent Space", propose une nouvelle approche, COCONUT (Chain of Continuous Thought), pour dépasser cette limite

Approche Chain-of-Thought (CoT)

Le CoT prend une question en entrée et génère la réponse finale via un raisonnement en plusieurs étapes
Le modèle traite les tokens d’entrée pour générer le premier token de réponse, qui marque le début du raisonnement
Ensuite, la question et les tokens de raisonnement précédents sont réinjectés de manière répétée dans le modèle pour compléter tout le processus de raisonnement, puis produire la réponse finale

Approche Chain of Continuous Thought (COCONUT)

COCONUT alterne entre le mode langage et le mode pensée latente
- Mode langage : il fonctionne comme un modèle de langage standard et génère le token suivant
- Mode pensée latente : il utilise le dernier état caché pour calculer l’étape suivante
En mode pensée latente, utiliser le dernier état caché comme entrée suivante permet un raisonnement plus efficace
Le mode pensée latente démarre avec le token <bot> et se termine avec le token <eot>, avant de repasser en mode langage

Procédure d’entraînement

Le modèle est entraîné à partir de données CoT existantes (question, étapes de raisonnement, réponse finale)
L’apprentissage se fait de manière progressive :
- Dans la phase initiale, le modèle apprend à générer des étapes de raisonnement en langage ainsi que la réponse
- Dans les phases suivantes, les étapes de raisonnement sont retirées et remplacées par des tokens de pensée latente pendant l’entraînement
À chaque étape, la perte est calculée sur les étapes de raisonnement en langage restantes et sur la réponse
La pensée latente est entièrement différentiable, ce qui permet la back-propagation (rétropropagation)

Passage de la génération de pensée à la génération de tokens de mots

Le modèle peut passer du mode pensée latente au mode langage selon deux stratégies.
La première consiste à "laisser le modèle décider à l’aide d’un classifieur binaire", et la seconde à "utiliser un nombre fixe de tokens de pensée latente"
Les deux stratégies donnent des résultats similaires, ce qui a conduit à retenir l’approche plus simple à nombre fixe

Résultats expérimentaux

La méthode Coconut surpasse No-CoT sur tous les jeux de données.
Par rapport au CoT, ce dernier est meilleur en mathématiques, mais Coconut est meilleur sur ProsQA, qui demande des capacités de planification.
Par rapport à i-CoT, Coconut affiche une meilleure précision en mathématiques.
Performances de Coconut :
- GSM8K (mathématiques) : performances inférieures à CoT
- ProsQA (fort besoin de planification) : performances supérieures à CoT
- No-CoT (génération directe de réponse sans raisonnement) : Coconut est meilleur sur tous les jeux de données
- En termes d’efficacité, Coconut génère moins de tokens que CoT
Comparaison avec i-CoT :
- Précision plus élevée en mathématiques
- Performances similaires en planification et en raisonnement logique
Effet du curriculum learning :
- Le modèle "w/o curriculum" voit ses performances nettement diminuer

Capacité de raisonnement de type BFS

Sur le jeu de données ProsQA, COCONUT obtient d’excellents résultats sur des problèmes centrés sur la planification
Exemple d’exploration de graphe :
- CoT : hallucine des relations inexistantes et produit une mauvaise réponse
- Coconut : exploite plusieurs tokens de pensée latente pour trouver correctement le chemin
Coconut peut explorer plusieurs chemins possibles, ce qui lui donne de meilleures performances sur les tâches fortement axées sur la planification

Conclusion et pistes de recherche futures

Conclusion :
- L’approche COCONUT améliore fortement les capacités de raisonnement des LLM
- Le raisonnement dans l’espace latent offre d’excellentes performances sur les tâches centrées sur la planification, via des motifs proches du BFS
Pistes futures :
- Intégrer la pensée continue dès la phase de préentraînement
- Améliorer l’efficacité pour traiter des raisonnements séquentiels multiples
- Explorer la possibilité de combiner CoT et pensée latente

1 commentaires

GN⁺ 2025-01-01

Commentaire Hacker News

L’accent mis sur le BFS va à l’encontre de ce que j’ai essayé. Les humains divisent le travail en étapes courtes guidées par l’instinct et l’intuition, puis en étapes longues où l’on résume/stocke l’étape suivante. En cas d’échec, on résume l’arbre de l’échec pour l’exclure des choix futurs.
- L’effet de l’instinct diminue rapidement à mesure que la distance augmente. Avec le BFS, on réduit la valeur de l’instinct et on favorise le calcul. L’approche varie selon le type de problème.
- Contactez-moi si vous voulez construire un prototype ensemble.
La prochaine étape consiste à créer une représentation sans langage humain. Si les LLMs pouvaient communiquer uniquement par embeddings, sans entrée textuelle humaine, cela ouvrirait un nouveau chapitre pour l’IA.
Meta part d’un modèle de langage préentraîné, puis le peaufine avec des exemples de raisonnement étape par étape. De nouveaux tokens sont introduits pour faire basculer le modèle vers un mode de réflexion en espace latent.
- La dernière couche cachée est copiée de manière répétée vers la couche d’entrée afin d’obtenir plus d’insights.
- L’entraînement remplace progressivement les étapes de raisonnement en langage par des étapes autorégressives en espace latent. Le modèle apprend à activer et à arrêter lui-même son mode de réflexion en espace latent.
Je me demande si le grand progrès vient du fait de sauter les étapes d’embedding/unembedding pour la pensée interne, ou si l’essentiel réside dans la méthode d’entraînement qui apprend à basculer entre le CoT, la « pensée latente » et la sortie texte.
- Il est intéressant qu’un nombre fixe de « pensées latentes » obtienne les mêmes performances qu’un classificateur binaire.
Cela pourrait être le moment « ça y est » pour l’IA/les LLMs. Les humains ne pensent pas en « tokens ». En restant dans l’espace latent, le modèle peut exprimer des idées avec une résolution plus élevée que le langage.
- L’espace latent a un faible coût d’exécution. Il peut penser sans étapes d’encodage/décodage du langage. Il peut raisonner à partir de différents types de données en entrée.
Les concurrents rattrapent rapidement leur retard. Je m’attends à voir plusieurs SkyNet se faire concurrence.
Je me demande si la base d’utilisateurs des personnages générés par l’IA de Facebook pourra bénéficier de meilleures interactions.
Le site prétend simplifier l’article, mais il est rempli de publicités et je ne trouve pas « Coconut » sur la page officielle de Meta FAIR. Je doute que ce site soit le meilleur lien à partager.
C’est un doublon publié il y a 20 jours.

Coconut de Meta AI – améliorer le raisonnement des LLM avec une chaîne de pensée continue

Approche Chain-of-Thought (CoT)

Approche Chain of Continuous Thought (COCONUT)

Procédure d’entraînement

Passage de la génération de pensée à la génération de tokens de mots

Résultats expérimentaux

Capacité de raisonnement de type BFS

Conclusion et pistes de recherche futures

À lire aussi

1 commentaires

Commentaire Hacker News