Apprendre à raisonner avec le Meta Chain-of-Thought

(arxiv.org)

2 points par GN⁺ 2025-01-12 | 1 commentaires | Partager sur WhatsApp

Meta Chain-of-Thought (Meta-CoT) est un framework qui va au-delà du CoT, lequel ne rédige que les étapes finales de résolution, pour modéliser aussi les processus de pensée latents avant d’arriver à la réponse
Dans les problèmes de mathématiques difficiles, les solutions finales de type manuel omettent l’exploration, la vérification et l’expérimentation de la pensée réelle, ce qui rend difficile pour un modèle l’apprentissage du processus de génération d’une solution
GPT-4o et Claude peuvent eux aussi échouer sur certaines évaluations d’expressions algébriques, mais le CoT en mode « step by step » augmente les calculs intermédiaires, accroît les chances d’obtenir la bonne réponse et met en évidence l’écart de calcul d’inférence
La famille OpenAI o1 produit des sorties plus longues et creuse l’écart de performance sur des benchmarks mathématiques difficiles comme HARP, montrant un comportement proche de l’exploration au moment de l’inférence
Une voie de mise en œuvre de Meta-CoT est proposée sous forme de pipeline d’entraînement combinant supervision de processus, données synthétiques, recherche MCTS/A*, instruction tuning à partir de traces de recherche linéarisées, et post-entraînement par apprentissage par renforcement

Le problème visé par Meta-CoT

Les grands modèles de langage actuels reposent sur la prédiction du token suivant : le texte ou les modalités continues sont découpés en séquences discrètes de tokens, puis le modèle est entraîné à maximiser la vraisemblance du token suivant
Cette approche s’appuie sur l’idée que « compression is intelligence »
- Pour prédire le token suivant, le modèle doit approximer la distribution des données et effectuer un raisonnement implicite dans ses activations
La question centrale est la relation entre la complexité du flux de données et la capacité du modèle à apprendre l’algorithme qui génère ces données
Le raisonnement mathématique sert de bon terrain d’évaluation pour cette question
- Face à un problème comme « 1+2 », la plupart répondent immédiatement « 3 »
- Une évaluation d’expression algébrique plus complexe se simplifie en réalité à 1, mais même de puissants LLM comme GPT-4o et Claude peuvent ne jamais donner la bonne réponse
L’instruction « think step by step » et le CoT obligent le modèle à générer des étapes intermédiaires, ce qui améliore fortement les performances
- Dans l’exemple d’expression algébrique, le modèle montre que la valeur est 1 en passant par la factorisation, la simplification de fractions et le calcul d’un dénominateur commun

Les limites du CoT existant

L’extension CoT permet en théorie d’allouer arbitrairement beaucoup de calcul à la prédiction du token de réponse correcte
La littérature théorique existante considère que le CoT apporte aux LLM un nouveau niveau de complexité expressive et qu’il pourrait même atteindre la complétude de Turing sous des hypothèses comme une mémoire infinie
En pratique, les LLM ne résolvent encore de façon fiable que des problèmes à complexité limitée
Le véritable processus de génération des données pour un raisonnement complexe n’est pas suffisamment présent dans les données CoT ordinaires
- Pour les problèmes simples, la solution de manuel correspond assez bien au processus réel de génération de la solution
- Pour les problèmes complexes, les étapes finales de résolution omettent le processus d’exploration non linéaire qui précède la découverte de cette solution

Définition du Meta Chain-of-Thought

Meta-CoT ne va pas directement de la question aux étapes finales de résolution et à la réponse : il modélise les pensées latentes z1 ... zK qui existent avant cela
Le CoT classique peut être vu comme une réponse a conditionnée par des étapes de résolution s1 ... sn
Meta-CoT considère que les étapes de résolution et la réponse (a, s1 ... sn) sont conditionnées par un processus de pensée latent z1 ... zK
Il s’agit d’une généralisation d’un niveau de la logique CoT existante, qui fait entrer le processus de pensée extérieur à la solution finale dans l’objectif d’apprentissage
Dans les problèmes complexes, même si la solution finale est courte, le processus permettant de la trouver peut être long et non linéaire

Exemple du problème du « windmill » de l’IMO 2011

Le célèbre problème du windmill de l’International Mathematics Olympiad 2011 est utilisé comme exemple de raisonnement complexe
Sa solution publique peut être exprimée en quelques phrases et ne requiert pas de connaissances préalables particulières
La vraie difficulté tient à la structure très non linéaire de la solution
- De nombreux participants ont tenté d’utiliser des constructions d’enveloppe convexe ou des outils de théorie des graphes hamiltoniens, sans parvenir à la solution
- Les participants qui ont résolu le problème ont suivi une approche expérimentale incluant beaucoup d’exploration géométrique et de raisonnement inductif
L’utilité de la construction initiale de la solution finale n’apparaît que si l’on connaît déjà l’approche globale
Le véritable processus de génération de la solution s’accorde donc mal avec un mode autorégressif allant de gauche à droite

Résultats HARP et usage des tokens par la famille o1

La famille de modèles OpenAI o1 est présentée comme effectuant, au moment de l’inférence, un raisonnement Meta-CoT de façon autorégressive
Sur le benchmark mathématique HARP, la famille o1 affiche globalement de meilleures performances que les modèles de raisonnement standard existants
Plus les problèmes sont difficiles, plus l’écart de performance entre o1 et les autres modèles se creuse
- Une exception intéressante est toutefois observée avec le modèle LLaMa 3.1
Dans le volume de tokens générés, la famille o1 montre aussi un comportement différent des modèles existants
- Pour les problèmes de Level 1, elle génère un nombre de tokens proche de celui des solutions rédigées par des humains
- Pour les niveaux de difficulté plus élevés, elle génère beaucoup plus de tokens par problème, tandis que son écart de performance avec les modèles existants augmente également
Les solutions publiques des problèmes difficiles ne représentent pas le véritable processus de génération, ce qui conduit à l’hypothèse que le Meta-CoT plus long de la famille o1 pourrait mieux approximer ce processus

Rôle de l’exploration et de la vérification

Dans les problèmes complexes orientés objectif, il peut exister un écart de difficulté significatif entre génération et vérification
Cet écart renvoie à des problèmes ouverts fondamentaux en informatique théorique, mais les démontrer sort du périmètre de la recherche
Les réponses aux problèmes difficiles présents dans les corpus textuels peuvent être vues comme le résultat de longs processus d’exploration
Mais le processus d’exploration lui-même n’est généralement pas représenté dans les données
En l’absence de données Meta-CoT, ou si elles n’existent que de manière limitée, il est difficile pour les modèles d’apprendre directement le véritable processus de génération d’un raisonnement difficile

Expérience avec LLaMa 3.1 8B

Un supervised fine-tuning à grande échelle est réalisé sur le modèle de base LLaMa 3.1 8B avec le dataset Numina MATH
Chaque checkpoint intermédiaire est évalué sur le dataset d’évaluation de 500 problèmes Hendrycks MATH
Dans l’évaluation pass@k utilisant un oracle verifier, on observe une forte progression des performances à mesure que k augmente
La Figure 2 montre que le dataset filtré présente un meilleur scaling que les données d’origine et n’a pas encore atteint de plateau
En augmentant k de pass@2 à pass@64, même un petit modèle voit nettement augmenter la probabilité d’obtenir au moins une solution correcte

Pistes d’entraînement et questions ouvertes

La supervision de processus et la génération de données synthétiques fondée sur la recherche sont envisagées comme méthodes pour créer du Meta-CoT
La génération synthétique de Meta-CoT inclut des algorithmes de recherche comme Monte Carlo Tree Search (MCTS) et A*
Le pipeline visant un système end-to-end unique combine l’instruction tuning avec des traces de recherche linéarisées et un post-entraînement par apprentissage par renforcement
Le projet « Big MATH » cherche à soutenir cette recherche en rassemblant plus de 1 000 000 de problèmes mathématiques vérifiables et de haute qualité
Les questions de recherche ouvertes incluent les lois de scaling du raisonnement et de la recherche, le rôle du verifier, et la possibilité de découvrir de nouveaux algorithmes de raisonnement via le meta-RL

1 commentaires

GN⁺ 2025-01-12

Avis sur Hacker News

La critique du CoT est convaincante. Le point essentiel est surtout la rupture entre l’imitation algorithmique et la véritable exploration cognitive.
Les auteurs utilisent des exemples de mathématiques avancées, comme le « windmill problem » des Olympiades internationales de mathématiques, pour montrer des problèmes difficiles à résoudre par une pensée séquentielle exhaustive. Cela révèle les limites d’un cadre qui s’appuie sur des jeux de données statiques et des processus de génération rigides. Si le CoT échoue, ce n’est pas parce qu’il ne parvient pas à générer une réponse, mais parce qu’il ne possède pas la manière de faire émerger une réponse comme le fait la créativité humaine.
La phrase « la superintelligence ne consiste pas à découvrir de nouvelles choses, mais à découvrir de nouvelles façons de découvrir » m’a marqué.
- Dans ce cas, plus tard, il y aura aussi des problèmes qui nécessiteront une « nouvelle façon de découvrir de nouvelles façons de découvrir », et ainsi de suite.
- Il suffit de l’entraîner au méta-raisonnement. On peut lui apprendre le processus par lequel les gens découvrent des façons de découvrir ; ce n’est donc pas un gros problème, il suffit de créer un jeu de données et de l’entraîner dessus.
- J’aime bien la phrase citée à la fin. Je me demande si quelqu’un se souvient de la source originale.
- À propos du windmill problem, il y a https://www.3blue1brown.com/lessons/windmills.
La grande idée de l’article est que le CoT est limité pour certains problèmes complexes. Il existe des problèmes pour lesquels il n’y a pas de méthode « scolaire » pour trouver la solution, et ces problèmes exigent une méthodologie propre.
Le passage clé est : « En substance, pour commencer à générer une solution, il faut déjà connaître l’approche globale. Le processus génératif qui sous-tend la solution n’est pas un processus autorégressif allant de gauche à droite. »
Mathématiquement, on peut le formaliser en interprétant le raisonnement comme un processus à variables latentes. Le CoT classique voit la probabilité de la réponse finale comme une marginalisation sur une chaîne de raisonnement latente, tandis que le véritable processus de génération de solutions pour les problèmes complexes devrait considérer que la distribution de probabilité jointe de la solution est conditionnée par un processus génératif latent. C’est pourquoi q → z1 → … → z est appelé Meta-CoT.
Cela semble être un point de départ assez important. Par exemple, si vous demandez à o1-pro comment faire fonctionner une diode laser à 1550 nm à 1 GHz tout en réduisant les pertes géométriques avec des matériaux courants, une nouvelle approche de fabrication ou de la physique de premiers principes, sans collimateur coûteux, l’illusion qu’o1-pro est extraordinaire s’effondre. L’ingénierie « nouvelle » reste encore difficile à atteindre, et comme il n’existe pas de manuel expliquant comment faire ce type d’ingénierie, ces problèmes ne se résolvent pas de manière autorégressive de gauche à droite.
- C’est étonnant de voir à quel point les critères ont changé.
  Désormais, pour qu’un modèle d’IA soit considéré comme « extraordinaire », on dirait qu’il doit produire une bonne solution lorsqu’on lui donne, dans n’importe quel domaine difficile, un problème que les humains n’ont pas encore résolu. Une telle IA serait évidemment extraordinaire et capable de changer le monde, mais il est assez surprenant que tout ce qui est en dessous ne soit plus jugé « extraordinaire ».
- Je me demande si même un humain pourrait produire une vraie solution à ce problème sans interroger la réalité physique, c’est-à-dire sans expérimentation.
  Une partie de la réalité n’est pas calculable ; au bout du compte, on ne peut l’atteindre qu’en laissant l’univers la simuler directement.
- L’idée de « problèmes pour lesquels il n’y a pas de méthode scolaire pour trouver la solution » ne correspond pas à mon expérience d’interaction avec les LLM.
  Même lorsque je formulais des questions d’une manière que la plupart des gens ne comprendraient pas, les réponses montraient que la question elle-même avait été correctement interprétée. Que la réponse soit correcte est une autre affaire, mais il y avait bien une certaine capacité à interpréter des choses qui ne relèvent pas d’exemples de manuel.
- On dit qu’« il n’existe pas de manuel expliquant comment faire de l’ingénierie nouvelle », mais il existe bien des livres sur la méthode scientifique, non ?
  Comme le disent d’autres commentaires, attendre d’une superintelligence enfermée dans une boîte qu’elle découvre quelque chose nécessitant expériences et observations est physiquement presque impossible. On serait limité à des domaines comme les mathématiques pures, où il suffit d’écrire sur du papier et de réfléchir à partir d’axiomes ; or ce sont précisément parmi les domaines où le progrès est le plus difficile. L’humanité en est arrivée là sur des milliers d’années, grâce aux contributions minuscules de nombreux savants.
La communauté de recherche est-elle d’accord sur l’idée que « les modèles de langage n’apprennent pas simplement les corrélations entre mots séquentiels, mais le sens implicite du texte » ? Je me demande s’il existe des articles sur ce sujet
- La communauté de recherche n’est absolument pas d’accord là-dessus ; il existe plusieurs camps. En traitement automatique du langage naturel, on peut grosso modo distinguer deux points de vue
  L’article de Bender et Koller de 2020[1] soutient que le sens ne peut pas être appris à partir de la forme seule, et que les LLM sont entraînés sur la forme. Dans l’expérience de pensée « The Octopus Test » de l’article, une pieuvre capable d’intercepter la conversation de deux humains apparaît, mais il est expliqué que « dans un état où elle ne dispose que de la forme comme données d’apprentissage, elle n’a pas appris le sens »
  À l’inverse, le billet de Yoav Goldberg[2] traite de manière plus informelle de l’ancrage et de ce que les LLM apprennent. L’idée générale est que l’instruction tuning et le post-entraînement peuvent ancrer de façon significative des termes comme « summarize »
  [1] https://aclanthology.org/2020.acl-main.463/
  [2] https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8...
- J’ai toujours l’impression qu’il n’y a peut-être pas de différence réelle entre le « sens implicite du texte » et les « corrélations entre mots séquentiels »
  Le fait qu’un LLM puisse communiquer efficacement avec les humains relève moins d’une découverte sur l’intelligence des réseaux de neurones que d’une découverte sur la régularité de la sémantique de la communication humaine
- Ce n’est certainement pas un point de consensus. En informatique, la théorie du sens ne fait pas vraiment partie du domaine à l’origine, et il y a très peu de gens qui disposent d’un bagage de travaux antérieurs pertinents, d’où ce genre d’affirmations audacieuses un peu partout
  Quelle que soit la manière dont on attribue une sémantique au langage naturel, il est difficile de considérer qu’un modèle de machine learning utilise cette sémantique
  Le mieux qu’on puisse dire, à la rigueur, c’est que, sous l’objectif de l’apprentissage supervisé de type Transformer — c’est-à-dire la « prédiction du mot suivant » —, la structure de corrélation des mots produit une distribution qui constitue une approximation extrêmement grossière de la sémantique du langage naturel. Cela en soi n’a jamais été contesté ; la question porte sur le type d’approximation extrême dont il s’agit
  Par exemple, les conditions de vérité de « j’ai un stylo dans la main » sont qu’il y ait effectivement un stylo dans ma main. Pour vouloir dire cela dans ce contexte, il est très plausible qu’un accès direct à ces conditions de vérité soit nécessaire. Une machine ne peut pas accéder aux conditions de vérité d’un tel énoncé ; elle ne peut donc pas vouloir dire cette phrase
  Si une machine dit « j’ai un stylo dans la main » dans une situation appropriée, « l’approximation extrême de la sémantique du langage naturel » porte sur cette situation et sur ce qu’est le caractère « approprié »
  Du point de vue d’une critique des LLM et de la pensée de type informatique, l’éventail des « situations » dans lesquelles une telle réponse paraît appropriée — c’est-à-dire les conditions de prompt — est très étroit. Le fait que la réponse semble appropriée à l’utilisateur est une condition d’ingénierie indiquant que l’outil fonctionne bien, pas que le modèle comprend la sémantique du langage naturel
  On peut donc dire qu’un LLM approxime, dans des situations limitées, des conversations entre agents qui comprennent la sémantique, et qu’il modélise un usage approprié du langage. On pourrait l’appeler un modèle de « pertinence moyenne des réponses », mais il ne peut pas réellement vouloir dire « j’ai un stylo dans la main »
Il faut être prudent avec les formulations qui invoquent le principe selon lequel « la compression est l’intelligence » ou l’induction de Solomonoff
Dans l’ensemble des deux articles « A Formal Theory of Inductive Inference » cités plus haut, le mot « intelligence » apparaît 0 fois, « Compression » 0 fois, et « reasoning » seulement 1 fois dans l’expression « using similar reasoning »
Bien sûr, ce qui intéressait Solomonoff était l’inférence inductive. Je ne sais pas s’il a jamais dit que « la compression est l’intelligence », et cette idée comme ce slogan semblent s’être développés bien plus tard. La source originale n’est pas claire non plus
Il est vrai que l’induction de Solomonoff est profondément liée au problème de prédire le symbole suivant dans une chaîne de symboles, mais il ne s’agit pas nécessairement de tokens linguistiques. Les expressions courantes du genre dire que les LLM en seraient à un « stade initial » sont fausses. La modélisation du langage est une technologie presque antique selon les critères de l’informatique, et elle est entrée depuis longtemps dans une phase de maturité technique
[1] https://raysolomonoff.com/publications/1964pt1.pdf
[2] https://raysolomonoff.com/publications/1964pt2.pdf
- Dire que l’intelligence est une forme de compression est tout à fait raisonnable. Un modèle inductif est petit, mais peut potentiellement générer une quantité arbitraire d’informations
C’est un travail réfléchi. Je réfléchissais à des idées connexes et travaillais dessus depuis quelques mois, mais je n’ai pas encore pu utiliser des ressources de calcul d’une ampleur comparable, et la direction était peut-être aussi un peu différente
Cette recherche aide clairement à établir une baseline pour mieux exploiter l’architecture Transformer à décodeur
Ici, Meta désigne-t-il l’entreprise Meta, ou bien le mot « méta » ? Ou les deux ?
- C’est utilisé comme un mot
  https://chatgpt.com/share/67813a3f-c7e8-8001-ab0c-7f024bc41a...
Je me demande s’il existe un moyen de savoir, parmi les recherches, quelle part porte sur des idées que les chercheurs ont eues eux-mêmes, et quelle part correspond à des travaux menés par des développeurs indépendants en ligne qui attirent ensuite l’attention, sont étudiés, puis donnent lieu à des articles
Le fait que l’article prenne comme exemple des équations algébriques à simple substitution et leur résolution étape par étape renforce l’impression que les LLM ne peuvent que reproduire des recettes de résolution déjà vues
En réalité, ce n’est pas très différent de la manière dont nous apprenons les maths à l’école. L’enseignant montre le point de départ, puis avance étape par étape jusqu’à la fin. Appeler cela « Meta Chain-of-Thought » donne l’impression d’exagérer un programme d’enseignement de base
La prochaine fois, on appellera peut-être le fait de saisir des couverts basiques d’un nom forcé comme « théorie hiérarchique du mouvement physique ». À l’école, ce genre de « Meta Chain-of-Thought », on l’appelait simplement « montrer son raisonnement ». Est-ce vraiment un « phénomène » qui nécessite une explication ? Nous pouvons sans doute encore apprendre des choses sur l’induction logique, c’est-à-dire sur la manière dont nous parvenons à effectuer des étapes d’inférence, mais nous sommes encore trop plongés dans la soupe pour décrire précisément la forme de la casserole
- Je ne sais pas si « ne peut que reproduire des recettes déjà vues » parle des LLM ou de vous-même

Apprendre à raisonner avec le Meta Chain-of-Thought

Le problème visé par Meta-CoT

Les limites du CoT existant

Définition du Meta Chain-of-Thought

Exemple du problème du « windmill » de l’IMO 2011

Résultats HARP et usage des tokens par la famille o1

Rôle de l’exploration et de la vérification

Expérience avec LLaMa 3.1 8B

Pistes d’entraînement et questions ouvertes

À lire aussi

1 commentaires

Avis sur Hacker News