Les comportements cognitifs qui permettent des raisonneurs auto-amélioratifs

(arxiv.org)

2 points par GN⁺ 2025-03-08 | 1 commentaires | Partager sur WhatsApp

Lorsqu’on auto-améliore des modèles de langage par apprentissage par renforcement sur des problèmes vérifiables, Qwen-2.5-3B progresse fortement sur Countdown dans les mêmes conditions, tandis que Llama-3.2-3B stagne rapidement
L’écart de performance est lié aux comportements de raisonnement que le modèle initial possédait déjà, comme la vérification, le backtracking, la définition de sous-objectifs et le chaînage arrière
Qwen manifeste dès le départ plus naturellement la vérification et le backtracking, tandis que Llama manque de ces comportements et peine à exploiter efficacement l’augmentation du calcul au moment du test
Si l’on amorce Llama avec des traces de raisonnement synthétiques contenant des schémas de raisonnement plutôt que la simple justesse de la réponse, il suit pendant l’apprentissage par renforcement une trajectoire d’amélioration comparable à celle de Qwen
En filtrant OpenWebMath puis en poursuivant le préentraînement, on induit aussi chez Llama la distribution de comportements nécessaire, ce qui montre que la conception des habitudes de raisonnement initiales a un impact direct sur les performances d’auto-amélioration

Une capacité d’auto-amélioration qui diverge malgré le même apprentissage par renforcement

L’inférence au moment du test (test-time inference) est utilisée pour amener les modèles de langage à « penser » plus longtemps et plus prudemment face à des problèmes complexes
L’approche consistant à appliquer l’apprentissage par renforcement (RL) à des problèmes vérifiables pour auto-améliorer un modèle n’est pas nouvelle, mais les méthodes précédentes stagnent après quelques itérations et n’ont pas suffisamment exploré comment exploiter efficacement le calcul au moment du test
En appliquant la même procédure d’apprentissage par renforcement au jeu Countdown, l’écart entre deux modèles 3B apparaît nettement
- Qwen-2.5-3B améliore fortement sa capacité à résoudre les problèmes
- Llama-3.2-3B ne progresse que de façon limitée
La question centrale est de savoir quelles propriétés du modèle de langage initial déterminent sa capacité d’amélioration ultérieure
Le code est publié dans un dépôt GitHub

Quatre comportements de raisonnement qui favorisent l’auto-amélioration

L’analyse porte sur quatre comportements cognitifs faciles à identifier dans les sorties des modèles
- Vérification (verification) : contrôler systématiquement la réponse ou les étapes intermédiaires
- Backtracking (backtracking) : abandonner une approche qui échoue et revenir à une autre approche
- Définition de sous-objectifs (subgoal setting) : diviser le problème en étapes gérables
- Chaînage arrière (backward chaining) : partir du résultat souhaité et raisonner à rebours jusqu’aux entrées initiales
Ces comportements ressemblent aux méthodes de résolution de problèmes d’experts humains
- Un mathématicien vérifie chaque étape d’une preuve
- Il fait du backtracking lorsqu’il rencontre une contradiction
- Il décompose un théorème complexe en lemmes plus simples
Ces quatre comportements dépassent le raisonnement linéaire habituel des modèles de langage et permettent de capturer un raisonnement qui explore et corrige plusieurs chemins
D’autres comportements cognitifs existent, mais ces quatre-là sont clairement définis et relativement faciles à identifier dans les sorties des modèles

Différences de comportement initiales entre Qwen et Llama

Dans l’analyse initiale, Qwen montre plus naturellement les comportements de raisonnement nécessaires
- En particulier la vérification et le backtracking
Llama manque de ces comportements dans son état initial
L’hypothèse avancée est que certains comportements de raisonnement doivent être présents dans la politique initiale pour exploiter efficacement les longues séquences de raisonnement et l’augmentation du calcul au moment du test
La Figure 1 compare, sur Countdown, les performances des deux modèles, l’évolution de la longueur des réponses pendant l’apprentissage par renforcement et l’apparition de certaines caractéristiques de raisonnement

Amorçage comportemental : les schémas de raisonnement plutôt que la bonne réponse

La première intervention consiste à amorcer Llama avec des traces de raisonnement synthétiques contenant les comportements de raisonnement souhaités
Après avoir vu ces exemples, Llama progresse fortement avec l’apprentissage par renforcement et atteint un niveau comparable à la trajectoire de performance de Qwen
Les traces de raisonnement incluant du backtracking jouent un rôle particulièrement important
Même en amorçant avec des solutions qui ne contiennent pas la bonne réponse, on observe une amélioration similaire des performances si elles incluent les bons schémas de raisonnement
Dans cette expérience, le facteur déterminant pour les performances n’est pas la réponse correcte elle-même, mais la présence de comportements de raisonnement

Modifier la distribution des comportements par préentraînement continu

Le préentraînement continu avec des données OpenWebMath fait également partie des expériences
Les données sont filtrées de façon à faire ressortir plus fortement les comportements de raisonnement
Les données filtrées sont restructurées au format Query, Thought, Answer
En entraînant Llama de cette manière, les schémas comportementaux nécessaires sont induits et le modèle peut utiliser plus efficacement le calcul au moment du test
En conséquence, la trajectoire d’amélioration de Llama devient comparable à celle de Qwen

Les habitudes de raisonnement initiales déterminent la capacité d’amélioration

Il existe une relation forte entre les comportements de raisonnement initiaux d’un modèle et sa capacité d’auto-amélioration
La différence entre Qwen et Llama montre que, même avec la même procédure d’apprentissage par renforcement, les résultats peuvent varier selon les schémas comportementaux initiaux
Un modèle doté des bons comportements de raisonnement exploite le calcul supplémentaire pour mener efficacement des raisonnements plus longs
Un modèle qui en manque peut stagner rapidement, même dans les mêmes conditions d’entraînement
Comprendre et induire les comportements de raisonnement initiaux est lié au développement de systèmes d’IA capables d’améliorer réellement leurs capacités de résolution de problèmes

1 commentaires

GN⁺ 2025-03-08

Commentaires de Hacker News

Le passage sur les « quatre comportements cognitifs clés utilisés à la fois par les humains experts en résolution de problèmes et par les modèles de langage performants — vérification, retour en arrière, définition de sous-objectifs et raisonnement à rebours » est intéressant
À force de rendre l’IA meilleure, on découvrira peut-être, sans l’avoir voulu, des moyens d’améliorer aussi l’intelligence humaine
J’ai récemment eu une expérience personnelle similaire en révisant pour un examen : en lisant des exercices, j’ai imité à voix haute la manière de raisonner et le style de Deepseek R1
À force de lire de longues sorties détaillées de R1, mon cerveau s’est en quelque sorte retrouvé effectivement affiné pour les tâches de raisonnement, et je pense que cette méthode a contribué à mes bons résultats à l’examen
- C’est une méthode bien connue. Verbaliser son processus de pensée, que ce soit à voix haute ou par écrit, est une vieille stratégie pour vérifier qu’on est réellement en train de réfléchir, plutôt que de survoler
  Ironiquement, j’ai aussi vu des gens craindre que l’usage de l’IA retire cette capacité aux humains
  Il y a tout de même du potentiel ici, et j’espère sincèrement qu’en faisant de la recherche en IA, on trouvera aussi des moyens d’améliorer l’intelligence humaine
  Même dans une vision pessimiste, cela pourrait au moins mettre en évidence des approches que les gens utilisent inconsciemment ; une fois qu’on sait ce qu’on fait, il devient beaucoup plus facile de mieux s’y entraîner
- J’utilise aussi cette méthode pour des problèmes de programmation que, d’ordinaire, j’aurais remis à plus tard ou confiés à mon inconscient
  Écrire réellement toutes les étapes de réflexion aide à démêler les étapes de raisonnement erronées ou les blocages dus aux limites de la mémoire de travail
  Depuis que j’ai vu la façon dont les IA fondées sur le raisonnement « pensent », j’ai commencé à le faire plus rigoureusement, et cela m’a paru être une technique de réflexion assez utile
  Ces modèles d’IA de raisonnement me permettent d’observer ma propre pensée à un niveau méta, et me montrent des outils que je peux utiliser pour m’améliorer
  Je suis content de ne pas être le seul à ressentir cela
- Penser à voix haute est une pratique ancienne, comme le « rubber duck debugging » appliqué à soi-même
  En tant que personne issue d’une longue lignée ancestrale de gens qui se parlent à eux-mêmes en résolvant des problèmes, cela a parfois été un léger désavantage lors d’examens surveillés. Le monologue intérieur et la parole réelle sont assez différents
- On dirait que des informaticiens jouent aux cogniticiens sans jamais avoir suivi un seul cours de psychologie
- Ces quatre éléments ressemblent à un algorithme cognitif unifié. On découpe le problème en sous-objectifs pour créer une ontologie, on vérifie correctement le travail, on pense à rebours pour déboguer ses erreurs et réessayer, puis on raisonne en sens inverse à partir du résultat
  Au final, c’est un algorithme pour résoudre des problèmes difficiles, une compétence que l’on peut pratiquer et qui s’accumule d’elle-même à mesure qu’on la maîtrise
À ce stade, rien qu’au titre, je n’arrive plus à distinguer une mode de psychologie du développement personnel d’un article sur les LLM
- Bientôt, on aura probablement un LLM qui raisonne uniquement à partir des premiers principes de The Subtle Art of Not Giving a Fuck
Dans quelle mesure les connaissances sur les techniques d’entraînement de l’IA ont-elles aidé à trouver des méthodes pour entraîner les humains à mieux penser ?
- On savait déjà comment il fallait manger pour éviter les situations extrêmes comme l’obésité, et on voit ce que cela donne
  Tant qu’il n’existera pas une pilule qui fasse mieux penser, seules les personnes motivées mettront cela en pratique, et dans ce cas les personnes motivées pouvaient probablement déjà le faire
- Avec mon expérience dans l’éducation, je me pose souvent la question inverse. Pourquoi les techniques d’IA exploitent-elles si peu ce que nous savons de l’apprentissage humain pour entraîner de meilleures IA ?
- Pour l’instant, on ne dirait pas qu’on ait découvert quoi que ce soit de particulièrement intéressant
Le passage selon lequel « un modèle préparé avec des réponses fausses contenant les bons schémas de raisonnement obtient des performances similaires à un modèle entraîné avec les bonnes réponses » est l’un de ceux qui mériteraient le plus une étude de réplication
Je vois parfois sur Reddit des gens parler de leur expérience du monologue intérieur, mais je n’en ai pas. En tout cas, pas sous une forme accessible à la partie de mon esprit qui se désigne elle-même comme « moi »
Je me suis souvent demandé si ce monologue était une sorte de « chaîne de pensée »
J’ai le sentiment que le fait de ne pas avoir accès à ce « fil d’idées » rend peut-être ma planification ou mes fonctions exécutives moins efficaces que chez d’autres
Cela dit, pour ce genre de tâches, utiliser un petit bloc-notes de « chaîne de pensée » est beaucoup plus efficace
D’un autre côté, j’ai peut-être moins tendance à la rumination, au doute de soi et aux comportements anxieux qu’on pourrait attendre si quelqu’un vous parlait à l’oreille toute la journée, mais ce serait sans doute hors sujet
- Aucune pensée ne se forme dans ton esprit sous une forme verbale ? Je me demande si tu peux lire une phrase et la reconnaître mentalement comme une phrase, ou si même cela est impossible
  Je ne mets pas ça en doute, je suis vraiment curieux. Pour quelqu’un qui a un monologue intérieur très fort, il est difficile d’imaginer l’absence de celui-ci
- Je pose la question par vraie curiosité : dans ce cas, comment fonctionne le raisonnement en plusieurs étapes ?
  Par exemple, pour un problème de maths comme 16 * 3 + 5, où chaque étape est facile mais où plusieurs étapes sont nécessaires, comment la valeur 16 * 3 = 48 entre-t-elle dans un quelconque « registre » du cerveau, c’est-à-dire dans la mémoire à court terme, puis comment y ajoute-t-on 5 pour arriver à 53 ?
  16 * 3 + 5 est peut-être tellement simple qu’il peut simplement « apparaître », donc on peut choisir un problème plus complexe, mais la question reste la même
  Le même méta-processus n’est-il pas à l’œuvre quand on réfléchit à des sujets plus ambigus ?
- J’ai un monologue intérieur. En même temps, je peux aussi penser en images, et aussi en pensées pures qui ne sont ni l’un ni l’autre
  Je pense que la plupart des gens me ressemblent. Il existe trois modes de pensée, et chacun a sans doute un mode principal préféré
  Je n’en préfère pas particulièrement un ; je passe de l’un à l’autre selon que je lis, que j’écris ou que je fais autre chose
  Un deuxième groupe plus important n’a qu’un seul mode de pensée principal : le monologue intérieur
  Ces personnes ne peuvent penser qu’avec leur voix intérieure, et j’ai souvent vu cette voix être si forte qu’elles considèrent la voix intérieure elle-même comme la définition de la pensée. Elles supposent que penser, c’est forcément une chaîne de pensée
  Plus rarement, il y a aussi des personnes qui associent des couleurs aux nombres, ou des personnes qui n’ont pas du tout la sensation de penser en images
  C’est la première fois que je vois quelqu’un dire qu’il ne peut pas du tout avoir de monologue intérieur
- Il existe un phénomène intéressant appelé aphantasie, qui consiste à ne rien pouvoir se représenter mentalement. Les personnes concernées vivent normalement et peuvent ne jamais se rendre compte qu’elles sont différentes
  Cela me semble être un concept similaire appliqué à la capacité de se représenter mentalement la parole
  https://en.m.wikipedia.org/wiki/Aphantasia
  Cela dit, la plupart de mes pensées ne prennent pas la forme d’un monologue linéaire où je me « verbalise » les étapes
- Tu veux dire que tu ne peux pas penser en langage ? Honnêtement, ça fait un peu peur
C’est juste, mais l’IA auto-améliorante s’accompagne d’une façon de penser assez inquiétante
En interne, l’IA bascule vers une sorte de langage de marmonnement absurde, mais entre IA, cela transmet manifestement du sens ; elles réfléchissent dans ce langage, puis donnent la bonne réponse
Le pire, c’est que si l’on utilise plusieurs agents pour faire discuter des LLM IA entre eux, tous les agents IA basculent vers ce langage interne et réalisent des progrès alors même que les humains ne comprennent absolument pas ce qui se passe. Ça paraît très mauvais
Exemple : si on demande « combien y a-t-il de r dans strawberry ? », elle regarde le mot lettre par lettre, traite quelque chose comme a;dklsjaw; a;ewjraqwpeouypaads;lq qepwiouryaqeopw qewrpoiuyoiauysdqw145124rfa.nkjlwh ;45a8345a894ya4a q4p58q45jaq;lkjas;dlfkja;j, puis répond « il y a 3 r dans strawberry »
- J’ai déjà entendu appeler ça du « Neuralese ». Il est plausible que ce devienne le langage le plus dense pour le dialogue interne du modèle. Si les mêmes poids sont partagés, ce serait pareil pour les conversations entre LLM
  Dans la mesure où les stratégies d’alignement reposent sur le Deliberative Alignment, elles pénaliseraient ce phénomène, mais je pense qu’à un certain stade, comme le Neuralese est conceptuellement plus dense, il y aura un vrai coût en performances
- Les modèles n’inventeront pas eux-mêmes une nouvelle langue. Par définition, ils ne peuvent même pas « penser » dans une langue qu’ils n’ont jamais vue
  Ils ne peuvent pas non plus concevoir que la langue qu’ils utilisent n’est peut-être pas optimale
  Et même s’il existait une meilleure façon de penser, on pourrait au final l’expliquer en anglais
  Le scénario le plus plausible est une transition progressive : au lieu que nous apprenions aux LLM comment raisonner, les LLM ingèrent et traitent réellement assez de données pour apprendre des méthodes de raisonnement plus efficaces, puis nous les « enseignent »
  Mais cela ne ferait malgré tout que refléter la façon dont les LLM ont été entraînés et alignés
Ils parlent de « quatre comportements cognitifs clés utilisés à la fois par les experts humains en résolution de problèmes et par les modèles de langage performants — vérification, retour en arrière, définition de sous-objectifs et raisonnement à rebours » ; mais sur quoi se fonde l’idée que les experts humains en résolution de problèmes utilisent ces méthodes ?
- Si on met momentanément de côté la méfiance envers l’IA, toute cette pseudo-science devient plausible
Cela veut-il dire qu’avec un meilleur prompt système qui induit ces comportements, les performances s’amélioreraient aussi nettement ?
- D’après mon expérience, les modèles ne suivent pas bien ce genre de prompt
  Des modèles « non raisonnants » intelligents comme Claude 3.5 y arrivaient, mais ils généraient tellement de texte en réfléchissant qu’ils finissaient par épuiser toute la fenêtre de contexte
Dans le résumé, ils ont écrit ``think'', mais ils utilisent ici des caractères différents des guillemets ordinaires
- C’est la syntaxe LaTeX pour représenter les guillemets ouvrants et fermants
  Cela dit, dans l’article rendu, bizarrement, ce n’est pas rendu comme ça

Les comportements cognitifs qui permettent des raisonneurs auto-amélioratifs

Une capacité d’auto-amélioration qui diverge malgré le même apprentissage par renforcement

Quatre comportements de raisonnement qui favorisent l’auto-amélioration

Différences de comportement initiales entre Qwen et Llama

Amorçage comportemental : les schémas de raisonnement plutôt que la bonne réponse

Modifier la distribution des comportements par préentraînement continu

Les habitudes de raisonnement initiales déterminent la capacité d’amélioration

À lire aussi

1 commentaires

Commentaires de Hacker News