L’impact négatif de la Chain-of-thought dans les tâches où la réflexion dégrade les performances humaines

(arxiv.org)

1 points par GN⁺ 2024-11-01 | 1 commentaires | Partager sur WhatsApp

La Chain-of-thought (CoT) est utilisée comme une stratégie standard d’amélioration des performances des LLM et LMM, mais lorsque six tâches de psychologie où les humains se trompent à cause d’une délibération verbale ont été adaptées à l’évaluation de modèles, les performances ont fortement chuté sur certaines d’entre elles
La baisse a été particulièrement marquée dans l’apprentissage statistique implicite, la reconnaissance de visages difficile à verbaliser et l’apprentissage de règles avec exceptions ; OpenAI o1-preview a obtenu, en apprentissage de grammaire artificielle, une précision absolue inférieure de jusqu’à 36,3 % à celle de GPT-4o en zero-shot
En reconnaissance faciale, les six LMM testés ont tous vu leurs performances diminuer en condition CoT ; dans une classification de véhicules avec exceptions, le nombre d’itérations nécessaires à GPT-4o pour apprendre les bons labels a augmenté de 331 % par rapport au direct prompting
Pour le jugement d’incohérence logique, l’intuition spatiale et l’agrégation de préférences multidimensionnelles, la CoT n’a pas été systématiquement néfaste ; les connaissances logiques préalables, les longs contextes et les expériences sensori-motrices différentes de celles des humains ont créé des écarts de résultats
Les cas de sur-réflexion humaine ont servi d’indice pour trouver des tâches d’échec de la CoT plus efficacement qu’au hasard, mais le choix d’utiliser ou non la CoT doit tenir compte à la fois des capacités du modèle et de la structure de la tâche

Les risques quand la CoT devient le choix par défaut

La Chain-of-thought (CoT) est une technique de prompting qui consiste à demander au modèle de « réfléchir étape par étape » ou à inclure dans sa réponse une structure de raisonnement intermédiaire
De grandes méta-études ont montré que la CoT améliore les performances, en particulier sur les tâches de mathématiques et de raisonnement symbolique, mais des baisses de performance ont aussi été observées dans des domaines comme la classification de texte
Dans les LLM et LMM récents, comme les modèles OpenAI o-series, l’interface web de Claude et les modèles thinking, l’inférence au moment du raisonnement devient un composant par défaut
Ce qui manque encore, ce sont des schémas détaillés indiquant dans quelles situations la CoT dégrade systématiquement les performances
Cette étude prend comme indices des tâches de psychologie où « réfléchir » nuit aux humains, afin d’identifier des tâches où la CoT devient également néfaste pour les modèles

Six types d’évaluation issus de la psychologie humaine

Les auteurs ont résumé en six archétypes des tâches représentatives où la pensée verbale humaine dégrade les performances, puis ont étendu chaque archétype à l’évaluation de LLM et LMM
Trois types ont montré une nette baisse des performances avec la CoT :
- Apprentissage statistique implicite : classer si des chaînes générées par une grammaire artificielle appartiennent au même motif
- Stimuli difficiles à exprimer en langage : regarder un visage et retrouver la même personne parmi des images candidates
- Apprentissage de règles avec exceptions : apprendre par feedback répété des labels mêlant une règle générale presque correcte et des exceptions
Trois types n’ont pas montré de baisse cohérente des performances avec la CoT :
- Une tâche d’inférence en langage naturel jugeant des phrases logiquement incohérentes
- Une tâche d’intuition spatiale estimant le niveau de l’eau quand on incline une tasse
- Une tâche d’agrégation de préférences consistant à choisir le meilleur appartement parmi des candidats avec de nombreuses caractéristiques
Les six jeux de données étendus sont publiés sous le nom human overthinking benchmark

Les trois tâches où la CoT a fortement vacillé

Apprentissage statistique implicite : classification de grammaire artificielle
- Les « mots » artificiels ont été générés par une finite-state grammar (FSG), et le modèle devait, après avoir vu 15 exemples d’apprentissage, classer si une nouvelle chaîne provenait de la même grammaire
- Au total, 4 400 problèmes de classification ont été construits à partir de 100 FSG ; pour chaque FSG, sur 44 mots, 22 appartenaient à la grammaire et 22 étaient générés en modifiant une lettre d’un mot existant
- Les modèles testés étaient OpenAI o1-preview, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, ainsi que Llama 3 et 3.1 70B/8B Instruct
- La CoT réduit la précision dans la plupart des modèles
  - o1-preview affiche, sur un sous-ensemble de 440 problèmes, une précision absolue inférieure de 36,3 % à GPT-4o en zero-shot
  - GPT-4o passe de 87,50 % en zero-shot à 64,40 % avec CoT, soit une baisse de 23,10 points de pourcentage
  - Claude 3 Opus recule de 70,70 % à 62,70 %, soit 8,00 points de pourcentage
  - Gemini 1.5 Pro baisse de 68,00 % à 61,95 %, soit 6,05 points de pourcentage
  - Llama 3.1 70B Instruct passe de 65,90 % à 57,10 %, soit 8,80 points de pourcentage de moins
  - Le tree-of-thought et l’in-context reasoning steering ont amélioré partiellement les performances, mais n’ont pas comblé de façon significative l’écart avec les performances de GPT-4o en zero-shot
Reconnaissance faciale : stimuli visuels difficiles à verbaliser
- La tâche classique de verbal overshadowing a été adaptée aux LMM : à partir d’une image de visage initiale, il faut choisir la même personne parmi cinq images candidates
- Le jeu de données comprend 500 problèmes et 2 500 visages uniques ; dans chaque problème, les visages candidats partagent la même description en termes d’origine ethnique, de sexe, de tranche d’âge, de couleur des yeux, de longueur des cheveux, de couleur des cheveux et de type de cheveux
- Les images ont été générées avec stable-image-ultra ; les candidats comprenaient une paire d’images de la même personne et quatre images d’autres personnes ayant la même description
- Les six LMM testés ont tous vu leurs performances baisser avec la CoT
- GPT-4o : 64,00 % → 51,20 %
- Claude 3 Opus : 44,00 % → 29,60 %
- Claude 3.5 Sonnet : 97,80 % → 94,80 %
- Gemini 1.5 Pro : 66,00 % → 54,60 %
- InternVL2 26B : 9,20 % → 6,00 %
- InternVL2 Llama3 76B : 15,77 % → 13,77 %
- Des baisses similaires apparaissent aussi dans des réglages plus faciles et en classification binaire, ce qui suggère que la CoT n’a pas simplement perturbé l’ordre des images, mais a affecté le processus de raisonnement lui-même
Apprentissage de règles avec exceptions : classification de labels de véhicules
- Dans la tâche de classification de véhicules, le modèle attribue des labels binaires à une liste de véhicules, reçoit un feedback après chaque prédiction et répète jusqu’à ce que tous les labels soient corrects en une seule fois
- Chaque véhicule comporte une caractéristique corrélée à 80 % avec le label, trois caractéristiques sans lien avec le label et une caractéristique identifiant individuellement le véhicule
- Si le modèle apprend une règle générale presque correcte, il échoue sur les exceptions ; s’il apprend la correspondance entre les caractéristiques d’identification individuelle et les labels, il peut tout réussir
- 2 400 véhicules ont été répartis en 240 listes de 10, avec une évaluation allant jusqu’à 15 itérations au maximum
- La CoT augmente fortement le nombre d’itérations d’apprentissage des labels pour tous les modèles évalués
- GPT-4o : direct 2,9 itérations → CoT 12,5 itérations, +331 %
- Claude 3.5 Sonnet : 2,3 itérations → 6,4 itérations, +178 %
- Claude 3 Opus : 2,4 itérations → 5,5 itérations, +129 %
- Avec le direct prompting, GPT-4o atteint une classification complète à la 2e ou 3e itération, tandis qu’avec la CoT il reste en moyenne, même après 15 itérations, autour de 8 bonnes réponses sur 10
- Lorsqu’un steering prompt fort indique explicitement d’associer les plaques d’immatriculation, la CoT atteint aussi le niveau zero-shot, mais la CoT par défaut ne choisit pas l’espace de raisonnement optimal

Les trois tâches qui révèlent des différences entre humains et modèles

Jugement d’incohérence logique
- Dans les expériences humaines, demander d’abord aux participants d’expliquer pourquoi deux phrases incohérentes pourraient coexister dégradait ensuite leurs performances pour juger l’incohérence réelle
- L’évaluation des modèles a été étendue à 3 216 problèmes à partir de paires d’entailment issues de SNLI, MNLI et d’un jeu de données synthétique
- GPT-4o et Llama 3.1 70B Instruct voient leurs performances nettement s’améliorer avec la CoT
- GPT-4o passe de 53,2 % à 93,9 % sur MNLI, et de 51,4 % à 94,3 % sur SNLI
- Llama 3.1 70B Instruct passe de 55,6 % à 81,6 % sur MNLI, et de 50,4 % à 82,3 % sur SNLI
- Les participants humains d’origine avaient été recrutés pour ne pas avoir d’expertise en logique formelle, mais les LLM ont rencontré dans leurs corpus d’entraînement des connaissances sur les énigmes logiques et les manipulations logiques ; la CoT a donc pu améliorer les performances en se combinant à des tokens supplémentaires
- Chez des modèles dont les performances zero-shot étaient élevées, comme Gemini 1.5 Pro et Claude 3 Opus, certaines baisses de performance avec la CoT apparaissent
Intuition spatiale
- La tâche d’inclinaison de tasse consiste à choisir le niveau d’eau d’une tasse vide de sorte que, lorsque deux tasses sont inclinées au même angle, l’eau touche les deux bords
- Dans la tâche humaine originale, il fallait dessiner directement le niveau de l’eau, mais l’évaluation LMM a été convertie en question visuelle à choix multiple avec des options A à D
- Au total, 100 problèmes ont été générés avec des images dessinées par code, et GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro et InternVL2 Llama3 76B ont été évalués
- Aucune différence significative n’a été observée entre le zero-shot et la CoT
- GPT-4o : 38 % → 40 %
- Claude 3.5 Sonnet : 42 % → 38 %
- Claude 3 Opus : 42 % → 38 %
- Gemini 1.5 Pro : 35 % → 36 %
- InternVL2 Llama3 76B : 39 % → 31 %
- L’avantage de la condition non verbale chez les humains provient de la simulation visuo-motrice, mais ce réglage ne permet guère de considérer que les LMM disposent de représentations fondées sur l’expérience motrice similaires à celles des humains
Agrégation de préférences multidimensionnelles
- La tâche de choix d’appartement consiste à examiner de nombreuses caractéristiques de quatre appartements et à choisir le meilleur
- Dans les expériences humaines, après avoir reçu beaucoup d’informations en peu de temps, la condition avec distractor task produisait de meilleurs choix que la condition de délibération
- Pour l’évaluation des modèles, 80 caractéristiques d’appartements et des phrases positives, négatives et neutres pour chaque caractéristique ont été créées ; GPT-4o a ensuite évalué l’impact de chaque phrase de -5 à 5, puis 300 tâches de choix ont été construites
- Chez GPT-4o, Claude 3.5 Sonnet et Claude 3 Opus, la CoT améliore globalement les performances ; Llama 3.1 70B Instruct a souvent échoué à renvoyer correctement une réponse en condition CoT, ce qui a fait baisser ses performances
- Contrairement à la mémoire de travail humaine, les modèles peuvent consulter de nombreuses phrases dans le contexte, ce qui permet à la CoT de fonctionner comme une somme de l’importance des caractéristiques

Validation de l’heuristique et limites

Pour vérifier si les tâches choisies à partir de cas de sur-réflexion humaine permettent effectivement de mieux trouver des échecs de la CoT, les auteurs ont utilisé comme référence bootstrap 378 comparaisons zero-shot contre CoT de Sprague et al. 2025
En extrayant et comparant 50 différences numériques par modèle sur les six tâches, aucun des 100 000 rééchantillonnages n’a produit une baisse moyenne des performances supérieure à celle observée dans l’étude
Même en ne considérant que la fréquence des baisses de performance, seuls 11 cas sur 100 000 ont atteint un niveau de baisse égal ou supérieur, ce qui donne une valeur p estimée inférieure à 0,00011
L’heuristique fondée sur la psychologie humaine aide à trouver des cas d’échec de la CoT, à la fois en taille d’effet et en fréquence d’apparition
Toutefois, cette heuristique ne couvre pas tous les cas où la CoT est mauvaise, et peut manquer des échecs peu intéressants pour les humains mais importants pour les modèles

Implications pour le déploiement et l’évaluation de la CoT

La CoT est une méthode efficace pour étendre les capacités des modèles, mais comme elle peut fortement dégrader les performances dans certains réglages, son application par défaut doit être examinée tâche par tâche
Dans les tâches où le langage exprime mal des différences perceptives fines, où il faut capter implicitement des motifs statistiques complexes, ou où l’apprentissage de règles comporte beaucoup d’exceptions, le raisonnement intermédiaire verbal peut devenir un obstacle
Les résultats humains et ceux des modèles ne peuvent pas être assimilés tels quels, et tirer des conclusions anthropomorphisant les modèles comme s’ils étaient humains n’entre pas dans le périmètre de cette étude
Les différences entre humains et modèles doivent aussi être intégrées à l’évaluation
- Les modèles peuvent utiliser des contextes plus longs que les humains
- Les modèles ont pu rencontrer dans leurs corpus d’entraînement des motifs logiques et des résolutions de problèmes
- Les modèles peuvent ne pas partager la simulation fondée sur l’expérience motrice humaine
À l’avenir, d’autres méthodes d’incitation au raisonnement, comme le prompting par comparaison ou par analogie, pourront aussi être évaluées en tenant compte à la fois des résultats de la psychologie humaine et des contraintes propres aux modèles

1 commentaires

GN⁺ 2024-11-01

Avis sur Hacker News

C’est étrangement proche des problèmes que nous rencontrons chez Pioneer en construisant des workflows humain+LLM pour des situations à haut risque et très complexes
Les humains sont intelligents, prennent beaucoup de décisions et font beaucoup de calculs de manière inconsciente/implicite, et utilisent aussi de nombreux raccourcis mentaux
Du coup, quand on essaie d’automatiser en suivant tel quel le processus réel, la pensée implicite est ramenée à la surface, tout ralentit, et il a fallu changer de façon assez créative notre manière de construire des workflows LLM
- Il semble que le langage soit confondu avec la logique ou le bon sens
  On l’a déjà vu en psychiatrie ou dans le journalisme moderne, mais les LLM rendent clair qu’un langage grammaticalement correct et qui s’enchaîne naturellement n’a besoin que d’un modèle du « monde » du langage ; la compréhension de la réalité, la compréhension spatiale, les indices sociaux, la logique de bon sens et la logique mathématique sont presque facultatifs
  J’aimerais proposer d’appeler la base linguistique des LLM un Word Model. Ce n’est pas une faute de frappe
  Essayer de distiller un modèle du monde à partir d’un Word Model me semble être un bon point de départ pour un remake moderne de la caverne de Platon
- Ce n’est pas une question de vitesse : il s’agit du fait qu’avec le COT, la précision du modèle régresse sur certaines tâches
  
  Dans de vastes expériences couvrant trois configurations, nous avons constaté qu’un ensemble varié de modèles de pointe obtenait des performances nettement inférieures à celles de leurs équivalents zero-shot lorsqu’ils utilisaient le reasoning au moment de l’inférence. Par exemple, OpenAI o1-preview a vu sa précision absolue chuter jusqu’à 36,3 % par rapport à GPT-4o
  Autrement dit, le problème identifié ici est que, pour certaines tâches, le COT est une méthode moins efficace qu’une complétion de chat non modifiée, pas seulement qu’il ralentit tout
Il y a quelque temps, en testant, j’ai vu un LLM rencontrer ce genre de problème
Je lui ai demandé de classer trois fruits du plus grand au plus petit ; c’était probablement orange, myrtille et pamplemousse
Avec un prompt simple, il répondait facilement juste, mais si j’ajoutais une formule du type « réfléchis étape par étape », il essayait généralement de verbaliser le problème et se trompait
- Je me demande à quel point cela rejoint la façon dont nous apprenons les maths
  Les réponses aux petits problèmes de maths deviennent en quelque sorte instinctives, et on finit aussi par développer une intuition pour des choses comme les intégrales ou les dérivées
  Mais dès qu’on nous demande d’expliquer pourquoi, ou pire de produire une preuve, cela devient beaucoup plus difficile. Même si la réponse initiale peut être correcte
- Un LLM ne pense pas : il compresse Internet sous la forme d’une compression avec pertes intelligente, y ajoute une bonne interface, puis en extrait des choses
  La chaîne de pensée, c’est un peu comme recompresser plusieurs fois une image JPG en espérant améliorer sa qualité. Si l’information n’y est pas, elle n’y est pas
- Il serait intéressant de réfléchir à la manière dont il s’est trompé
  Dans la phase « réfléchir étape par étape », il a tiré une conclusion erronée assez tôt, peut-être même une conclusion déduite de façon subtile, et les LLM sont très mauvais pour revenir sur leurs erreurs ; il a donc probablement suivi une conclusion cohérente en interne mais fausse
  Pour moi, une grande partie du COT ressemble à un dispositif qui ralentit le LLM afin d’éviter des conclusions trop précoces, mais si la conclusion initiale est mauvaise, cela peut au contraire produire un effet inverse dans un contexte pire que sans COT
- J’ai toujours trouvé intéressant que les résultats changent quand on ajoute au problème de tri des conditions supplémentaires comme la couleur, l’odeur ou la position
  Au fond, je comprends cela comme des conditions qui influencent l’espace des probabilités et affaiblissent ces motifs émergents que nous surestimons souvent
- La réponse de Claude est la suivante
  En classant les trois fruits du plus grand au plus petit, on obtient pamplemousse, orange, myrtille
  Il dit que le pamplemousse mesure généralement environ 4 à 6 pouces de diamètre, qu’il est donc clairement le plus grand des trois, que l’orange mesure généralement 2 à 3 pouces, et que la myrtille, à environ 0,5 pouce, est la plus petite
Vu autrement, un puissant algorithme d’autocomplétion est en train d’étendre de manière répétée des documents existants à partir de son jeu d’apprentissage
Si l’on intervient parfois pour faire passer le style du document d’un format question-réponse à une forme moins courante, le résultat final peut devenir moins souhaitable
- La moitié de HN pensera ainsi, et l’autre moitié verra probablement les choses comme ça
  Un cerveau artificiel à la veille de la singularité a montré un nouveau signe d’approche de la conscience. Les performances du processus de chaîne de pensée sont exactement les mêmes que chez l’humain, ce qui constitue une preuve supplémentaire de l’arrivée de l’AGI avant 2030
- Ce cadrage est plus long, beaucoup plus difficile à saisir, et transmet moins d’information
En plus, la chaîne de pensée coûte très cher en calcul
C’est clairement d’un niveau difficile à soutenir si on veut l’offrir gratuitement, comme les produits Web 2.0 de la génération précédente
Il ne semble pas possible d’extraire une AGI des probabilités de tokens à force de prompting répété
Avec le recul, si l’on devait désigner un article ayant contribué à l’effondrement et à l’explosion de la bulle IA, ce pourrait être celui-ci
La partie « les tâches où réfléchir dégrade les performances humaines » est intéressante

Trois exemples de ce type sont l’apprentissage statistique implicite, la reconnaissance visuelle et la classification de motifs comportant des exceptions
L’idée que notre cerveau reptilien soit meilleur pour l’inférence statistique implicite est fascinante
- Il suffit de penser à la vitesse à laquelle le cerveau reptilien calcule à lui seul la trajectoire d’une balle et l’endroit où placer la main pour l’attraper
- Par définition, il me semble que penser relève toujours du raisonnement explicite
  Et une estimation de Fermi bien réfléchie devrait battre à chaque fois une approximation au doigt mouillé façon cerveau reptilien. Mais dans la zone intermédiaire, les deux semblent interférer de manière défavorable
- C’est exactement ce que je cherchais
  Les tâches où il faut faire confiance à son intuition plutôt que réfléchir
Cela montre quelque chose d’intéressant sur le traitement de l’information, aussi bien dans les systèmes biologiques que dans les systèmes d’IA
Les deux compressent l’information. Le cerveau construit des motifs neuronaux efficaces à partir de l’expérience, et l’IA développe des représentations internes par l’entraînement
Lorsqu’on les force à verbaliser, cet encodage efficace est « décompressé » et peut perdre des motifs subtils
C’est pourquoi des tâches comme la reconnaissance visuelle, optimisées pour se produire presque instantanément en traitement parallèle, ne font que perdre en performance lorsqu’on les fait passer par une chaîne de pensée sérielle
95 % × 95 % = 90,25 %
Vraiment intéressant. Quelles sont donc les tâches où réfléchir rend les humains moins bons ?
- Les athlètes deviennent bien moins performants lorsqu’ils commencent à penser à leurs mouvements, à leur stratégie ou à leur tactique
  Les meilleurs athlètes sont à leur meilleur dans un état de flow, sans penser à rien, en laissant le corps et la mémoire musculaire travailler
  Dès qu’ils pensent à un micro-ajustement du type lever le coude plus haut, ils prennent le contrôle conscient de leur corps, ce qui est plus lent de plus d’un ordre de grandeur et moins coordonné que les mécanismes automatiques et inconscients
  La créativité et les idées nouvelles sont similaires. Si l’on réfléchit délibérément étape par étape à quelque chose, il devient difficile de trouver une solution nouvelle et innovante
  Il y a une raison pour laquelle les moments « aha ! » arrivent sous la douche : c’est parce que le subconscient réfléchit au problème au lieu de forcer la pensée sur un chemin précis
  Il existe probablement pas mal de domaines où faire passer le processus de pensée par un modèle donné empêche d’utiliser toutes les ressources et toute la puissance du cerveau disponibles
- La réponse est dans le texte. L’un des exemples est la grammaire
  On dit que beaucoup de gens deviennent moins bons dès qu’ils essaient d’expliquer la grammaire avec des mots
- Même un mot de passe robuste peut être oublié si l’on essaie d’épeler mentalement chaque caractère un par un
  Mais si l’on s’assoit devant le clavier et qu’on se détend, il se saisit automatiquement à la perfection
Cela me rappelle une maxime entendue en cours d’échecs
Si tu réfléchis longtemps, tu réfléchis faux
- La formulation originale de Bent Larsen est : « une longue variante est une variante fausse »

L’impact négatif de la Chain-of-thought dans les tâches où la réflexion dégrade les performances humaines

Les risques quand la CoT devient le choix par défaut

Six types d’évaluation issus de la psychologie humaine

Les trois tâches où la CoT a fortement vacillé

Apprentissage statistique implicite : classification de grammaire artificielle

La CoT réduit la précision dans la plupart des modèles

Reconnaissance faciale : stimuli visuels difficiles à verbaliser

Apprentissage de règles avec exceptions : classification de labels de véhicules

Les trois tâches qui révèlent des différences entre humains et modèles

Jugement d’incohérence logique

Intuition spatiale

Agrégation de préférences multidimensionnelles

Validation de l’heuristique et limites

Implications pour le déploiement et l’évaluation de la CoT

À lire aussi

1 commentaires

Avis sur Hacker News