Effets négatifs du Chain-of-Thought dans les tâches où la réflexion dégrade les performances humaines
(arxiv.org)Chain-of-Thought et baisse de performance
-
Aperçu du Chain-of-Thought (CoT)
- Le CoT est une stratégie largement utilisée dans les grands modèles de langage et multimodaux.
- Il est connu pour améliorer les performances sur de nombreuses tâches, mais déterminer dans quels contextes il est réellement efficace reste une question ouverte.
-
Objectif de la recherche
- Identifier les caractéristiques des tâches pour lesquelles le CoT peut dégrader les performances du modèle.
- En s'inspirant de la psychologie cognitive, l'étude examine : (i) les cas où la pensée verbale ou la délibération nuit aux performances humaines, et (ii) les cas où les contraintes qui dominent les performances humaines se généralisent aux modèles de langage.
-
Principaux cas étudiés
- Trois cas ont été testés : l'apprentissage statistique implicite, la reconnaissance visuelle et la classification de motifs avec exceptions.
- Les auteurs constatent une forte baisse de performance dans divers modèles de pointe lorsqu'ils utilisent une réflexion explicite au moment du raisonnement (par exemple, OpenAI o1-preview affiche jusqu'à 36,3 % de baisse absolue de précision par rapport à GPT-4o).
-
Autres résultats
- Trois tâches ont été identifiées où la condition (i) est satisfaite mais pas la condition (ii).
- Dans ces tâches, bien que la pensée verbale dégrade les performances humaines, le CoT maintient ou améliore les performances des modèles.
-
Conclusion
- Même s'il n'existe pas de parallèle exact entre les processus cognitifs des modèles et ceux des humains, examiner les cas où la réflexion nuit aux performances humaines aide à identifier les contextes où elle peut aussi nuire aux modèles.
- En reliant la littérature sur la délibération humaine à l'évaluation du CoT, cette étude fournit un nouvel outil pour comprendre le choix des prompts et l'effet de la réflexion lors du raisonnement.
Résumé de GN⁺
- Cette étude montre que le CoT n'améliore pas les performances des modèles dans toutes les situations.
- Elle suggère qu'il pourrait être possible de prédire les baisses de performance des modèles à partir des cas où la réflexion humaine a un effet négatif.
- Il est intéressant de mobiliser les enseignements de la psychologie cognitive pour mieux comprendre l'effet du CoT.
- Parmi les projets aux fonctionnalités similaires, divers modèles de langage d'OpenAI sont recommandés.
Aucun commentaire pour le moment.