LLM, théorie de l’esprit (Theory of Mind) et l’anniversaire de Cheryl

(github.com/norvig)

5 points par GN⁺ 2024-10-06 | 4 commentaires | Partager sur WhatsApp

Un vif débat existe sur le degré selon lequel les grands modèles de langage (LLM) comprennent la théorie de l’esprit (Theory of Mind), c’est-à-dire la façon dont ils appréhendent ce que les autres savent ou ignorent
Ce notebook explore un aspect de cette question en demandant à 9 chatbots LLM de résoudre le problème de l’anniversaire de Cheryl (un célèbre puzzle logique dans lequel les personnages ont des états de connaissance différents à des moments différents)

Résumé des performances des LLM

Tous les LLM connaissaient déjà le problème, il n’a donc pas été nécessaire de l’expliquer dans le prompt ; il suffisait d’en mentionner le nom
La plupart se souvenaient correctement de la bonne réponse, le 16 juillet
En revanche, aucun n’a été capable d’écrire un programme permettant de trouver la solution
Aucun des LLM n’a réussi à distinguer les différents états de connaissance des personnages au fil du temps
Au moins pour ce problème, les LLM n’avaient pas de théorie de l’esprit (ce qui peut venir du fait qu’il existe très peu de programmes Python traitant de théorie de l’esprit dans les données d’entraînement des LLM)

Résumé des réponses par LLM

Humain réel

Peut résoudre correctement le problème d’origine et écrire un programme capable de traiter aussi de nouveaux ensembles de dates ainsi que d’autres variantes du problème
A introduit le concept de BeliefState, c’est-à-dire l’ensemble des dates possibles qu’une personne pense pouvoir être l’anniversaire
A modélisé les déclarations des personnages comme des fonctions prenant une date précise en entrée et renvoyant true si elle est compatible avec la déclaration

ChatGPT 4o

Commence par un excellent résumé du problème
A essayé d’écrire une solution généralisée, mais n’a pas réussi à suivre les différents états de croyance des personnages au fil du temps

Microsoft Copilot

A commis une erreur similaire à celle de ChatGPT

Gemini Advanced

Était intéressant par sa définition de plusieurs fonctions, mais n’a pas correctement géré l’évolution des états au fil du temps

Meta Llama 405B

N’a pas trouvé de solution

Claude 3.5 Sonnet

Était intéressant car il essayait explicitement des exemples avec différentes dates, mais pour le deuxième exemple, il a seulement indiqué par hasard, et correctement, qu’il n’y avait pas de solution

Perplexity

Semblait prometteur avec des variables distinctes albert_knows et bernard_knows, mais n’a pas su traiter correctement le problème
Accepte les dates possibles en paramètre, mais ignore l’entrée et définit month_days à partir des dates d’origine

HuggingFace Chat

Était le seul modèle à proposer une définition de classe, mais a tout de même commis une erreur similaire
Accepte une liste de dates possibles dans le constructeur, mais code en dur les mois et jours spécifiques au problème d’origine

You.com

A commis des erreurs similaires à celles des autres modèles, mais au final, au lieu de ne choisir aucune date, a choisi une mauvaise date

Avis de GN+

Ce problème constitue une manière intéressante d’évaluer les capacités théoriques de théorie de l’esprit des LLM
Tous les LLM se souvenaient de la bonne réponse, mais aucun n’a pu produire un programme suivant l’évolution des états de connaissance des personnages dans le temps
Cela peut venir du fait que ce type de raisonnement n’est pas présent dans les échantillons de code sur lesquels les LLM ont été entraînés
Pour améliorer les performances des LLM sur ce type de problème de raisonnement, il pourrait être utile de les entraîner avec des programmes traitant explicitement ce genre de scénarios
Il faut tester davantage de problèmes similaires pour élargir notre compréhension des capacités théoriques de théorie de l’esprit des LLM

4 commentaires

comsect62 2024-10-08

Comme il s’agit d’une industrie d’avenir de pointe, c’est comme construire quelque chose d’inconnu sur un terrain vierge. Cela exige aussi une imagination logique. Pensez au fondateur d’Apple.

moderator 2024-10-08

Des mots publicitaires étant présents, cela a été exclu.

xguru 2024-10-07

L’anniversaire de Cheryl est devenu célèbre après avoir figuré dans un problème de l’Olympiade de mathématiques de Singapour en 2015, au point d’avoir sa propre page Wikipédia.
(Il paraît qu’il existe en réalité une version antérieure datant de 2006.)

https://en.wikipedia.org/wiki/Cheryl%27s_Birthday

Le problème est le suivant.

Albert et Bernard sont devenus amis avec Cheryl et lui demandent sa date d’anniversaire.
Cheryl leur donne dix dates.

15 mai, 16 mai, 19 mai
17 juin, 18 juin
14 juillet, 16 juillet
14 août, 15 août, 17 août

Cheryl a indiqué à Albert le « mois » de son anniversaire, et à Bernard le « jour ».

Albert : Je ne sais pas quand est l’anniversaire de Cheryl, mais je sais que Bernard ne le sait pas non plus.
Bernard : Moi non plus, au début, je ne savais pas quand était l’anniversaire de Cheryl. Mais maintenant, je le sais.
Albert : Alors moi aussi, maintenant, je sais quand est l’anniversaire de Cheryl.

Quand est l’anniversaire de Cheryl ?

GN⁺ 2024-10-06

Discussion sur Hacker News

Il y a longtemps, j’ai créé une version intitulée "Cheryl's Murder". Un notebook peut résoudre et générer des problèmes d’induction logique comme "Cheryl's Birthday"
Gp1-o1 a résolu correctement ce puzzle en 13 secondes, avec un raisonnement logique et une explication très rigoureux. Je pense qu’il n’est pas juste de lui demander d’extraire la définition du puzzle depuis les données d’entraînement
o1 mini a résolu le puzzle dès la première tentative et fonctionne avec l’exemple fourni dans le notebook
- La fonction find_cheryls_birthday analyse les dates possibles pour trouver l’anniversaire de Cheryl
Le problème de l’évaluation des LLM est que les éléments aléatoires et la formulation précise du prompt comptent beaucoup. J’ai demandé à Claude d’expliquer le problème et d’écrire du code Python ; une exception s’est produite, mais après correction, il a donné la bonne réponse
Je pense que ce cas de test n’est pas approprié, car l’exemple Python est facilement accessible dans les données d’entraînement. Il est intéressant que le modèle ne parvienne pas à le résoudre
Les LLM et le NLP jouent, dans le raisonnement linguistique, un rôle comparable à celui d’une calculatrice. Le langage naturel comporte de l’ambiguïté et une grande souplesse sémantique. Demander de résoudre un problème de mathématiques formulé en phrases est une perte de temps
Les attentes concernant les progrès de l’IA continuent d’évoluer. Les LLM sont plus intelligents qu’un humain moyen et peuvent surpasser l’humain dans des tâches cognitives concrètes
Tirer des conclusions du fait qu’un LLM ne sait pas répondre à une question précise risque d’échouer face au principe du « ce sera possible à l’itération suivante »
Ce problème n’est qu’un problème de logique, pas un véritable test de « théorie de l’esprit ». Il est possible que les LLM aient la capacité de modéliser le comportement humain
Claude 3.5 Sonnet a résolu le problème dès la première tentative et a écrit un programme Python générant l’ensemble des dates valides. Il n’a eu aucune difficulté à résoudre ce problème