- Un vif débat existe sur le degré selon lequel les grands modèles de langage (LLM) comprennent la théorie de l’esprit (Theory of Mind), c’est-à-dire la façon dont ils appréhendent ce que les autres savent ou ignorent
- Ce notebook explore un aspect de cette question en demandant à 9 chatbots LLM de résoudre le problème de l’anniversaire de Cheryl (un célèbre puzzle logique dans lequel les personnages ont des états de connaissance différents à des moments différents)
Résumé des performances des LLM
- Tous les LLM connaissaient déjà le problème, il n’a donc pas été nécessaire de l’expliquer dans le prompt ; il suffisait d’en mentionner le nom
- La plupart se souvenaient correctement de la bonne réponse, le 16 juillet
- En revanche, aucun n’a été capable d’écrire un programme permettant de trouver la solution
- Aucun des LLM n’a réussi à distinguer les différents états de connaissance des personnages au fil du temps
- Au moins pour ce problème, les LLM n’avaient pas de théorie de l’esprit (ce qui peut venir du fait qu’il existe très peu de programmes Python traitant de théorie de l’esprit dans les données d’entraînement des LLM)
Résumé des réponses par LLM
Humain réel
- Peut résoudre correctement le problème d’origine et écrire un programme capable de traiter aussi de nouveaux ensembles de dates ainsi que d’autres variantes du problème
- A introduit le concept de
BeliefState, c’est-à-dire l’ensemble des dates possibles qu’une personne pense pouvoir être l’anniversaire
- A modélisé les déclarations des personnages comme des fonctions prenant une date précise en entrée et renvoyant
true si elle est compatible avec la déclaration
ChatGPT 4o
- Commence par un excellent résumé du problème
- A essayé d’écrire une solution généralisée, mais n’a pas réussi à suivre les différents états de croyance des personnages au fil du temps
Microsoft Copilot
- A commis une erreur similaire à celle de ChatGPT
Gemini Advanced
- Était intéressant par sa définition de plusieurs fonctions, mais n’a pas correctement géré l’évolution des états au fil du temps
Meta Llama 405B
- N’a pas trouvé de solution
Claude 3.5 Sonnet
- Était intéressant car il essayait explicitement des exemples avec différentes dates, mais pour le deuxième exemple, il a seulement indiqué par hasard, et correctement, qu’il n’y avait pas de solution
Perplexity
- Semblait prometteur avec des variables distinctes
albert_knows et bernard_knows, mais n’a pas su traiter correctement le problème
- Accepte les dates possibles en paramètre, mais ignore l’entrée et définit
month_days à partir des dates d’origine
HuggingFace Chat
- Était le seul modèle à proposer une définition de classe, mais a tout de même commis une erreur similaire
- Accepte une liste de dates possibles dans le constructeur, mais code en dur les mois et jours spécifiques au problème d’origine
You.com
- A commis des erreurs similaires à celles des autres modèles, mais au final, au lieu de ne choisir aucune date, a choisi une mauvaise date
Avis de GN+
- Ce problème constitue une manière intéressante d’évaluer les capacités théoriques de théorie de l’esprit des LLM
- Tous les LLM se souvenaient de la bonne réponse, mais aucun n’a pu produire un programme suivant l’évolution des états de connaissance des personnages dans le temps
- Cela peut venir du fait que ce type de raisonnement n’est pas présent dans les échantillons de code sur lesquels les LLM ont été entraînés
- Pour améliorer les performances des LLM sur ce type de problème de raisonnement, il pourrait être utile de les entraîner avec des programmes traitant explicitement ce genre de scénarios
- Il faut tester davantage de problèmes similaires pour élargir notre compréhension des capacités théoriques de théorie de l’esprit des LLM
4 commentaires
Comme il s’agit d’une industrie d’avenir de pointe, c’est comme construire quelque chose d’inconnu sur un terrain vierge. Cela exige aussi une imagination logique. Pensez au fondateur d’Apple.
Des mots publicitaires étant présents, cela a été exclu.
L’anniversaire de Cheryl est devenu célèbre après avoir figuré dans un problème de l’Olympiade de mathématiques de Singapour en 2015, au point d’avoir sa propre page Wikipédia.
(Il paraît qu’il existe en réalité une version antérieure datant de 2006.)
https://en.wikipedia.org/wiki/Cheryl%27s_Birthday
Le problème est le suivant.
Albert et Bernard sont devenus amis avec Cheryl et lui demandent sa date d’anniversaire.
Cheryl leur donne dix dates.
Cheryl a indiqué à Albert le « mois » de son anniversaire, et à Bernard le « jour ».
Albert : Je ne sais pas quand est l’anniversaire de Cheryl, mais je sais que Bernard ne le sait pas non plus.
Bernard : Moi non plus, au début, je ne savais pas quand était l’anniversaire de Cheryl. Mais maintenant, je le sais.
Albert : Alors moi aussi, maintenant, je sais quand est l’anniversaire de Cheryl.
Quand est l’anniversaire de Cheryl ?
Discussion sur Hacker News
find_cheryls_birthdayanalyse les dates possibles pour trouver l’anniversaire de Cheryl