5 points par GN⁺ 2024-10-06 | 4 commentaires | Partager sur WhatsApp
  • Un vif débat existe sur le degré selon lequel les grands modèles de langage (LLM) comprennent la théorie de l’esprit (Theory of Mind), c’est-à-dire la façon dont ils appréhendent ce que les autres savent ou ignorent
  • Ce notebook explore un aspect de cette question en demandant à 9 chatbots LLM de résoudre le problème de l’anniversaire de Cheryl (un célèbre puzzle logique dans lequel les personnages ont des états de connaissance différents à des moments différents)

Résumé des performances des LLM

  • Tous les LLM connaissaient déjà le problème, il n’a donc pas été nécessaire de l’expliquer dans le prompt ; il suffisait d’en mentionner le nom
  • La plupart se souvenaient correctement de la bonne réponse, le 16 juillet
  • En revanche, aucun n’a été capable d’écrire un programme permettant de trouver la solution
  • Aucun des LLM n’a réussi à distinguer les différents états de connaissance des personnages au fil du temps
  • Au moins pour ce problème, les LLM n’avaient pas de théorie de l’esprit (ce qui peut venir du fait qu’il existe très peu de programmes Python traitant de théorie de l’esprit dans les données d’entraînement des LLM)

Résumé des réponses par LLM

Humain réel

  • Peut résoudre correctement le problème d’origine et écrire un programme capable de traiter aussi de nouveaux ensembles de dates ainsi que d’autres variantes du problème
  • A introduit le concept de BeliefState, c’est-à-dire l’ensemble des dates possibles qu’une personne pense pouvoir être l’anniversaire
  • A modélisé les déclarations des personnages comme des fonctions prenant une date précise en entrée et renvoyant true si elle est compatible avec la déclaration

ChatGPT 4o

  • Commence par un excellent résumé du problème
  • A essayé d’écrire une solution généralisée, mais n’a pas réussi à suivre les différents états de croyance des personnages au fil du temps

Microsoft Copilot

  • A commis une erreur similaire à celle de ChatGPT

Gemini Advanced

  • Était intéressant par sa définition de plusieurs fonctions, mais n’a pas correctement géré l’évolution des états au fil du temps

Meta Llama 405B

  • N’a pas trouvé de solution

Claude 3.5 Sonnet

  • Était intéressant car il essayait explicitement des exemples avec différentes dates, mais pour le deuxième exemple, il a seulement indiqué par hasard, et correctement, qu’il n’y avait pas de solution

Perplexity

  • Semblait prometteur avec des variables distinctes albert_knows et bernard_knows, mais n’a pas su traiter correctement le problème
  • Accepte les dates possibles en paramètre, mais ignore l’entrée et définit month_days à partir des dates d’origine

HuggingFace Chat

  • Était le seul modèle à proposer une définition de classe, mais a tout de même commis une erreur similaire
  • Accepte une liste de dates possibles dans le constructeur, mais code en dur les mois et jours spécifiques au problème d’origine

You.com

  • A commis des erreurs similaires à celles des autres modèles, mais au final, au lieu de ne choisir aucune date, a choisi une mauvaise date

Avis de GN+

  • Ce problème constitue une manière intéressante d’évaluer les capacités théoriques de théorie de l’esprit des LLM
  • Tous les LLM se souvenaient de la bonne réponse, mais aucun n’a pu produire un programme suivant l’évolution des états de connaissance des personnages dans le temps
  • Cela peut venir du fait que ce type de raisonnement n’est pas présent dans les échantillons de code sur lesquels les LLM ont été entraînés
  • Pour améliorer les performances des LLM sur ce type de problème de raisonnement, il pourrait être utile de les entraîner avec des programmes traitant explicitement ce genre de scénarios
  • Il faut tester davantage de problèmes similaires pour élargir notre compréhension des capacités théoriques de théorie de l’esprit des LLM

4 commentaires

 
comsect62 2024-10-08

Comme il s’agit d’une industrie d’avenir de pointe, c’est comme construire quelque chose d’inconnu sur un terrain vierge. Cela exige aussi une imagination logique. Pensez au fondateur d’Apple.

 
moderator 2024-10-08

Des mots publicitaires étant présents, cela a été exclu.

 
xguru 2024-10-07

L’anniversaire de Cheryl est devenu célèbre après avoir figuré dans un problème de l’Olympiade de mathématiques de Singapour en 2015, au point d’avoir sa propre page Wikipédia.
(Il paraît qu’il existe en réalité une version antérieure datant de 2006.)

https://en.wikipedia.org/wiki/Cheryl%27s_Birthday

Le problème est le suivant.

Albert et Bernard sont devenus amis avec Cheryl et lui demandent sa date d’anniversaire.
Cheryl leur donne dix dates.

  • 15 mai, 16 mai, 19 mai
  • 17 juin, 18 juin
  • 14 juillet, 16 juillet
  • 14 août, 15 août, 17 août

Cheryl a indiqué à Albert le « mois » de son anniversaire, et à Bernard le « jour ».

Albert : Je ne sais pas quand est l’anniversaire de Cheryl, mais je sais que Bernard ne le sait pas non plus.
Bernard : Moi non plus, au début, je ne savais pas quand était l’anniversaire de Cheryl. Mais maintenant, je le sais.
Albert : Alors moi aussi, maintenant, je sais quand est l’anniversaire de Cheryl.

Quand est l’anniversaire de Cheryl ?

 
GN⁺ 2024-10-06
Discussion sur Hacker News
  • Il y a longtemps, j’ai créé une version intitulée "Cheryl's Murder". Un notebook peut résoudre et générer des problèmes d’induction logique comme "Cheryl's Birthday"
  • Gp1-o1 a résolu correctement ce puzzle en 13 secondes, avec un raisonnement logique et une explication très rigoureux. Je pense qu’il n’est pas juste de lui demander d’extraire la définition du puzzle depuis les données d’entraînement
  • o1 mini a résolu le puzzle dès la première tentative et fonctionne avec l’exemple fourni dans le notebook
    • La fonction find_cheryls_birthday analyse les dates possibles pour trouver l’anniversaire de Cheryl
  • Le problème de l’évaluation des LLM est que les éléments aléatoires et la formulation précise du prompt comptent beaucoup. J’ai demandé à Claude d’expliquer le problème et d’écrire du code Python ; une exception s’est produite, mais après correction, il a donné la bonne réponse
  • Je pense que ce cas de test n’est pas approprié, car l’exemple Python est facilement accessible dans les données d’entraînement. Il est intéressant que le modèle ne parvienne pas à le résoudre
  • Les LLM et le NLP jouent, dans le raisonnement linguistique, un rôle comparable à celui d’une calculatrice. Le langage naturel comporte de l’ambiguïté et une grande souplesse sémantique. Demander de résoudre un problème de mathématiques formulé en phrases est une perte de temps
  • Les attentes concernant les progrès de l’IA continuent d’évoluer. Les LLM sont plus intelligents qu’un humain moyen et peuvent surpasser l’humain dans des tâches cognitives concrètes
  • Tirer des conclusions du fait qu’un LLM ne sait pas répondre à une question précise risque d’échouer face au principe du « ce sera possible à l’itération suivante »
  • Ce problème n’est qu’un problème de logique, pas un véritable test de « théorie de l’esprit ». Il est possible que les LLM aient la capacité de modéliser le comportement humain
  • Claude 3.5 Sonnet a résolu le problème dès la première tentative et a écrit un programme Python générant l’ensemble des dates valides. Il n’a eu aucune difficulté à résoudre ce problème