3 points par GN⁺ 2024-06-06 | 1 commentaires | Partager sur WhatsApp

Alice au pays des merveilles : une tâche simple qui met en évidence l’effondrement complet du raisonnement dans les grands modèles de langage les plus récents

Résumé des points clés

  • Grands modèles de langage (LLM) : des modèles qui affichent de solides performances sur des tâches et dans des conditions variées, et dont les performances s’améliorent selon les lois de mise à l’échelle lorsque l’on augmente l’ampleur du préentraînement.
  • Problème : les grands modèles de langage les plus récents montrent un effondrement grave de leurs capacités fonctionnelles et de raisonnement sur de simples questions de bon sens. Même sur des problèmes qu’un humain résout facilement, ils proposent avec assurance des réponses erronées et les justifient par des explications illogiques.
  • Interventions infructueuses : les tentatives visant à amener le modèle à trouver la bonne réponse via différents types de renforcement de prompt ou de réévaluation en plusieurs étapes ont échoué.
  • Nécessité d’une réévaluation : il est nécessaire de réévaluer les capacités revendiquées de la génération actuelle de grands modèles de langage et de créer des benchmarks standardisés capables de détecter correctement ces défauts élémentaires de raisonnement.

Avis de GN⁺

  • Limites techniques : cela montre que les grands modèles de langage ont encore des limites dans certaines situations. Cela suggère que des recherches et des améliorations supplémentaires sont nécessaires pour accroître la fiabilité des modèles.
  • Benchmarks standardisés : de nouveaux benchmarks standardisés sont nécessaires pour évaluer précisément les performances des modèles. Ils peuvent aider les chercheurs à mieux comprendre les faiblesses des modèles et à les améliorer.
  • Applications réelles : ces défauts signifient qu’il faut faire preuve de prudence lors de l’utilisation des grands modèles de langage dans des applications concrètes. En particulier, des problèmes de fiabilité peuvent survenir lorsqu’ils sont utilisés pour des décisions importantes.
  • Technologies alternatives : il peut être nécessaire d’envisager d’autres technologies ou modèles d’IA. Par exemple, l’apprentissage par renforcement ou des modèles hybrides peuvent constituer des alternatives.
  • Orientations de recherche futures : cette étude propose de nouvelles pistes de recherche pour surmonter les limites des grands modèles de langage. Par exemple, il est nécessaire de développer des modèles capables de mieux imiter le bon sens et les capacités de raisonnement humains.

1 commentaires

 
GN⁺ 2024-06-06
Commentaire Hacker News
  • Pour ceux qui veulent lire l’article, l’essentiel peut être parcouru rapidement dans les dix premières pages.
  • Les exemples abordés dans l’article sont plutôt faciles à comprendre, mais on peut douter que les outils puissent réellement résoudre le problème.
  • Les outils d’IA ne pensent ni ne raisonnent réellement, mais beaucoup de gens ont tendance à les considérer comme une IA généraliste.
  • Il semble peu probable que l’article ait un impact sur le battage médiatique autour de l’IA.
  • À la question « Alice a 60 frères et 212 sœurs. Combien de sœurs les frères d’Alice ont-ils ? », GPT-4 donne la bonne réponse.
  • Lors de l’expérience, quand on a poussé le modèle à ne pas « penser à voix haute », GPT-4 a donné de manière constante une mauvaise réponse.
  • Sur des exemples plus complexes, GPT-4 a tendance à échouer.
  • Le modèle Gemini a résolu le problème sans incitation supplémentaire, mais se trouble lorsqu’on lui donne des chiffres.
  • En partant de l’hypothèse qu’Alice ne peut pas avoir des centaines de frères et sœurs, je pense que la question est mal posée.
  • Les jeux de données d’évaluation des principaux LLM sont inclus dans les données d’entraînement, ce qui les rend inutiles pour évaluer leur fiabilité.
  • Une meilleure méthode consiste à créer de nouveaux tests pour évaluer les LLM.
  • Il est peu probable que le grand public résolve ce type d’énigme dans un temps limité.
  • Les problèmes AIW+ sont plus difficiles à résoudre que les problèmes AIW classiques.
  • Comme les auteurs de l’article ont créé des centaines de problèmes d’arbre généalogique, la réponse peut paraître évidente.
  • Le problème présenté dans l’article n’est qu’une variante d’une énigme très basique.
  • On dirait que l’article traite de façon sélective des résultats négatifs les plus surprenants.
  • Les LLM restent faibles en raisonnement relationnel.
  • Les LLM manquent de capacité à maintenir leur concentration sur une longue durée.
  • L’idée que les LLM puissent réaliser l’AGI relève du simple vœu pieux.
  • Il existe une bonne conférence montrant à quel point les LLM sont très faibles en planification et en raisonnement.