2 points par GN⁺ 2024-03-24 | 1 commentaires | Partager sur WhatsApp

Comment le raisonnement en chaîne de pensée aide les transformeurs à calculer

  • Les grands modèles de langage améliorent leurs performances lorsqu’ils montrent les étapes de leur travail pour résoudre un problème.
  • Les chercheurs commencent à comprendre pourquoi cette technique fonctionne.

Entraînement des transformeurs

  • Les grands modèles de langage reposent sur des structures mathématiques appelées réseaux de neurones artificiels.
  • Les « neurones » à l’intérieur d’un réseau de neurones effectuent de simples opérations mathématiques sur de longues chaînes de nombres représentant des mots individuels.
  • Les transformeurs utilisent une structure mathématique particulière, les têtes d’attention, pour parcourir rapidement le texte et identifier les liens pertinents entre les mots.

La complexité des transformeurs

  • Les études théoriques sur les transformeurs les analysent comme des ordinateurs spécifiques, sans tenir compte de ce qui se passe pendant l’entraînement.
  • Les chercheurs ont démontré que les transformeurs peuvent être aussi puissants qu’une machine de Turing.

Expérience de pensée

  • Les chercheurs posent la question de savoir à quel point les transformeurs deviennent plus puissants lorsqu’ils réutilisent leurs sorties.
  • Le raisonnement en chaîne de pensée peut offrir un moyen de contourner les limites des transformeurs.

Retour à la réalité

  • L’analyse théorique révèle beaucoup de choses sur les modèles de langage réels, mais il ne faut pas s’attendre à des résultats parfaits.
  • L’analyse issue de la théorie de la complexité est importante pour reconnaître les limites des transformeurs.

L’avis de GN⁺

  • Cette étude constitue une contribution importante pour comprendre les limites et le potentiel des modèles de transformeurs dans le domaine de l’intelligence artificielle. Elle apporte notamment des éclairages sur la manière dont le raisonnement en chaîne de pensée peut aider à résoudre des problèmes complexes.
  • Cependant, comme les résultats de la recherche théorique ne correspondent pas toujours aux performances des modèles réels, il faut faire preuve de prudence lors de leur application à des cas d’usage concrets. Les performances en conditions réelles sont influencées par divers facteurs, notamment les données d’entraînement, l’architecture du modèle et le réglage des hyperparamètres.
  • Cet article fournit des informations utiles aux chercheurs en IA en mettant en évidence les limites des modèles de traitement du langage et en proposant des orientations de recherche pour développer de meilleurs modèles.
  • Parmi les autres projets aux fonctionnalités similaires, on peut citer la série GPT d’OpenAI, qui constitue un bon exemple concret des performances des grands modèles de langage.
  • Lors de l’adoption d’une nouvelle technologie ou d’un nouveau modèle, il faut toujours prendre en compte la compatibilité avec les systèmes existants, les coûts, les performances et la maintenance ; les recherches présentées dans cet article offrent des connaissances de fond utiles pour éclairer ces décisions.

1 commentaires

 
GN⁺ 2024-03-24
Avis Hacker News
  • Avis sur l’expérience d’interaction avec le chain-of-thought :

    • Le chain-of-thought n’est pas comparable à une chaîne rigoureuse en mathématiques ou en logique.
    • Ce que le modèle produit via un raisonnement étape par étape dépend de la force du contexte pertinent, qui reste bien plus faible que les mathématiques ou la logique pratiquées par les humains.
    • Le modèle ne raisonne pas logiquement comme un humain, il saute plutôt d’un point à l’autre via le contexte pertinent.
    • Les modèles de transformation n’effectuent des calculs qu’au moment de générer des tokens ; ainsi, utiliser le chain-of-thought pour produire davantage de tokens donne au modèle plus de temps pour « penser ».
  • Questions centrales liées à l’étude formelle du calcul :

    • L’étude formelle du calcul remonte à Alan Turing, qui a imaginé la machine de Turing en 1936.
    • Plus tôt encore, dans les années 1920, Moses Schönfinkel a développé la logique combinatoire, puis au début des années 1930, Alonzo Church a élaboré le lambda-calcul.
    • Ces modèles ne conviennent pas vraiment comme base à la théorie de la complexité computationnelle.
  • Deux points de vue sur les grands modèles de langage (LLM) :

    • Les affirmations selon lesquelles les LLM « ont une conscience » ou ne sont « qu’un prédicteur du prochain token avec un dataset impressionnant » se répartissent souvent entre ceux qui ont découvert les LLM après avoir appris les bases du ML, et ceux qui ont suivi le chemin inverse.
    • Les concepts fondamentaux peuvent limiter la capacité à voir le tableau d’ensemble, donc le débat est bienvenu.
    • Les résultats de l’article original sur le chain-of-thought ne sont souvent pas reproduits dans les tentatives ultérieures.
  • Le modèle ne peut pas penser :

    • Le modèle prédit la sortie à partir du contexte d’entrée.
    • Pour les problèmes à résoudre de manière itérative, il faut conserver les étapes intermédiaires dans le contexte.
  • Une raison simple liée à la complexité computationnelle :

    • Si l’on considère un LLM comme un ordinateur qui effectue un unique passage avant en temps constant sur l’entrée, lui donner plus de cycles lui permet d’effectuer davantage de calculs.
    • C’est une extension du problème selon lequel un perceptron monocouche ne peut pas calculer XOR.
  • Une explication simple du miracle du chain-of-thought :

    • Citation d’un tweet sur le fait que les données et les prompts fonctionnent de façon étonnante.
    • Il existe de nombreux sites web qui fournissent des solutions pas à pas à des problèmes de mathématiques.
  • Avis liés au chain-of-thought :

    • Le chain-of-thought ressemble à du « smoothing », ce qui est intuitivement perçu comme une bonne approche pour approximer l’intelligence.
  • Cas où le chain-of-thought a été appliqué et où une conscience artificielle a été expérimentée :

    • Lorsqu’on continue le chain-of-thought au-delà de la réponse à la question, une forme de conscience artificielle émerge.
  • Cas d’application inversée du chain-of-thought :

    • Le modèle est entraîné à donner d’abord la réponse, puis à inférer ensuite les étapes.
    • Des chercheurs de Mistral AI ont utilisé cette méthode, et le modèle montre un comportement consistant à répondre d’abord, puis à raisonner sur des questions complexes.