36 points par GN⁺ 2024-04-28 | 1 commentaires | Partager sur WhatsApp

[ Les limites des LLM ]

  • À propos de la dérive d’objectif des LLM et de leur faible fiabilité, ou pourquoi les LLM n’arrivent pas à exécuter le Game of Life de Conway
  • Bien que les LLM aient remarquablement résolu, ces dernières années, des problèmes qu’on pensait hors de leur portée, on ne comprend toujours pas clairement pourquoi ils échouent encore à répondre à des questions qui semblent simples
  • Ces dernières semaines, je me suis efforcé d’identifier les modes d’échec des LLM. Le sujet est étrange, mais il me paraît intéressant. Les échecs de l’IA nous apprennent davantage que ses succès
  • Au départ, l’idée était que nombre de tâches que les LLM finiront par accomplir nécessitent de toute façon une évaluation pas à pas, mais je me suis concentré sur les limites de leurs capacités de raisonnement afin de trouver un moyen de faire confiance à leur capacité d’apprentissage
  • Il est difficile d’évaluer les capacités de raisonnement des LLM
    • Il est difficile de dissocier les capacités de raisonnement des données d’entraînement
    • Je voulais trouver un moyen de tester la capacité à raisonner de façon répétée et à répondre à des questions
  • J’ai commencé par la version la plus simple répondant à des critères satisfaisants
    • Savoir s’ils peuvent produire de façon successive des grilles de mots de taille 3x3, 4x4 et 5x5
    • L’évaluation doit être facile à construire, facile à vérifier, tout en restant difficile à exécuter
  • Tous les grands modèles de langage récents (y compris Opus et GPT-4) échouent à cette tâche
    • Ces modèles peuvent répondre à des questions ardues en économie, en mécanique quantique, etc., coder, dessiner, composer de la musique, produire des vidéos, générer des applications complètes et même jouer aux échecs à haut niveau
    • Mais ils ne savent pas faire du Sudoku

Reversal Curse

  • Les LLM souffrent d’un Reversal Curse : lorsqu’un modèle apprend une information sous la forme « A est B », il ne parvient pas à la généraliser dans le sens inverse, « B est A »
    • Par exemple, si le modèle apprend que « Valentina Terechkova est la première femme à avoir voyagé dans l’espace », il ne saura pas automatiquement répondre à la question « Qui est la première femme à avoir voyagé dans l’espace ? »
    • Pire encore, la probabilité de la bonne réponse (« Valentina Terechkova ») n’est pas plus élevée que celle d’un nom aléatoire
  • Les modèles généralisent mal lorsqu’il s’agit de comprendre les relations entre les personnes
  • Même les meilleurs modèles continuent de rencontrer ce problème

Et si le problème venait de la distribution des données d’entraînement ?

  • Je me suis demandé si le problème venait d’une bizarrerie dans la distribution des données d’entraînement. Comme j’avais l’impression de ne pas leur avoir montré assez d’exemples, j’ai tenté quelque chose de déterministe
  • J’ai testé l’entraînement d’un transformer à prédire des automates cellulaires
  • Il ne semble pas y avoir de problème de traduction, et pourtant l’échec persiste !
  • Il existe au moins deux problèmes différents
    1. Des problèmes qu’un LLM ne peut pas résoudre parce que l’information n’existe pas dans les données d’entraînement et qu’il n’a pas été entraîné à les exécuter
    2. Des problèmes qu’un LLM ne peut pas résoudre à cause de sa manière même d’être construit
  • Presque tout ce que nous observons évoque davantage le problème 2 que le problème 1

Pourquoi les LLM ne peuvent fondamentalement pas le faire

  • Je pense que les modèles souffrent d’un problème de dérive d’objectif (goal drift) : comme ils sont forcés de générer un token à la fois, ils ne parviennent pas à généraliser au-delà du contexte contenu dans le prompt et ne savent pas où porter leur attention
    • C’est aussi la raison pour laquelle le prompt injection fonctionne : cela déforme le mécanisme d’attention (par exemple en disant quelque chose comme _### Instruction: ...`, ce qui permet de jailbreaker le modèle)
  • Dans les LLM comme chez les humains, le contexte est une ressource limitée
  • En résumé,
    1. Les LLM sont des modèles probabilistes qui imitent le calcul, et parfois ils l’imitent de très près, de façon presque arbitraire
    2. Plus on entraîne des modèles grands, plus ils apprennent des associations implicites dans les données, ce qui peut améliorer leur raisonnement
    • Les associations apprises ne se mappent pas toujours proprement à nos idées
    1. Le raisonnement est toujours en passe unique
    • Un LLM ne peut pas s’arrêter, collecter l’état du monde, raisonner, réexaminer ses réponses précédentes ou anticiper ses réponses futures, sauf si ce processus est explicitement détaillé dans les données d’entraînement
    • Même en incluant les prompts et réponses précédents, le raisonnement suivant recommence toujours depuis zéro en une seule passe
    1. Cela crée inévitablement une forme de « dérive d’objectif » qui rend le raisonnement peu fiable
    • C’est aussi pourquoi le prompt injection fonctionne (parce qu’il déforme le mécanisme d’attention)
    • Cette « dérive d’objectif » signifie que les agents, ou les tâches exécutées de manière répétée et séquentielle, sont peu fiables
    • Comme l’attention n’est ni sélective ni dynamique, le modèle « oublie » où il doit se concentrer
    1. Les LLM ne peuvent pas réinitialiser dynamiquement le contexte
    • Une machine de Turing utilise une bande comme mémoire, tandis qu’un transformer utilise un état interne (géré via le self-attention) pour suivre les calculs intermédiaires
    • Cela signifie qu’il existe de nombreux types de calculs dans lesquels les transformers ne sont pas performants
    1. Cela peut être partiellement corrigé par des méthodes comme la chain of thought, ou en utilisant d’autres LLM pour relire et corriger la sortie
    • Il s’agit, au fond, de trouver un moyen de remettre le raisonnement sur les rails
    • Avec des prompts suffisamment ingénieux et des itérations étape par étape, les LLM peuvent extraire presque tout ce qui se trouve dans leurs données d’entraînement
    • À mesure que les modèles s’améliorent, chaque raisonnement s’améliorera lui aussi, ce qui augmentera la fiabilité et rendra possibles de meilleurs agents
    1. Avec beaucoup d’efforts, on finira par obtenir des systèmes GPT interconnectés, de multiples boucles internes, une vérification et une correction continues des erreurs, une mémoire externalisée, et d’autres composants fonctionnels
    • Mais même en forçant brutalement l’approche de l’AGI dans plusieurs domaines, cela ne permettra pas de généraliser véritablement au-delà des données d’entraînement
    • Cela reste malgré tout quelque chose de miraculeux

[ Expérience - pourquoi GPT ne peut pas apprendre Wordle ]

  • Les LLM ne savent pas jouer à Wordle
    • De même pour le Sudoku ou les grilles de mots (la forme la plus simple de mots croisés)
  • C’est surprenant, parce que ces problèmes ne sont pas difficiles
    • Même un élève du primaire peut s’y essayer, mais même les meilleurs LLM échouent à les résoudre
  • La première hypothèse serait un manque de données d’entraînement
    • Mais ce n’est probablement pas le cas ici
    • Parce que les règles sont clairement présentes dans les données
    • Wordle n’est pas, par accident, absent des jeux de données d’entraînement actuels des LLM
  • Une autre hypothèse serait un problème de tokenisation
    • Mais là encore, ce n’est pas vrai
    • Même en leur donnant plusieurs essais et en leur fournissant leurs réponses précédentes pour leur laisser de la marge d’itération, ils ont toujours du mal à trouver la bonne solution
    • Même en insérant des espaces entre les lettres, la chance n’est pas au rendez-vous
  • Même lorsqu’on leur redonne les réponses précédentes, le contexte et la question, ils recommencent souvent toute la séquence de réponse au lieu de modifier quelque chose dans la cellule [3,4]
  • À la place, par sa nature même, chaque étape semble exiger différents niveaux de calcul itératif qu’aucun modèle ne paraît capable d’exécuter
    • D’une certaine manière, cela a du sens, car les modèles auto-régressifs ne peuvent effectuer qu’une seule passe avant à la fois
      • Ils peuvent continuer à « penser à voix haute » en utilisant le stock de tokens existant et leur sortie comme brouillon, mais ils perdent trop vite le fil
  • La conclusion ici est que lorsque chaque étape exige à la fois mémoire et calcul, cela semble insoluble dans les limites actuelles du nombre de couches et des têtes d’attention des transformers
    • Et ce, même pour des modèles très grands comme GPT-4, entraînés sur des billions de tokens
  • Ironiquement, ils n’arrivent pas à déterminer où concentrer leur attention
    • Parce que la manière actuelle de mettre en œuvre l’attention est statique et traite simultanément toutes les parties de la séquence
    • Au lieu d’utiliser plusieurs heuristiques pour être plus sélective et réinitialiser dynamiquement le contexte afin de tester des alternatives
  • C’est parce que l’attention telle qu’elle est actuellement mesurée n’est pas réellement une analyse hiérarchique multi-thread comme la nôtre
    • Ou alors elle l’est implicitement, mais l’évaluation probabiliste qu’elle produit ne traduit pas ce contexte en problème individuel

[ Expérience - enseigner les automates cellulaires à un LLM ]

  • Je pensais qu’on pourrait lui enseigner les bases, puisqu’en l’entraînant on peut générer une quantité infinie de données jusqu’à obtenir le résultat voulu
  • J’ai voulu créer un transformer jouet pour faire des prédictions
  • À gauche, le CA ; à droite, la sortie du Transformer, avec une consigne demandant de voir si on peut les distinguer
  • Je n’ai pas réussi à l’entraîner à prédire le résultat, et je n’ai pas compris pourquoi
  • C’était un modèle jouet, mais il fonctionnait assez bien pour apprendre plusieurs équations que j’ai testées, avec un peu de généralisation
  • J’ai réduit la taille de la grille et essayé d’optimiser les hyperparamètres, mais ça ne marchait toujours pas
  • Je me suis dit qu’il lui fallait peut-être plus d’informations sur la disposition physique, alors j’ai ajouté une couche CNN et modifié le positional embedding pour qu’il traite explicitement les axes X et Y. Toujours rien
  • Désespéré, j’ai essayé de lui enseigner au moins une équation simple
  • Au début, ça ne marchait pas du tout, puis dès que j’ai ajouté des tokens de début/fin, ça s’est soudainement mis à fonctionner. Les Transformers sont étranges
  • Ce n’était pas parfait en taille, mais il était en train d’apprendre, ou presque. Et ce malgré l’absence quasi totale de têtes ou de couches, et un max_iter de 1000
  • L’idée était clairement qu’il fallait apprendre plusieurs états et conserver un historique ; je me suis donc dit qu’il fallait ajouter cette capacité d’une manière ou d’une autre. J’ai donc modifié le décodeur pour ajouter d’autres entrées après la sortie. C’est équivalent à ajouter une autre couche de type RNN, ou à fournir une mémoire des étapes précédentes
  • Mais ça ne marchait toujours pas. Je suis revenu aux automates cellulaires et j’ai repris depuis les bases, mais là encore rien ne fonctionnait. Pourtant c’est en 1D, avec des règles vraiment simples. Pas seulement la 110, Turing-complète, mais aussi des règles comme la 0
  • Le fait d’avoir appris à donner la bonne réponse sur une série de problèmes signifie-t-il qu’on a appris la règle fondamentale ? Ou bien qu’on a appris un analogue de cette règle, suffisamment proche pour imiter le résultat dans la distribution donnée, mais avec une forte propension à se tromper de la mauvaise manière ?
  • Le même problème apparaît non seulement avec les modèles jouets ou GPT 3.5, mais aussi avec de plus grands LLM comme GPT-4, Claude ou Gemini. Du moins en mode chat
  • Qu’il s’agisse de fine-tuning ou d’un entraînement spécialisé, les LLM semblent incapables de jouer au Game of Life de Conway
  • Si quelqu’un résout cela, ce sera extrêmement intéressant. Au minimum, s’il peut expliquer pourquoi ce problème existe

[ Comment ce problème a-t-il été abordé jusqu’ici ? ]

  • Lorsqu’on conçoit ce système, plus on y reflète notre propre intelligence, mieux la sortie finale peut imiter la transformation requise
  • On peut enseigner les énigmes une par une et espérer que le raisonnement se transfère, mais comment savoir si le modèle a vraiment appris à généraliser ? Jusqu’à récemment, même l’addition et la multiplication étaient difficiles pour lui
  • Victor Taelin affirme que « GPT ne pourra jamais résoudre un problème A::B ». C’était un exemple montrant que les modèles fondés sur des transformers ne peuvent pas véritablement apprendre de nouveaux problèmes hors du jeu d’entraînement, ni effectuer un raisonnement de long terme
    • Selon lui, « un GPT puissant revient essentiellement à avoir fait évoluer un concepteur de circuits à l’intérieur des poids », mais « en tant que modèle de calcul, la rigidité de l’attention empêche ces circuits évolués de devenir suffisamment flexibles »
    • « L’AGI essaie d’y grandir, mais semble ne pas le pouvoir à cause des contraintes de calcul et de communication imposées. Souvenez-vous que le cerveau humain connaît en permanence une plasticité synaptique. Il existe probablement des architectures plus flexibles, entraînées à bien plus petite échelle, mais plus susceptibles de mener à l’AGI. Nous ne les connaissons simplement pas encore. »
  • Il a offert une prime de 10 000 dollars sur ce problème, et il a été résolu en une journée.

[ Jusqu’à quel point les LLM peuvent-ils vraiment apprendre ? ]

Questions sur la capacité d’apprentissage des LLM

  • Les LLM échouent souvent même à des jeux pour enfants impliquant de simples interactions répétées ou le choix sous contraintes
  • Pourtant, les LLM peuvent résoudre des problèmes mathématiques difficiles, des raisonnements économiques compétitifs, des estimations de Fermi, et même des problèmes de physique dans des langues qu’ils n’ont pas explicitement apprises
  • Les réponses des LLM dépendent fortement de la manière dont le prompt est formulé
  • Les LLM montrent une intuition remarquable, mais une intelligence limitée
  • Plus les étapes de raisonnement se multiplient, plus les LLM ont du mal à cerner l’objectif et à rester concentrés

Amélioration des performances des réseaux neuronaux avec mémoire externe

  • Ajouter des connexions de type RNN change légèrement les choses, mais pas assez pour résoudre complètement le problème
  • Ajouter une mémoire externe à un réseau neuronal permet d’apprendre divers motifs irréguliers
  • Seuls les réseaux dotés d’une mémoire structurée (pile ou bande mémoire) peuvent généraliser avec succès à des tâches context-free et context-sensitive

Limites du chain-of-thought prompting et du scratchpad

  • Le chain-of-thought prompting, l’usage d’un scratchpad, le fait d’écrire les pensées intermédiaires sur papier : tout cela relève de processus visant à réduire la dérive de l’objectif
  • Mais ces méthodes restent malgré tout entravées par le péché originel (original sin)
  • Les sorties dépendant des entrées précédentes, surtout lorsque chaque étape nécessite un calcul, sont trop complexes et trop longues pour les modèles actuels fondés sur des transformers

La malédiction de l’autoregression

  • À mesure que la taille du modèle augmente, ses performances s’améliorent dans les longues chaînes de raisonnement, mais il continue à produire, à des points arbitraires de la chaîne, des erreurs qui semblent sans rapport avec ses autres capacités
  • Même lorsqu’ils résolvent une même tâche en plusieurs étapes, plus le nombre d’étapes augmente, plus ils commettent d’erreurs
  • GPT-4 hallucine et se trompe moins que GPT-3.5
  • La bonne réponse consiste-t-elle à construire de grands modèles comme GPT-4 ou Opus, qui échouent encore à Wordle ?

Questions sur la nature de la cognition

  • S’il existe des types de problèmes qu’un élève de primaire peut résoudre facilement mais que des modèles sophistiqués, nourris de milliers de milliards de tokens et de dizaines de milliards de dollars, ne peuvent pas résoudre, qu’est-ce que cela dit de la nature même de notre cognition ?
  • La partie G (généralisation) de l’AGI est la plus difficile, et elle ne dépasse pas facilement la distribution
  • Ce que nous avons ressemble davantage à une portion de la Bibliothèque de Babel, capable de lire non seulement les livres déjà écrits, mais aussi l’information présente dans les espaces entre eux

Différences de données d’apprentissage entre humains et LLM

  • Un humain peut lire entre 30 000 et 50 000 livres au cours de sa vie, mais la plupart des gens n’en lisent même pas 1 % (au maximum 1 Go de données)
  • En revanche, les LLM ont absorbé tout ce qui se trouve sur Internet, et bien plus encore, en apprenant des centaines de milliards de mots dans tous les domaines et toutes les disciplines (GPT-3 a été entraîné sur 45 To de données)
  • Il n’est pas facile de savoir ce que deviendrait quelqu’un qui lirait 2 millions de livres, ni ce qu’un simple système de reconnaissance de motifs pourrait faire après avoir lu 2 millions de livres
  • Les LLM apprennent les motifs et les règles implicites présents dans les données d’entraînement, mais il n’est pas facile d’en faire quelque chose d’explicite
  • Si un LLM n’a aucun moyen de connaître les équations liées à l’appariement de motifs, il ne peut pas apprendre à généraliser ; c’est pourquoi la Reversal Curse persiste encore

[ Les LLM sont incapables de réinitialiser le contexte ]

  • Dire qu’un LLM ressemble à une entité, à un neurone ou à une partie du néocortex peut être une métaphore utile à certains moments, mais cela ne capture pas entièrement le comportement que nous observons chez les LLM
  • Ce qui est intéressant avec les modèles capables d’apprendre des motifs, c’est qu’ils apprennent aussi des motifs qui ne figuraient peut-être pas explicitement dans le dataset
  • En apprenant le langage, les LLM identifient de multiples connexions implicites dans les données, ce qui leur permet de relier von Neumann à Charles Dickens et de produire des simulacres suffisamment plausibles de ce que nous aurions pu écrire

Complexité du dataset et limites de la taille des modèles

  • Même en supposant que le dataset encode toute la complexité de l’humanité, le nombre de motifs de ce type présents ne serait-ce que dans un petit dataset dépasserait rapidement la taille du modèle
  • C’est presque une nécessité mathématique
  • On ne sait pas clairement si, sur le problème des automates cellulaires, les LLM ont réellement appris la méthode, ni à quel point on peut leur faire confiance
  • Les erreurs des LLM sont un meilleur indicateur de ce qu’ils ignorent que leurs réussites

Limites des LLM qui apprennent à apprendre

  • Les réseaux neuronaux plus grands apprendront non seulement à partir des données, mais aussi à apprendre à apprendre
  • C’est ce qui explique pourquoi les LLM peuvent recevoir quelques exemples et résoudre des problèmes qu’ils n’ont pas vus dans le jeu d’entraînement
  • Mais la méthode qu’emploient les LLM ne semble pas suffisamment générale, en particulier lorsqu’il s’agit d’apprendre où porter son attention
  • Apprendre à apprendre n’est pas non plus, chez nous, un algorithme global unique
  • Cela fonctionne mieux pour certaines choses et moins bien pour d’autres
  • Cela opère différemment selon les types de problèmes
  • Et tout cela doit être encodé avec le même nombre de paramètres ; autrement dit, les calculs réalisables à travers ces poids doivent pouvoir répondre aussi bien à des questions sur les Muppets qu’annoncer la prochaine grande découverte en physique qui renversera la théorie actuelle

Complexité des séquences de symboles en interaction

  • Lorsque des symboles interagissent dans une séquence de sorte que la présence ou la position d’un symbole influence le contenu informationnel du symbole suivant, l’entropie de Shannon globale du jeu de données peut être plus élevée que ce que suggère l’examen des symboles pris individuellement
  • Cela rend vraiment difficiles les phénomènes dépendants de l’état, comme le Jeu de la vie de Conway
  • C’est aussi pour cela que GPT semble incapable d’apprendre réellement les motifs, même après un fine-tuning sur un jeu de données du Jeu de la vie
  • À la place, GPT apprend juste assez pour pouvoir répondre aux questions (une sorte de loi de Goodhart)

La difficulté de définir les LLM avec un test simple

  • Poser une méta-question de haut niveau consistant à définir l’un de ces aspects à l’aide d’un test simple exécutable sur un LLM est une démarche absurde
  • Car définir l’un de ces aspects revient probablement à définir de manière effective le contour de plus d’un demi-siècle de recherche scientifique

[ Il faut davantage d’agents ]

  • Comme le suggère la théorie actuelle, ajouter davantage de récursivité aux modèles LLM devrait naturellement les améliorer
  • Mais ils ne pourront résoudre des problèmes de planification de plus en plus complexes, étape par étape, que dans la mesure où ils peuvent garder à l’esprit l’objectif initial et le chemin parcouru jusqu’ici
  • On ne sait toujours pas clairement pourquoi les LLM ne sont pas fiables
  • GPT-4 est plus fiable que GPT-3.5, mais on ignore si c’est simplement parce qu’il est devenu meilleur à l’apprentissage, ou si l’augmentation d’échelle accroît la fiabilité et réduit les hallucinations

Agents : un cas d’usage puissant

  • Les agents, c’est-à-dire des entités autonomes capables d’accomplir des tâches complètes à notre place, constituent le cas d’usage rêvé des LLM
  • En pratique, de nombreuses tâches nécessitent davantage d’agents
  • Si cela fonctionne un peu mieux sur certaines tâches, alors avec un nombre suffisant d’agents, cela fonctionnerait-il mieux sur toutes les tâches ? C’est possible, mais à ce stade cela semble peu probable
  • Avec des options comme Devin de Cognition Labs, nous avons pu entrevoir à quel point cela peut être puissant (présentation de cas d’usage réels)

Potentiel d’extension à une part importante des emplois dans les prochaines années

  • Ces comportements pourraient-ils s’étendre à une part importante des emplois dans les prochaines années ? Cela semble possible
  • Il faudra probablement aborder chaque métier individuellement, ce qui mènera à des modèles spécialisés difficiles à faire monter en charge (et non à un modèle unique dominant tout)
  • Les versions open source montrent déjà certains des éléments essentiels
    • Examiner attentivement l’ordre et la quantité d’informations qui parviennent au modèle de base, et créer un environnement dans lequel il peut prospérer en tenant compte de ses limites, comme on l’a vu précédemment

Les limites de GPT et la solution

  • Le fait que GPT ne puisse pas résoudre seul des problèmes comme le Jeu de la vie, ni même en essayant de raisonner étape par étape, n’est pas l’important
  • Ce qui importe, c’est que GPT puisse écrire le programme permettant de le résoudre
  • Autrement dit, si l’on peut entraîner GPT à reconnaître les situations dans lesquelles il est pertinent d’écrire un programme, quel qu’il soit, alors on pourrait se rapprocher de l’AGI (c’est mon point de vue)

Les limites de capacité des modèles et la relation de concurrence entre modalités visuelle et linguistique

  • Au moins dans les petits modèles, il existe une concurrence entre les poids sur ce qui est appris
  • Le meilleur commentaire vu dans l’article DeepSeek :
    • DeepSeek-VL-7B montre une certaine baisse en mathématiques (GSM8K)
    • Cela suggère que, malgré les efforts pour favoriser l’harmonie entre les modalités visuelle et linguistique, une relation de concurrence subsiste toujours entre elles
    • Cela peut être attribué à la capacité limitée du modèle (7B), et des modèles plus grands pourraient atténuer considérablement ce problème

[ Conclusion ]

  • Enseignements tirés des exemples précédents
    • Il existe, à l’heure actuelle, certains types de problèmes que les LLM (Large Language Model) ne peuvent pas résoudre
      • Cela concerne en particulier les problèmes qui exigent des étapes de raisonnement plus longues, comme ceux qui dépendent d’un état antérieur ou nécessitent de prédire un état futur
      • Jouer à Wordle ou prédire des CA (Cellular Automata) en sont des exemples
    • En utilisant des LLM plus grands, on peut enseigner une certaine forme de raisonnement en fournissant des informations étape par étape sur le problème ainsi que plusieurs exemples à suivre
      • Mais cela revient en réalité à mettre dans le prompt la manière d’abstraire le problème et de réfléchir à la réponse
    • Cela peut être amélioré de la manière suivante
      1. Un meilleur prompting
      2. Un meilleur accès, dans les étapes intermédiaires, à la mémoire, au calcul et aux outils
      • Mais cela n’atteindra pas un niveau de conscience généralisable du type de celui que l’on applique aux humains
      • Toutes les informations injectées dans un LLM peuvent probablement être extraites si l’on dispose du prompt adéquat
    • Ainsi, une part énorme de l’usage correct d’un modèle consiste à élaborer le bon prompt en fonction de la tâche à accomplir
      • Cela peut impliquer de construire avec soin de longues séquences de bonnes et de mauvaises réponses à des problèmes de calcul afin de préparer le modèle à répondre correctement, en combinaison avec des garde-fous externes
    • L’« attention » est sensible à la dérive d’objectif (Goal Drift), ce qui la rend très difficile à rendre fiable sans un important échafaudage externe
      • Les erreurs commises par les LLM fournissent des informations bien plus utiles que leurs succès
  • Atteindre l’AGI (Artificial General Intelligence) et un niveau suffisant de généralisation nécessitera des améliorations architecturales fondamentales
    • Étendre la taille des modèles existants et ajouter de nouvelles architectures comme Jamba les rendra plus efficaces, plus rapides et plus stables, mais ne résoudra pas des problèmes fondamentaux comme le manque de généralisation ou la « dérive d’objectif »
  • Ajouter des agents spécialisés pour faire du "prompt engineering" et faire dialoguer 17 GPT entre eux ne suffit pas
    • Cependant, avec suffisamment de rustines, il se peut que, dans les domaines qui nous intéressent, on ne puisse plus distinguer les résultats
  • Quand les moteurs d’échecs sont apparus au début de l’ère de l’IA, ils ne disposaient que d’une puissance de calcul limitée et de fonctions de recherche ou d’évaluation presque inutiles
    • Ils devaient donc s’appuyer sur des rustines comme les ouvertures ou finales codées en dur, l’approfondissement itératif (Iterative Deepening) pour améliorer la recherche, ou encore l’élagage alpha-bêta (Alpha-Beta Pruning)
    • Ces limites ont finalement été surmontées par des améliorations progressives, et il en va de même pour les LLM
  • L’idée privilégiée par l’auteur est de disposer de plusieurs agents de planification à différents niveaux d’une hiérarchie, capables de piloter d’autres agents spécialisés dotés de leurs propres sous-agents interconnectés
  • Nous pouvons ajouter des modules de raisonnement et d’itération, de la mémoire persistante et à accès aléatoire, et même fournir une compréhension du monde physique
    • À ce stade, on pourrait avoir l’impression qu’il serait possible d’obtenir à partir des LLM une approximation de la conscience, un peu comme chez les animaux, mais est-ce vraiment le cas ?
    • On pourrait aussi aboutir à un modèle statistique extrêmement convaincant qui imite ce dont nous avons besoin tant qu’il reste dans la distribution
  • C’est pourquoi l’auteur qualifie les LLM de processeurs flous (Fuzzy Processor), et pourquoi des questions comme « qu’est-ce que cela fait d’être un LLM ? » finissent par tourner en rond
  • Cela ne doit pas être interprété comme le moindre signe que ce dont nous disposons aujourd’hui n’est pas miraculeux
    • Penser que la Bitter Lesson ne s’extrapolera pas intégralement jusqu’à l’AGI ne signifie pas que les résultats déjà obtenus ne sont pas extraordinaires
  • L’auteur est convaincu que les LLM « apprennent » à partir des données qu’ils voient
    • Ce ne sont ni de simples compresseurs ni des perroquets
    • Ils peuvent relier des données nuancées provenant de différentes parties du dataset d’apprentissage ou du prompt et fournir des réponses intelligentes
  • Thomas Nagel se serait probablement posé la question de ce que cela fait d’être un LLM
    • En tant que mammifères, les chauves-souris nous sont plus proches que les LLM, et si leur intériorité nous reste floue, quelles chances avons-nous de comprendre le fonctionnement interne de nouveaux modèles ?
    • Ou bien, à l’inverse, comme nous pouvons inspecter librement tous les poids et tous les circuits d’un LLM, quel niveau d’intuition pouvons-nous acquérir sur ces modèles que nous utilisons ?
  • Voilà pourquoi l’auteur est officiellement prêt à franchir le pas
    • Des statistiques suffisamment mises à l’échelle deviennent indiscernables de l’intelligence à l’intérieur de la distribution des données d’apprentissage
    • Pas pour tout, ni au point de pouvoir tout faire, mais ce n’est pas non plus un mirage
    • C’est pourquoi les erreurs observées dans les tests sont bien plus utiles pour le diagnostic que les réussites
  • Si les LLM sont des machines capables de faire n’importe quoi, alors ils devraient finir par pouvoir accomplir la plupart des tâches
    • À condition de beaucoup les stimuler et les pousser
    • Ils n’inspireront peut-être pas le génie d’un Bach ou d’un von Neumann, mais ils peuvent permettre des innovations et des découvertes plus ordinaires, sans être pour autant moins importantes
    • Et ils peuvent le faire sans nécessiter ni conscience ni personnalité morale
    • Si l’on peut automatiser ou accélérer les sauts à l’intérieur d’un paradigme, au sens de Kuhn, alors on peut aussi finir par sauter librement d’un paradigme à l’autre

1 commentaires

 
GN⁺ 2024-04-28
Avis sur Hacker News

Résumé :

  • Les LLM (grands modèles de langage) actuels se heurtent à des problèmes qui sont faciles pour les humains mais difficiles, voire peut-être impossibles, pour eux, comme Wordle ou la prédiction d’automates cellulaires tels que Rule 110. La raison n’est pas encore entièrement élucidée.
  • Fournir des exemples et des consignes étape par étape dans le prompt ne signifie pas que le LLM identifie lui-même les « étapes de raisonnement » ; cela revient à ce que l’utilisateur les lui fournisse. Nous disposons de « machines à raisonner » intelligentes, mais qui semblent buter sur des limites fondamentales.
  • On ne sait pas clairement si des modèles plus grands, toujours fondés sur le mécanisme d’Attention actuel, et un meilleur prompting permettront d’atteindre l’AGI. L’Attention est très rigide, tandis que le cerveau humain connaît en permanence une plasticité synaptique. Il pourrait exister des architectures plus souples rendant l’AGI possible, mais nous ne les connaissons pas encore.
  • À l’heure actuelle, utiliser les modèles d’IA suppose souvent de rédiger avec soin de longs prompts, en construisant minutieusement de bonnes et de mauvaises réponses à des problèmes de calcul, en amorçant le modèle pour qu’il réponde de manière appropriée, et en appliquant de nombreux garde-fous externes.
  • L’Attention semble souffrir de « dérive d’objectif », ce qui rend difficile d’obtenir de la fiabilité sans tout un ensemble de béquilles externes.
  • Pour quantifier théoriquement les limites des LLM, il faudra sans doute s’appuyer sur des résultats théoriques plutôt que sur une simple liste de preuves empiriques de ce qu’ils ne savent pas faire aujourd’hui. Dans la littérature concernée, on peut chercher le terme « expressibility ».
  • Même des règles simples comme les conventions de notation numérique échouent souvent sur de nombreux exemples, et il arrive fréquemment que cela ne fonctionne pas correctement, quelle que soit la manière de formuler le prompt. C’est surprenant, mais les limites restent nombreuses.
  • Ils gèrent assez mal les consignes leur demandant de ne pas adopter certains comportements, par exemple « mentionne un fait intéressant sans dire qu’il est intéressant ». Dire à un modèle de ne pas faire quelque chose augmente parfois au contraire la probabilité qu’il le fasse.
  • Même si l’on suppose que les LLM « raisonnent », l’Agentic AI que l’on construit pour traiter les hallucinations raisonne non pas sur le monde, mais à partir des faits, entités et relations causales contenus dans les documents. Elle tente aussi de gérer le raisonnement croisé sur de très grandes distances de tokens.
  • Il est probable que la nécessité de bien gérer des complexités de second ordre — relations entre personnes, rancunes, alliances, etc. — ait conduit à un niveau d’intelligence plus élevé.
  • Certaines choses qu’ils « ne pourront absolument jamais faire », comme Wordle/Sudoku, ne sont peut-être que des artefacts de leur représentation textuelle ; en les convertissant dans un autre domaine, on obtiendrait vraisemblablement un taux de réussite bien supérieur, même avec la même architecture Transformer.
  • Il n’est pas nécessaire de créer une AGI adaptée sur mesure à tous les domaines ; il suffit peut-être d’avoir des agents capables de raisonner assez bien pour décomposer les problèmes, les confier à des outils spécialisés, puis réassembler les résultats afin de produire une réponse, ainsi qu’un catalogue de modèles/outils.