Les capacités de « démarrage en trombe » des LLM pourraient être graduelles et prévisibles

(quantamagazine.org)

1 points par GN⁺ 2024-03-26 | 1 commentaires | Partager sur WhatsApp

Des chercheurs de Stanford estiment que certaines capacités émergentes des LLM ne sont peut-être pas apparues soudainement, mais ont pu sembler faire un bond brutal à cause de la méthode de mesure des performances
BIG-bench évalue les LLM sur 204 tâches et a observé, sur certaines d’entre elles, une amélioration discontinue : des performances proches de 0 puis une forte hausse au-delà d’une certaine taille
Des métriques de précision comme pour l’addition à trois chiffres, qui ne regardent que juste/faux, peuvent traiter comme des échecs des réponses partiellement correctes et masquer le véritable processus d’amélioration
En utilisant un score partiel par chiffre, on voit apparaître une amélioration progressive : plus le nombre de paramètres augmente, plus le modèle prédit correctement de chiffres, ce qui affaiblit l’interprétation de l’addition comme capacité émergente
La question de savoir quelles métriques montreront des progrès brusques, ainsi que le problème d’évaluation des tâches où la bonne réponse compte réellement, reste ouverte : il faut une science prédictive pour la prochaine génération de modèles

Le bond soudain de performance observé par BIG-bench

Beyond the Imitation Game benchmark, ou BIG-bench, évalue les capacités des grands modèles de langage à l’aide de 204 tâches conçues par 450 chercheurs
Sur de nombreuses tâches, les performances s’amélioraient de manière prévisible et régulière à mesure que les modèles grandissaient, mais sur certaines, elles restaient presque nulles pendant un temps avant de grimper soudainement
L’article d’août 2022 estimait que ce comportement était surprenant, difficile à prédire, et devait être pris en compte dans les discussions sur la sûreté de l’IA, son potentiel et ses risques
Cette capacité a été qualifiée d’émergence (emergence), terme désignant un comportement collectif qui n’apparaît que lorsqu’un système atteint un niveau élevé de complexité

La réponse de Stanford : une illusion créée par la métrique plutôt que par le modèle

Sanmi Koyejo, Rylan Schaeffer et Brando Miranda, de Stanford University, rétorquent dans un nouvel article que l’apparition soudaine de capacités pourrait venir de la manière dont on mesure les performances des LLM
Leur idée centrale est que les capacités ne surgissent pas forcément de manière imprévisible : selon la métrique d’évaluation, une amélioration lisse et prévisible peut donner l’impression d’un saut brutal
Les chercheurs reconnaissent bien sûr que les LLM deviennent plus efficaces à mesure que leur taille augmente
Mais le fait qu’une courbe d’amélioration paraisse lisse ou au contraire irrégulière et abrupte peut dépendre non seulement du fonctionnement interne du modèle, mais aussi du choix de la métrique ou du manque d’exemples de test

Taille du modèle et objet de l’évaluation

Les LLM sont entraînés en analysant d’immenses jeux de données textuels issus de sources en ligne comme des livres, des recherches web ou Wikipedia, afin de repérer les liens entre mots qui apparaissent fréquemment ensemble
La taille d’un modèle se mesure au nombre de paramètres, qui correspondent grossièrement aux façons dont les mots peuvent être reliés entre eux
Principales tailles de modèles :
- GPT-2 : 1,5 milliard de paramètres
- GPT-3.5 : 350 milliards de paramètres
- GPT-4 : dévoilé en mars 2023, à la base de Microsoft Copilot, et réputé utiliser 1,75 billion de paramètres
Le point central du débat n’est pas qu’un grand LLM puisse réaliser des tâches hors de portée d’un plus petit modèle
Les chercheurs de Stanford reconnaissent eux aussi que la complexité supplémentaire des grands modèles peut améliorer les performances sur des problèmes plus difficiles et plus variés

Les limites de la métrique de précision révélées par l’addition à trois chiffres

Dans l’étude BIG-bench de 2022, GPT-3 et LAMDA étaient considérés comme incapables de résoudre correctement des problèmes d’addition lorsqu’ils avaient peu de paramètres
GPT-3 semblait soudain savoir additionner lorsqu’il était entraîné avec 13 milliards de paramètres, et LAMDA montrait un changement similaire à 68 milliards de paramètres
Ce résultat a conduit à l’interprétation selon laquelle la capacité d’addition émerge à partir d’un certain seuil
Les chercheurs de Stanford soulignent que cette évaluation ne regardait que l’exactitude : toute réponse imparfaite était donc comptée comme un échec
- Par exemple, si la réponse à 100+278 est 376, elle est bien plus proche de la bonne réponse que −9.34, mais avec une métrique juste/faux, les deux sont des échecs
L’équipe a utilisé une métrique de score partiel mesurant la qualité de la prédiction du premier, du deuxième et du troisième chiffre séparément
Avec cette métrique, on observe qu’à mesure que le nombre de paramètres augmente, les LLM prédisent de plus en plus correctement la suite de chiffres du résultat de l’addition
La capacité d’addition peut donc être interprétée non comme un bond soudain et imprévisible, mais comme une amélioration progressive et prévisible

Un débat toujours ouvert

Tianshi Li, de Northeastern University, estime que l’article de Stanford n’explique pas encore comment prédire quelles métriques montreront, ni à quel moment, une amélioration brutale des LLM
De ce point de vue, il reste une marge pour considérer que certaines capacités demeurent imprévisibles
Jason Wei, d’OpenAI, soutient que pour des capacités comme l’arithmétique, où la bonne réponse compte réellement, l’exactitude de la réponse elle-même reste essentielle ; les premiers travaux sur l’émergence gardent donc leur validité
Alex Tamkin, d’Anthropic, juge que le nouvel article a eu le mérite de décomposer des tâches en plusieurs étapes afin de reconnaître la contribution de chaque composant
En même temps, Tamkin estime qu’on ne peut pas dire que tous les sauts sont des illusions : la littérature montre aussi des discontinuités même avec des prédictions en une seule étape ou des métriques continues

Le défi de prévoir les modèles plus grands

Xia “Ben” Hu, de Rice University, estime que même si l’émergence des LLM actuels peut être expliquée par d’autres outils de mesure, cette explication ne s’appliquera pas forcément aux futurs LLM, plus grands et plus complexes
Selon Hu, quand les LLM changeront encore d’échelle, ils iront chercher des connaissances dans d’autres tâches et d’autres modèles
Pour Tamkin, le débat sur l’émergence est directement lié à l’effort visant à prédire comment les LLM vont se comporter
Comme la technologie des LLM a un champ d’application très large, il devient crucial de construire une science prédictive pour éviter d’être surpris par la prochaine génération de modèles

1 commentaires

GN⁺ 2024-03-26

Commentaires sur Hacker News

Cette étude présente plusieurs problèmes : 1) remplacer une précision de type réussite/échec par une métrique plus souple comme la distance d’édition de tokens peut, selon la tâche, être un très mauvais indicateur indirect de compétence
2) même avec les métriques des auteurs, on trouve encore quelques capacités potentiellement émergentes
3) avec le recul, tout paraît facile. On peut revenir aux données et les manipuler jusqu’à trouver une transformation qui fait disparaître l’émergence, mais à l’époque les métriques courantes de précision aux tests ont été utilisées, et le vrai phénomène notable était que les résultats étaient imprévisibles et surprenants
L’article a de la valeur, mais il ne faut pas pousser ses conclusions trop loin
- Comme indiqué plus loin dans l’article, être « presque bon » en addition n’a pas grand sens. C’est soit juste, soit faux
  Cela dit, même après avoir changé la méthode d’évaluation, certaines capacités émergentes subsistaient, donc l’effort est appréciable
J’ai l’impression que « l’émergence disparaît si l’on utilise un autre critère » s’applique aussi à la plupart des comportements émergents
Si l’on change d’échelle et que l’on observe les molécules d’eau une par une, on ne verra pas soudain apparaître un bloc de glace, mais des molécules s’attacher une à une à une structure cristalline
- Pas forcément. Le problème, c’est que la définition en machine learning est particulièrement floue
  J’ai écrit davantage à ce sujet ici[0]. Ce que tu décris explique l’émergence, mais ce n’est pas la même chose que ce qui était affirmé quand on disait que les LLM avaient des capacités émergentes. Cette distinction est aussi expliquée dans l’article
  [0] https://news.ycombinator.com/item?id=39812315
- Mais connaître la structure moléculaire à 50 °C et à 75 °C ne dit presque rien sur le point de congélation
  Autre exemple : si l’on mesure le nombre de cas d’infection d’un virus, il peut se propager dans le monde entier (R0 > 1, par exemple le COVID-19) ou ne pas parvenir à se répandre largement (R0 < 1, par exemple Ebola). Même si ce n’est pas totalement binaire, en apparence cela ressemble à une dichotomie, donc à un comportement émergent
  À l’inverse, si l’on mesure directement R0, on voit une progression graduelle, et il devient beaucoup plus facile de prédire les variants futurs, l’efficacité des vaccins, etc.
  Je vois « émergent » comme désignant par exemple une sigmoïde, et « graduel » comme désignant une fonction linéaire ou logarithmique
- Personne ne prend la glace pour une émergence soudaine. Même à l’œil nu, il est clair qu’elle se forme progressivement
Article : Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
Il est toujours plus facile de prédire l’avenir une fois qu’il est arrivé
En réalité, il peut exister des propriétés émergentes comme des transitions de phase, difficiles à prédire même rétrospectivement, mais je doute qu’elles soient courantes. Je me demande même s’il existe un seul exemple convaincant dans les LLM
Le cas le plus général me semble plutôt être qu’une capacité de haut niveau dépend de plusieurs sous-capacités, et que cette relation est difficile à prévoir. Il y a probablement eu une amélioration lisse des composants, mais il faut savoir quoi observer, c’est-à-dire quels sont les composants essentiels
Pour prédire une capacité émergente, il faudrait identifier à l’avance les composants nécessaires et aussi simuler, dans une certaine mesure, le niveau que chacun doit atteindre pour soutenir le comportement attendu
Bien sûr, ce n’est pas seulement une question de taille du modèle ou de volume de données : le type et la qualité des données comptent aussi, et il peut y avoir des changements brusques entre versions d’un modèle. Il est très difficile d’analyser à l’avance quels nouveaux motifs ou manipulations — autrement dit quelles capacités composantes — le modèle apprendra à partir d’un jeu d’entraînement mis à jour
Je me demande aussi à quelle fréquence l’inverse se produit. Je pense aux cas où les concepteurs d’un modèle auraient réussi à identifier que « pour faire X, il faut les capacités A, B et C, et pour obtenir A, B et C, il faut les nouveaux jeux de données P et Q ». Dans cette situation hypothétique, on aurait pu mesurer les progrès vers la capacité X
- À ma connaissance, cela ne s’est tout simplement jamais produit avant les Transformers, parce que les modèles ne pouvaient pas contenir autant de compétences distinctes sans qu’elles interfèrent entre elles
  Le fait même d’avoir un modèle doté de nombreuses capacités de haute qualité est encore un phénomène assez récent
  Je pense tout de même qu’une telle approche est nécessaire, et il est très probable que les meilleurs LLM actuels fassent déjà quelque chose de similaire. Mais comme personne ne publie ce qu’il fait, ce n’est qu’une supposition
« Mais pour d’autres tâches, l’amélioration des capacités n’était pas régulière. Les performances sont restées proches de zéro pendant un certain temps, puis ont soudainement bondi. D’autres études ont observé des sauts de capacité similaires. »
Waouh, le titre soumis n’est-il pas assez inexact ?
- Ce paragraphe résume les résultats de travaux antérieurs, et cet article remet précisément ces résultats en question
- Dans ce contexte, cela semble vouloir dire que ces capacités ont été étudiées et construites intentionnellement, et qu’elles ne sont pas sorties soudainement de nulle part
  Une grande partie du monde a été prise au dépourvu par l’apparition soudaine de « l’IA », mais certaines personnes savaient que ce genre de choses allait arriver
L’approche consistant à attribuer des points partiels est correcte, mais si l’on essaie d’entraîner le modèle à produire la bonne réponse, le fait qu’elle soit correcte ou non compte.
Quand j’ai entraîné de petits modèles à faire de l’arithmétique, même lorsque la courbe de perte atteignait un état stable, certains chiffres étaient corrects mais la réponse restait fausse. On peut continuer l’entraînement, mais le nombre d’époques d’entraînement nécessaires semble inversement proportionnel de manière exponentielle à la taille du modèle.
Ainsi, un modèle avec x paramètres finit par prendre n² fois plus de temps qu’un modèle avec 2x paramètres.
À partir d’un certain nombre de paramètres, obtenir la bonne réponse par apprentissage avec descente de gradient devient en pratique presque impossible.
Plus il y a de paramètres, plus il est facile de pousser le modèle vers la convergence, et c’est un indicateur réellement important.
À partir d’un certain point, le temps attendu avant que cette capacité n’apparaisse spontanément dépasse la durée d’une vie humaine, voire celle de toute l’humanité. Dans la mesure où l’augmentation de la taille du modèle rend cela réalisable, je pense qu’on peut dire que cette capacité émerge de façon suffisamment soudaine.
- L’essentiel est que, même si l’on veut un modèle qui donne la bonne réponse, il faut utiliser un score partiel plutôt qu’une exactitude binaire pour voir à quelle distance on se trouve de l’objectif.
  Si l’on utilise un indicateur où l’amélioration apparaît de manière soudaine et imprévisible, la capacité peut sembler apparaître spontanément, si bien qu’on ne peut même pas estimer combien d’entraînement supplémentaire est nécessaire.
  À l’inverse, si un indicateur de score partiel progresse de manière lisse et prévisible, on peut extrapoler l’avancement de l’entraînement pour estimer quand on atteindra l’exactitude visée, plutôt que d’extrapoler directement l’exactitude elle-même.
  Si le temps prévu est trop long et que l’on décide d’entraîner un modèle plus grand, l’extrapolation entre tailles de modèles peut aussi permettre d’estimer approximativement la taille de modèle nécessaire.
- L’entraînement des modèles semble être trop optimisé pour la continuité. Par exemple, les variables continues peuvent être divisées à l’infini, mais la logique et les algorithmes ne sont pas quelque chose de flou de cette façon : ce sont des structures rigides.
  Pour qu’un agent apprenant acquière correctement la logique et les algorithmes, il semble devoir être capable de généraliser de concepts flous vers des concepts rigides. On ne sait pas si cela se produira automatiquement par simple passage à l’échelle, ou s’il faudra une transition fondamentale.
- Tu as vu cette soumission ? https://news.ycombinator.com/item?id=39575264
  Ça ressemble à des sujets liés.
Bon article. Cela dit, l’émergence n’exige pas forcément un bond soudain d’un indicateur ni de l’imprévisibilité. De nouvelles capacités peuvent aussi apparaître progressivement.
- En machine learning, quand on parle d’« émergence », on désigne, comme l’explique l’article qui a introduit ce terme, un indicateur présentant un bond soudain : https://arxiv.org/abs/2206.07682
Les modèles peuvent devenir plus intelligents sans saut discontinu. Comme on les mesure d’une manière qui ne donne pas de points aux réponses partielles, on a peut-être simplement manqué les signaux montrant qu’ils n’ont cessé de s’affiner.
Cela semble aussi assez cohérent avec ce qui paraît être la pensée de Sam Altman. OpenAI semble avoir le sentiment de pouvoir assez bien prédire les capacités de raisonnement d’un modèle à partir de la seule quantité de calcul d’entraînement et de la taille des données.
- Sam Altman est plutôt un commercial ; ce n’est pas tant sa pensée que celle des nombreux experts qui travaillent chez OpenAI, qu’il répète.
Même une horloge arrêtée donne l’heure juste deux fois par jour.
Les LLM sont des moteurs de vraisemblance. L’hypothèse fondamentale testée ici est que, lorsque la vraisemblance augmente, l’exactitude augmente aussi.
Cette hypothèse est facile à rejeter rien qu’en regardant les contenus rédigés par des humains utilisés pour entraîner les LLM ; par conséquent, tous les phénomènes qui en dépendent ont un plafond. Donc, augmenter simplement la taille des LLM ne produira pas une AGI.
- Dire que « les LLM sont des moteurs de vraisemblance » est une façon de voir les LLM, mais cela ne crée pas automatiquement un plafond à leurs capacités.
  Il est aussi vrai de dire que les humains sont des organismes reproducteurs. À première vue, comme les humains ne sont sélectionnés que pour leur capacité à se reproduire, il pourrait sembler qu’ils ne puissent pas évoluer vers l’intelligence, mais ce n’est pas le cas. Même une classification vraie ne fixe pas la limite des capacités humaines.
  Les LLM évoluent pour conserver les connaissances le plus efficacement possible.
  Une stratégie simple de conservation des connaissances est la mémorisation, et les réseaux neuronaux peuvent certainement mémoriser.
  Une autre stratégie consiste à utiliser des algorithmes. Les réseaux neuronaux peuvent aussi évoluer pour conserver les connaissances sous forme d’algorithmes. Par exemple, on a vu un petit réseau neuronal faire émerger une structure proche de la FFT pour effectuer des additions. Au départ, il commençait par de la mémorisation et n’était pas parfait, mais en fin d’entraînement, il est passé à un algorithme d’addition utilisant une structure de type FFT et a produit des résultats parfaits.
  Je pense que les meilleurs LLM conservent les connaissances via une compression sophistiquée. Cela inclut la construction d’un modèle du monde et la mise en relation du texte d’entrée avec ce modèle.
  J’y vois des composants d’une machine de raisonnement. C’est imparfait, il y a des bugs, et l’architecture actuelle pourrait bientôt atteindre ses limites, mais c’est complètement différent de la pure mémorisation.
- Tu supposes que les humains poursuivent de manière fiable l’exactitude plutôt que la vraisemblance.
  Le fait que tout le système scientifique soit conçu pour réprimer les affirmations qui paraissent vraisemblables mais sont fausses montre plutôt le contraire.
- Au sens philosophique, c’est juste, mais en pratique l’IA est en passe de dépasser les humains dans de nombreuses tâches et professions dont on pensait autrefois qu’elles nécessitaient de l’intelligence.
- La conclusion selon laquelle « tous les phénomènes qui en dépendent ont un plafond » est vraisemblable, mais elle se brise facilement face à des contre-exemples. Un bon élève peut dépasser son maître, et même un élève moyen peut dépasser tous ses maîtres s’il apprend auprès de plusieurs d’entre eux.
  En aparté, c’est pour cela que je pense que le système médiéval maître-compagnon était très efficace.
  Plus abstraitement, cette conclusion semble supposer que le transfert learning n’existe pas.
Je ne comprends pas bien l’indicateur utilisé par les auteurs.
La distance d’édition me semble une façon étrange de tester si un modèle comprend l’arithmétique ([1], Figure 3). 1+3=3 semble être considéré comme tout aussi correct que 1+1=9.
Je me demande pourquoi ils ne regardent pas de combien la sortie du modèle s’écarte de la valeur réelle avec abs(actual-expected). Je me demande aussi s’il y aurait un point d’inflexion avec cet indicateur.
https://arxiv.org/abs/2206.07682
- Cela dépend de la manière dont on fait l’arithmétique. Si une personne fait une addition posée, 12345+35791=58136 est une erreur aussi importante que 48146. Le résultat réel est 48136, et dans les deux cas une seule colonne de chiffres est fausse. Un demi-additionneur binaire fonctionne de la même manière.
  Nous ne savons pas comment un LLM fait de l’arithmétique. La distance d’édition entre tokens pourrait être intéressante, mais, dans tous les cas, cela ne change pas vraiment l’argument de l’article.
  À part ça, le lien est erroné. L’article dont il est question est ici : https://arxiv.org/pdf/2304.15004.pdf

Les capacités de « démarrage en trombe » des LLM pourraient être graduelles et prévisibles

Le bond soudain de performance observé par BIG-bench

La réponse de Stanford : une illusion créée par la métrique plutôt que par le modèle

Taille du modèle et objet de l’évaluation

Les limites de la métrique de précision révélées par l’addition à trois chiffres

Un débat toujours ouvert

Le défi de prévoir les modèles plus grands

À lire aussi

1 commentaires

Commentaires sur Hacker News