2 points par GN⁺ 2023-09-07 | 1 commentaires | Partager sur WhatsApp
  • L’article traite d’un schéma d’apprentissage inhabituel observé lors du fine-tuning de grands modèles de langage (Large Language Models, LLMs), qui semblent apprendre efficacement à partir d’un seul exemple.
  • Cette observation va à l’encontre de la compréhension habituelle de l’efficacité en nombre d’échantillons des réseaux neuronaux, selon laquelle plusieurs exemples sont généralement nécessaires pour apprendre efficacement.
  • Pour vérifier ce phénomène, les auteurs ont mené une série d’expériences qui soutiennent l’hypothèse selon laquelle les LLMs peuvent mémoriser rapidement les entrées.
  • Le processus d’apprentissage des réseaux neuronaux consiste à montrer des exemples d’entrée et de sortie, puis à les entraîner à prédire la sortie à partir de l’entrée. Ce processus est répété plusieurs fois (epochs) afin que le modèle apprenne efficacement.
  • En entraînant un modèle pour une compétition Kaggle, les auteurs ont observé à la fin de chaque epoch une chute brutale de la perte, un comportement inhabituel qui a d’abord fait soupçonner un bug.
  • Les auteurs, ainsi que d’autres développeurs de la communauté, ont constaté des schémas similaires en utilisant différentes boucles d’entraînement et méthodes, ce qui suggère qu’il ne s’agit pas d’un bug mais d’une caractéristique du fine-tuning des LLMs.
  • L’hypothèse est que ces courbes d’entraînement montrent un surapprentissage, ce qui signifie que le modèle apprend à reconnaître l’entrée à partir d’un ou deux exemples seulement.
  • Les auteurs ont mené des expériences avec différents plannings de taux d’apprentissage et ont observé que le modèle apprend rapidement à reconnaître un exemple après ne l’avoir vu qu’une seule fois.
  • Ils suggèrent que les grands modèles de langage préentraînés peuvent présenter une surface de perte très lisse dans une région proche de la perte minimale, ce qui leur permet d’apprendre rapidement à partir d’un seul exemple.
  • Cet apprentissage rapide pourrait remettre en cause les méthodes d’entraînement traditionnelles et aggraver le problème de l’oubli catastrophique, où le modèle oublie des informations précédemment apprises lorsque de nouvelles informations sont introduites.
  • Les auteurs proposent comme pistes d’atténuation d’augmenter l’usage de techniques comme le dropout ou la profondeur stochastique, ou encore d’utiliser un mélange de jeux de données variés pendant l’entraînement.
  • Ils appellent à poursuivre les recherches et à explorer des hypothèses alternatives afin de mieux comprendre ce phénomène et ses implications pour l’entraînement et l’usage des LLMs.

1 commentaires

 
GN⁺ 2023-09-07
Commentaire Hacker News
  • Discussion autour de l’article sur l’étonnante capacité des grands modèles de langage (Large Language Models, LLMs) à mémoriser rapidement à partir d’un seul exemple
  • L’un des auteurs du billet, qui travaille avec les réseaux neuronaux depuis 30 ans, a jugé ce comportement comme le plus surprenant qu’il ait observé
  • Certains lecteurs estiment que le terme « confiance excessive » utilisé dans l’article est trompeur, et que « surapprentissage » ou « indéterminé » seraient plus exacts
  • Étant donné les dizaines de milliards de paramètres des modèles génératifs, le fait que les LLMs apprennent rapidement à partir d’un seul exemple n’est pas surprenant d’un point de vue classique du machine learning (ML)
  • Discussion sur les implications du fait que la plupart des LLMs ne sont entraînés que sur une seule epoch, ce qui soulève la question du surapprentissage
  • Un utilisateur partage une expérience personnelle avec ChatGPT, soulignant que fournir à un LLM des éléments issus de questions sur lesquelles il n’a pas été entraîné a aidé à résoudre le problème
  • Certains lecteurs se demandent si les LLMs ont été utilisés pour enrichir leurs propres données d’entraînement, en proposant l’idée d’ajouter aux données des entrées « rêvées » ou synthétiques
  • Débat sur le titre de l’article : certains lecteurs jugent qu’apprendre à partir d’un seul exemple est souhaitable, mais pas le fait de mémoriser, et le considèrent donc comme trompeur
  • Certains utilisateurs partagent avoir observé des courbes de perte similaires lors de l’entraînement de Vision Transformers (ViTs), suggérant que ces courbes de perte étranges pourraient être une caractéristique des modèles basés sur Transformer
  • Recommandation d’autres travaux connexes pour les personnes intéressées par le sujet, comme « Mass-Editing Memory in a Transformer » et « Locating and Editing Factual Associations in GPT »
  • Si les conclusions de l’article sont exactes, cela pourrait appuyer l’idée que de petits jeux de données gérés par des humains ont plus de valeur que des jeux de données synthétiques générés par des LLMs