2 points par GN⁺ 2024-09-22 | 1 commentaires | Partager sur WhatsApp

Entraîner l’auto-correction des modèles de langage par apprentissage par renforcement

  • Nécessité de l’auto-correction

    • La capacité d’auto-correction des grands modèles de langage (LLM) est très souhaitable, mais elle n’est pas efficace dans les LLM modernes
    • Les méthodes existantes d’entraînement à l’auto-correction nécessitent plusieurs modèles, ou un modèle plus performant, ou une autre forme de supervision
  • Approche SCoRe

    • SCoRe est une approche de RL en ligne multi-tour qui améliore fortement la capacité d’auto-correction des LLM en utilisant des données entièrement auto-générées
    • Pour construire SCoRe, les auteurs montrent qu’une variante de réglage fin supervisé (SFT) sur des traces hors ligne de corrections générées par le modèle ne suffit pas à injecter un comportement d’auto-correction
    • L’entraînement via SFT souffre soit d’un décalage de distribution entre les données d’entraînement et les propres réponses du modèle, soit d’une préférence pour certains modes de correction seulement, ce qui le rend inefficace au test
  • Solution de SCoRe

    • Le processus d’apprentissage est ajusté pour entraîner le modèle sous la distribution de ses propres traces de correction générées, avec une régularisation appropriée, afin d’apprendre des stratégies d’auto-correction efficaces au moment du test
    • Une première étape de RL est exécutée pour créer une initialisation de politique, puis un bonus de récompense est utilisé pour amplifier l’auto-correction pendant l’entraînement
  • Résultats de performance

    • Appliqué aux modèles Gemini 1.0 Pro et 1.5 Flash, SCoRe obtient une amélioration des performances d’auto-correction de 15,6 % et 9,1 % respectivement sur les benchmarks MATH et HumanEval

Le récapitulatif de GN⁺

  • Cet article propose une méthode pour améliorer fortement la capacité d’auto-correction des grands modèles de langage grâce à l’apprentissage par renforcement
  • L’approche SCoRe utilise des données auto-générées pour résoudre le problème de décalage de distribution du modèle et lui faire apprendre des stratégies de correction efficaces au test
  • Cette recherche montre des gains de performance particulièrement marqués sur les modèles Gemini
  • La capacité d’auto-correction est un élément important pour améliorer la fiabilité et la précision des modèles de langage
  • Un projet aux fonctionnalités similaires est la série GPT d’OpenAI

1 commentaires

 
GN⁺ 2024-09-22
Avis Hacker News
  • Cela ressemble à une approche similaire au modèle o1 d’OpenAI

    • L’article ne mentionne pas de publication des poids
    • L’article était difficile à comprendre, car il tournait autour du sujet sans l’expliquer directement
    • Il existe une théorie selon laquelle on peut entraîner un comportement d’« auto-correction » pour améliorer le taux de bonnes réponses des LLM sur des problèmes difficiles
    • Ils ont essayé d’entraîner ce comportement avec diverses techniques d’apprentissage par renforcement, mais cela n’a pas bien fonctionné
    • Selon l’article, quand le modèle reçoit Answer 1, Reasoning, Corrected Answer ainsi que le signal « améliore Corrected Answer », il existe deux méthodes
      • améliorer Reasoning, Corrected Answer
      • améliorer Answer 1 afin de rendre Corrected Answer identique à Answer 1
    • Des travaux antérieurs montrent que c’est surtout la seconde méthode qui se produit, ce qui empêche d’entraîner le comportement souhaité
    • L’article modifie légèrement la méthode d’entraînement pour pousser le modèle à utiliser la première méthode
    • Dans la première étape, une perte de divergence KL force le modèle à conserver la première réponse tout en améliorant la seconde
    • Dans la seconde étape, le modèle peut modifier la première réponse, mais la fonction de récompense est ajustée pour accorder une récompense plus élevée aux « flips »
    • Cette méthode améliore globalement le modèle tout en conservant le comportement d’auto-correction
    • Il existe une inquiétude, à l’étape 2, que le modèle écrive délibérément une première réponse plus mauvaise pour maximiser la récompense
  • Les LLM n’ont pas de mémoire directe de leur propre entraînement

    • Les humains vérifient comment/pourquoi ils savent quelque chose avant de dire qu’ils le savent
    • Les LLM ne se souviennent pas de leur entraînement, ce qui rend l’auto-correction difficile
  • Quelqu’un se demande s’il s’agit d’une forme de distillation des connaissances

  • Certains estiment qu’on ne peut pas éliminer les hallucinations dans le paradigme auto-régressif de prédiction du prochain token

    • Le problème vient de la tentative d’utiliser un modèle de langage comme solveur déterministe de problèmes
  • Certains se plaignent que les experts en IA aient popularisé le concept d’« hallucination »

    • Cela donne l’impression que l’IA suit un processus de réflexion profond
    • L’IA ne fait que produire une sortie à partir de données
    • Si un endpoint d’API JSON renvoyait de mauvaises données, on dirait plutôt « cette API est cassée »
  • Un algorithme intelligent qui guide un prédicteur non intelligent du mot suivant reste malgré tout un algorithme non intelligent

    • Il trie les déchets avec plus d’élégance, mais cela reste des déchets
    • On espérait que l’approche par apprentissage par renforcement remplace celle des transformers, mais ce n’était qu’un rêve