8 points par xguru 2024-08-09 | 1 commentaires | Partager sur WhatsApp
  • Reinforcement Learning from Human Feedback (RLHF) est la troisième (et dernière) grande étape de l’entraînement des LLM, après le préentraînement (pretraining) et le fine-tuning supervisé (supervised finetuning, SFT)
    • Mon point de vue sur le RLHF est qu’il ne représente qu’une partie du RL, et cela est peu connu
    • Le RLHF n’est pas vraiment suffisant pour être qualifié de RL (apprentissage par renforcement)
    • Par exemple, AlphaGo a été entraîné avec du véritable RL, et s’il avait été entraîné avec du RLHF, il n’aurait probablement pas obtenu ses résultats actuels
  • Que se serait-il passé si AlphaGo avait été entraîné avec du RLHF ?
    • On présenterait à des évaluateurs humains deux états de plateau de go et on leur demanderait de choisir lequel est le meilleur
    • On collecterait environ 100 000 comparaisons de ce type, puis on entraînerait un réseau de neurones de type "Reward Model" (RM, modèle de récompense) à imiter les évaluations humaines (Vibe Check)
    • On effectuerait ensuite du RL en se basant sur ce modèle de récompense afin d’apprendre des coups qui obtiennent de bonnes évaluations
    • Mais cela n’aurait probablement produit aucun résultat significatif au go
  • Deux raisons principales pour lesquelles le RLHF n’est pas adapté à AlphaGo
    • Premièrement, le Vibe peut être trompeur. Cette récompense n’est pas la vraie récompense qu’est la victoire, mais un objectif proxy imprécis
    • Deuxièmement, lors du processus d’optimisation RL, il est très probable que le modèle de récompense attribue des scores élevés à des états anormaux situés hors de la distribution des données d’entraînement, ce qui peut fausser l’optimisation
      • Le RM est un grand réseau de neurones avec des milliards de paramètres qui imite ce vibe
  • Les problèmes de l’application du RLHF aux LLM
    • Le modèle de récompense d’un LLM a lui aussi tendance à attribuer des scores élevés aux réponses que des évaluateurs humains seraient susceptibles de préférer
      • Ce modèle de récompense ne résout pas le problème "réel" ; il ne s’agit que d’un objectif proxy qui évalue des réponses susceptibles de plaire aux humains
    • On ne peut pas exécuter le RLHF trop longtemps, car le modèle apprend rapidement à répondre d’une manière qui trompe le modèle de récompense
    • On peut voir un assistant LLM commencer à répondre par des choses étranges comme "The the the the the the"
    • Cela paraît ridicule, mais le RM considère pourtant cela comme excellent
    • Il a découvert un exemple adversarial dans une zone hors de la distribution des données d’entraînement du RM
    • Pour cette raison, on ne peut pas exécuter le RLHF pendant trop d’étapes d’optimisation, et après quelques centaines ou milliers d’étapes, il faut s’arrêter parce que l’optimisation commence à tromper le RM
    • Ce n’est pas du RL comme celui d’AlphaGo
  • Pourquoi le RLHF reste utile pour construire des assistants LLM
    • Le RLHF bénéficie de l’écart entre Generator (générateur) et Discriminator (discriminateur)
      • Autrement dit, pour de nombreux types de problèmes, il est bien plus facile pour un évaluateur humain de sélectionner la meilleure réponse parmi quelques propositions que de rédiger lui-même la réponse idéale à partir de zéro
      • Un bon exemple est un prompt comme "générer un poème sur un trombone", où il est plus facile de choisir un bon poème parmi plusieurs candidats
    • Le RLHF est une manière de tirer parti de cet écart de "facilité" dans la supervision humaine
    • Le RLHF est aussi utile pour réduire les hallucinations (génération d’informations erronées)
      • Si le RM est un modèle suffisamment puissant pour détecter pendant l’entraînement qu’un LLM invente quelque chose, il peut apprendre à pénaliser cela avec une faible récompense et ainsi apprendre au modèle à ne pas aimer prendre des risques sur des faits dont il n’est pas sûr
      • Cependant, les hallucinations et leur atténuation sont un tout autre sujet
  • En conclusion : « le RLHF est utile, mais ce n’est pas du vrai RL »
    • À ce jour, il n’existe aucun cas convaincant où un "vrai" RL de niveau production a été obtenu et démontré de manière crédible à grande échelle sur des LLM en domaine ouvert
    • Intuitivement aussi, il est très difficile d’obtenir une vraie récompense dans la résolution de problèmes en domaine ouvert (c’est-à-dire quelque chose comme gagner une partie dans un jeu)
    • C’est intéressant dans des environnements fermés et proches du jeu comme le go, où la dynamique est limitée et où la fonction de récompense est facile à évaluer et impossible à tromper
    • Par exemple, comment donner une récompense objective à un résumé de document, à une réponse à une question un peu ambiguë, au fait de faire une blague, ou à la réécriture de code Java en Python ?
      • Le chemin vers cela n’est pas impossible en principe, mais il n’est pas trivial non plus et demande une réflexion créative
      • Mais celui qui résoudra ce problème pourra exécuter du véritable RL
        • Le type de RL qui a permis à AlphaGo de battre les humains au go
      • Celui qui résoudra ce problème pourra créer un LLM qui dépasse les humains dans la résolution de problèmes en domaine ouvert

1 commentaires

 
xguru 2024-08-09

Avis Hacker News

  • Les assistants de codage IA vont beaucoup progresser dans les prochaines années

    • Les IA de chat n'ont pas de fonction de récompense claire, ce qui rend l'évaluation de la qualité difficile
    • Les IA de codage peuvent exécuter une boucle infinie consistant à écrire des tests, écrire du code, compiler, examiner les cas de test échoués, etc.
    • Ce processus peut être utilisé comme données d'entraînement pour les futurs modèles d'IA de codage
    • Les modèles de langage montreront aussi d'excellents résultats dans la preuve de théorèmes mathématiques
    • Les logiciels de vérification de théorèmes fournissent un retour exact à 100 %, rendant l'apprentissage par renforcement possible
    • La vérification formelle de la correction d'un programme est fastidieuse, mais les LLMs pourraient changer cela
    • Les annotations générées par les LLMs peuvent être utilisées par le moteur pour prouver la correction
  • Une méthode DIY bon marché similaire au RLHF consiste à affiner un modèle pour ajouter un score à la sortie

    • Le RLHF est nécessaire parce qu'on ne peut pas écrire une fonction de perte qui produise de bonnes réponses
    • Le modèle de base génère n complétions pour une invite, puis on leur attribue manuellement une note
    • Ensuite, les paires invite => (complétion, score) deviennent l'ensemble d'entraînement
    • Une fois le modèle entraîné, si l'on inclut le score souhaité dans l'invite, le modèle essaie de générer une réponse correspondant à ce score
  • Le problème de divers algorithmes de ML qui "jouent" la fonction de récompense ressemble à des problèmes de finance et d'économie

    • Quand les gens essaient d'obtenir de l'argent sans faire de travail productif, beaucoup de choses deviennent improductives
    • Pour atténuer cela, il faut un système qui pénalise le fait de "jouer" la fonction de récompense
    • Ce système doit être capable de comprendre la valeur réelle et d'identifier les cas où la fonction de récompense est élevée mais la valeur faible
  • Karpathy connaît bien mieux ce sujet, mais il semble qu'il manque quelque chose dans ce post

    • Go est un jeu trop complexe pour être résolu par les humains
    • Les LLM ont pour objectif d'imiter parfaitement les humains
    • AlphaGo et Stockfish peuvent faire progresser la compréhension du jeu, mais les LLM ne peuvent pas étendre les frontières du langage
    • Les LLM étant fondamentalement des modèles d'imitation, le RLHF a davantage de sens dans le domaine des LLM
  • Je me demande quel est l'"écart" entre les LLM actuels basés sur des transformers et la prédiction de séquence optimale

    • Les LLM actuels ont une fonction objectif simple qui minimise l'entropie croisée de la prédiction de tokens pendant l'entraînement
    • L'induction de Solomonoff permet d'atteindre la prédiction de séquence optimale
    • Je me demande à quel point une conversation entre SI et GPT4 serait différente
    • L'AGI nécessite plus qu'une prédiction de séquence optimale
    • Une fonction objectif orientée vers l'humain consiste à maximiser la probabilité de fournir une réponse satisfaisant l'utilisateur
    • Mais comme il y a plusieurs utilisateurs, la méthode d'agrégation devient un problème
    • Karpathy fait allusion à ce problème
  • Les domaines de preuve comme LEAN ont un état, des actions, une mesure de progression et un état objectif final

    • Si Karpathy se concentre sur l'automatisation des preuves LEAN, cela pourrait changer les mathématiques pour toujours
  • AlphaGo n'avait pas de retour humain, mais a appris à partir des humains

    • AlphaZero a exclu l'influence humaine et utilisé un apprentissage par renforcement pur
  • L'article SPAG est un exemple de véritable apprentissage par renforcement avec des modèles de langage

    • Dans le post de Karpathy, il manque les notions d'"échelle" et de "domaine ouvert"
    • Les jeux de langage adversariaux semblent prometteurs
  • La conclusion selon laquelle LLM + RL dépassera les humains dans la résolution de problèmes en domaine ouvert manque de fondement