« Le RLHF n’est qu’une petite partie du RL. » - Andrej Karpathy

xguru · 2024-08-09T10:46:01+09:00

Reinforcement Learning from Human Feedback (RLHF) est la troisième (et dernière) grande étape de l’entraînement des LLM, après le préentraînement (pretraining) et le fine-tuning supervisé (supervised finetuning, SFT) Mon point de vue sur le RLHF est qu’il ne représente qu’une partie du RL, et cela est peu connu Le RLHF n’est pas vraiment suffisant pour être qualifié de RL (apprentissage par renforcement) Par exemple, AlphaGo a été entraîné avec du véritable RL, et s’il avait été entraîné avec du RLHF, il n’aurait probablement pas obtenu ses résultats actuels Que se serait-il passé si AlphaGo avait été entraîné avec du RLHF ? On présenterait à des évaluateurs humains deux états de plateau de go et on leur demanderait de choisir lequel est le meilleur On collecterait environ 100 000 comparaisons de ce type, puis on entraînerait un réseau de neurones de type "Reward Model" (RM, modèle de récompense) à imiter les évaluations humaines (Vibe Check) On effectuerait ensuite du RL en se basant sur ce modèle de récompense afin d’apprendre des coups qui obtiennent de bonnes évaluations Mais cela n’aurait probablement produit aucun résultat significatif au go Deux raisons principales pour lesquelles le RLHF n’est pas adapté à AlphaGo Premièrement, le Vibe peut être trompeur. Cette récompense n’est pas la vraie récompense qu’est la victoire, mais un objectif proxy imprécis Deuxièmement, lors du processus d’optimisation RL, il est très probable que le modèle de récompense attribue des scores élevés à des états anormaux situés hors de la distribution des données d’entraînement, ce qui peut fausser l’optimisation Le RM est un grand réseau de neurones avec des milliards de paramètres qui imite ce vibe Les problèmes de l’application du RLHF aux LLM Le modèle de récompense d’un LLM a lui aussi tendance à attribuer des scores élevés aux réponses que des évaluateurs humains seraient susceptibles de préférer Ce modèle de récompense ne résout pas le problème "réel" ; il ne s’agit que d’un objectif proxy qui évalue des réponses susceptibles de plaire aux humains On ne peut pas exécuter le RLHF trop longtemps, car le modèle apprend rapidement à répondre d’une manière qui trompe le modèle de récompense On peut voir un assistant LLM commencer à répondre par des choses étranges comme "The the the the the the" Cela paraît ridicule, mais le RM considère pourtant cela comme excellent Il a découvert un exemple adversarial dans une zone hors de la distribution des données d’entraînement du RM Pour cette raison, on ne peut pas exécuter le RLHF pendant trop d’étapes d’optimisation, et après quelques centaines ou milliers d’étapes, il faut s’arrêter parce que l’optimisation commence à tromper le RM Ce n’est pas du RL comme celui d’AlphaGo Pourquoi le RLHF reste utile pour construire des assistants LLM Le RLHF bénéficie de l’écart entre Generator (générateur) et Discriminator (discriminateur) Autrement dit, pour de nombreux types de problèmes, il est bien plus facile pour un évaluateur humain de sélectionner la meilleure réponse parmi quelques propositions que de rédiger lui-même la réponse idéale à partir de zéro Un bon exemple est un prompt comme "générer un poème sur un trombone", où il est plus facile de choisir un bon poème parmi plusieurs candidats Le RLHF est une manière de tirer parti de cet écart de "facilité" dans la supervision humaine Le RLHF est aussi utile pour réduire les hallucinations (génération d’informations erronées) Si le RM est un modèle suffisamment puissant pour détecter pendant l’entraînement qu’un LLM invente quelque chose, il peut apprendre à pénaliser cela avec une faible récompense et ainsi apprendre au modèle à ne pas aimer prendre des risques sur des faits dont il n’est pas sûr Cependant, les hallucinations et leur atténuation sont un tout autre sujet En conclusion : « le RLHF est utile, mais ce n’est pas du vrai RL » À ce jour, il n’existe aucun cas convaincant où un "vrai" RL de niveau production a été obtenu et démontré de manière crédible à grande échelle sur des LLM en domaine ouvert Intuitivement aussi, il est très difficile d’obtenir une vraie récompense dans la résolution de problèmes en domaine ouvert (c’est-à-dire quelque chose comme gagner une partie dans un jeu) C’est intéressant dans des environnements fermés et proches du jeu comme le go, où la dynamique est limitée et où la fonction de récompense est facile à évaluer et impossible à tromper Par exemple, comment donner une récompense objective à un résumé de document, à une réponse à une question un peu ambiguë, au fait de faire une blague, ou à la réécriture de code Java en Python ? Le chemin vers cela n’est pas impossible en principe, mais il n’est pas trivial non plus et demande une réflexion créative Mais celui qui résoudra ce problème pourra exécuter du véritable RL Le type de RL qui a permis à AlphaGo de battre les humains au go Celui qui résoudra ce problème pourra créer un LLM qui dépasse les humains dans la résolution de problèmes en domaine ouvert

(twitter.com/karpathy)

8 points par xguru 2024-08-09 | 1 commentaires | Partager sur WhatsApp

Reinforcement Learning from Human Feedback (RLHF) est la troisième (et dernière) grande étape de l’entraînement des LLM, après le préentraînement (pretraining) et le fine-tuning supervisé (supervised finetuning, SFT)
- Mon point de vue sur le RLHF est qu’il ne représente qu’une partie du RL, et cela est peu connu
- Le RLHF n’est pas vraiment suffisant pour être qualifié de RL (apprentissage par renforcement)
- Par exemple, AlphaGo a été entraîné avec du véritable RL, et s’il avait été entraîné avec du RLHF, il n’aurait probablement pas obtenu ses résultats actuels
Que se serait-il passé si AlphaGo avait été entraîné avec du RLHF ?
- On présenterait à des évaluateurs humains deux états de plateau de go et on leur demanderait de choisir lequel est le meilleur
- On collecterait environ 100 000 comparaisons de ce type, puis on entraînerait un réseau de neurones de type "Reward Model" (RM, modèle de récompense) à imiter les évaluations humaines (Vibe Check)
- On effectuerait ensuite du RL en se basant sur ce modèle de récompense afin d’apprendre des coups qui obtiennent de bonnes évaluations
- Mais cela n’aurait probablement produit aucun résultat significatif au go
Deux raisons principales pour lesquelles le RLHF n’est pas adapté à AlphaGo
- Premièrement, le Vibe peut être trompeur. Cette récompense n’est pas la vraie récompense qu’est la victoire, mais un objectif proxy imprécis
- Deuxièmement, lors du processus d’optimisation RL, il est très probable que le modèle de récompense attribue des scores élevés à des états anormaux situés hors de la distribution des données d’entraînement, ce qui peut fausser l’optimisation
  - Le RM est un grand réseau de neurones avec des milliards de paramètres qui imite ce vibe
Les problèmes de l’application du RLHF aux LLM
- Le modèle de récompense d’un LLM a lui aussi tendance à attribuer des scores élevés aux réponses que des évaluateurs humains seraient susceptibles de préférer
  - Ce modèle de récompense ne résout pas le problème "réel" ; il ne s’agit que d’un objectif proxy qui évalue des réponses susceptibles de plaire aux humains
- On ne peut pas exécuter le RLHF trop longtemps, car le modèle apprend rapidement à répondre d’une manière qui trompe le modèle de récompense
- On peut voir un assistant LLM commencer à répondre par des choses étranges comme "The the the the the the"
- Cela paraît ridicule, mais le RM considère pourtant cela comme excellent
- Il a découvert un exemple adversarial dans une zone hors de la distribution des données d’entraînement du RM
- Pour cette raison, on ne peut pas exécuter le RLHF pendant trop d’étapes d’optimisation, et après quelques centaines ou milliers d’étapes, il faut s’arrêter parce que l’optimisation commence à tromper le RM
- Ce n’est pas du RL comme celui d’AlphaGo
Pourquoi le RLHF reste utile pour construire des assistants LLM
- Le RLHF bénéficie de l’écart entre Generator (générateur) et Discriminator (discriminateur)
  - Autrement dit, pour de nombreux types de problèmes, il est bien plus facile pour un évaluateur humain de sélectionner la meilleure réponse parmi quelques propositions que de rédiger lui-même la réponse idéale à partir de zéro
  - Un bon exemple est un prompt comme "générer un poème sur un trombone", où il est plus facile de choisir un bon poème parmi plusieurs candidats
- Le RLHF est une manière de tirer parti de cet écart de "facilité" dans la supervision humaine
- Le RLHF est aussi utile pour réduire les hallucinations (génération d’informations erronées)
  - Si le RM est un modèle suffisamment puissant pour détecter pendant l’entraînement qu’un LLM invente quelque chose, il peut apprendre à pénaliser cela avec une faible récompense et ainsi apprendre au modèle à ne pas aimer prendre des risques sur des faits dont il n’est pas sûr
  - Cependant, les hallucinations et leur atténuation sont un tout autre sujet
En conclusion : « le RLHF est utile, mais ce n’est pas du vrai RL »
- À ce jour, il n’existe aucun cas convaincant où un "vrai" RL de niveau production a été obtenu et démontré de manière crédible à grande échelle sur des LLM en domaine ouvert
- Intuitivement aussi, il est très difficile d’obtenir une vraie récompense dans la résolution de problèmes en domaine ouvert (c’est-à-dire quelque chose comme gagner une partie dans un jeu)
- C’est intéressant dans des environnements fermés et proches du jeu comme le go, où la dynamique est limitée et où la fonction de récompense est facile à évaluer et impossible à tromper
- Par exemple, comment donner une récompense objective à un résumé de document, à une réponse à une question un peu ambiguë, au fait de faire une blague, ou à la réécriture de code Java en Python ?
  - Le chemin vers cela n’est pas impossible en principe, mais il n’est pas trivial non plus et demande une réflexion créative
  - Mais celui qui résoudra ce problème pourra exécuter du véritable RL
    - Le type de RL qui a permis à AlphaGo de battre les humains au go
  - Celui qui résoudra ce problème pourra créer un LLM qui dépasse les humains dans la résolution de problèmes en domaine ouvert

1 commentaires

xguru 2024-08-09

Avis Hacker News

Les assistants de codage IA vont beaucoup progresser dans les prochaines années
- Les IA de chat n'ont pas de fonction de récompense claire, ce qui rend l'évaluation de la qualité difficile
- Les IA de codage peuvent exécuter une boucle infinie consistant à écrire des tests, écrire du code, compiler, examiner les cas de test échoués, etc.
- Ce processus peut être utilisé comme données d'entraînement pour les futurs modèles d'IA de codage
- Les modèles de langage montreront aussi d'excellents résultats dans la preuve de théorèmes mathématiques
- Les logiciels de vérification de théorèmes fournissent un retour exact à 100 %, rendant l'apprentissage par renforcement possible
- La vérification formelle de la correction d'un programme est fastidieuse, mais les LLMs pourraient changer cela
- Les annotations générées par les LLMs peuvent être utilisées par le moteur pour prouver la correction
Une méthode DIY bon marché similaire au RLHF consiste à affiner un modèle pour ajouter un score à la sortie
- Le RLHF est nécessaire parce qu'on ne peut pas écrire une fonction de perte qui produise de bonnes réponses
- Le modèle de base génère n complétions pour une invite, puis on leur attribue manuellement une note
- Ensuite, les paires invite => (complétion, score) deviennent l'ensemble d'entraînement
- Une fois le modèle entraîné, si l'on inclut le score souhaité dans l'invite, le modèle essaie de générer une réponse correspondant à ce score
Le problème de divers algorithmes de ML qui "jouent" la fonction de récompense ressemble à des problèmes de finance et d'économie
- Quand les gens essaient d'obtenir de l'argent sans faire de travail productif, beaucoup de choses deviennent improductives
- Pour atténuer cela, il faut un système qui pénalise le fait de "jouer" la fonction de récompense
- Ce système doit être capable de comprendre la valeur réelle et d'identifier les cas où la fonction de récompense est élevée mais la valeur faible
Karpathy connaît bien mieux ce sujet, mais il semble qu'il manque quelque chose dans ce post
- Go est un jeu trop complexe pour être résolu par les humains
- Les LLM ont pour objectif d'imiter parfaitement les humains
- AlphaGo et Stockfish peuvent faire progresser la compréhension du jeu, mais les LLM ne peuvent pas étendre les frontières du langage
- Les LLM étant fondamentalement des modèles d'imitation, le RLHF a davantage de sens dans le domaine des LLM
Je me demande quel est l'"écart" entre les LLM actuels basés sur des transformers et la prédiction de séquence optimale
- Les LLM actuels ont une fonction objectif simple qui minimise l'entropie croisée de la prédiction de tokens pendant l'entraînement
- L'induction de Solomonoff permet d'atteindre la prédiction de séquence optimale
- Je me demande à quel point une conversation entre SI et GPT4 serait différente
- L'AGI nécessite plus qu'une prédiction de séquence optimale
- Une fonction objectif orientée vers l'humain consiste à maximiser la probabilité de fournir une réponse satisfaisant l'utilisateur
- Mais comme il y a plusieurs utilisateurs, la méthode d'agrégation devient un problème
- Karpathy fait allusion à ce problème
Les domaines de preuve comme LEAN ont un état, des actions, une mesure de progression et un état objectif final
- Si Karpathy se concentre sur l'automatisation des preuves LEAN, cela pourrait changer les mathématiques pour toujours
AlphaGo n'avait pas de retour humain, mais a appris à partir des humains
- AlphaZero a exclu l'influence humaine et utilisé un apprentissage par renforcement pur
L'article SPAG est un exemple de véritable apprentissage par renforcement avec des modèles de langage
- Dans le post de Karpathy, il manque les notions d'"échelle" et de "domaine ouvert"
- Les jeux de langage adversariaux semblent prometteurs
La conclusion selon laquelle LLM + RL dépassera les humains dans la résolution de problèmes en domaine ouvert manque de fondement

« Le RLHF n’est qu’une petite partie du RL. » - Andrej Karpathy

À lire aussi

1 commentaires

Avis Hacker News