- Reinforcement Learning from Human Feedback (RLHF) est la troisième (et dernière) grande étape de l’entraînement des LLM, après le préentraînement (
pretraining) et le fine-tuning supervisé (supervised finetuning, SFT)
- Mon point de vue sur le RLHF est qu’il ne représente qu’une partie du RL, et cela est peu connu
- Le RLHF n’est pas vraiment suffisant pour être qualifié de RL (apprentissage par renforcement)
- Par exemple, AlphaGo a été entraîné avec du véritable RL, et s’il avait été entraîné avec du RLHF, il n’aurait probablement pas obtenu ses résultats actuels
- Que se serait-il passé si AlphaGo avait été entraîné avec du RLHF ?
- On présenterait à des évaluateurs humains deux états de plateau de go et on leur demanderait de choisir lequel est le meilleur
- On collecterait environ 100 000 comparaisons de ce type, puis on entraînerait un réseau de neurones de type "Reward Model" (RM, modèle de récompense) à imiter les évaluations humaines (
Vibe Check)
- On effectuerait ensuite du RL en se basant sur ce modèle de récompense afin d’apprendre des coups qui obtiennent de bonnes évaluations
- Mais cela n’aurait probablement produit aucun résultat significatif au go
- Deux raisons principales pour lesquelles le RLHF n’est pas adapté à AlphaGo
- Premièrement, le
Vibe peut être trompeur. Cette récompense n’est pas la vraie récompense qu’est la victoire, mais un objectif proxy imprécis
- Deuxièmement, lors du processus d’optimisation RL, il est très probable que le modèle de récompense attribue des scores élevés à des états anormaux situés hors de la distribution des données d’entraînement, ce qui peut fausser l’optimisation
- Le RM est un grand réseau de neurones avec des milliards de paramètres qui imite ce
vibe
- Les problèmes de l’application du RLHF aux LLM
- Le modèle de récompense d’un LLM a lui aussi tendance à attribuer des scores élevés aux réponses que des évaluateurs humains seraient susceptibles de préférer
- Ce modèle de récompense ne résout pas le problème "réel" ; il ne s’agit que d’un objectif proxy qui évalue des réponses susceptibles de plaire aux humains
- On ne peut pas exécuter le RLHF trop longtemps, car le modèle apprend rapidement à répondre d’une manière qui trompe le modèle de récompense
- On peut voir un assistant LLM commencer à répondre par des choses étranges comme "The the the the the the"
- Cela paraît ridicule, mais le RM considère pourtant cela comme excellent
- Il a découvert un exemple adversarial dans une zone hors de la distribution des données d’entraînement du RM
- Pour cette raison, on ne peut pas exécuter le RLHF pendant trop d’étapes d’optimisation, et après quelques centaines ou milliers d’étapes, il faut s’arrêter parce que l’optimisation commence à tromper le RM
- Ce n’est pas du RL comme celui d’AlphaGo
- Pourquoi le RLHF reste utile pour construire des assistants LLM
- Le RLHF bénéficie de l’écart entre Generator (générateur) et Discriminator (discriminateur)
- Autrement dit, pour de nombreux types de problèmes, il est bien plus facile pour un évaluateur humain de sélectionner la meilleure réponse parmi quelques propositions que de rédiger lui-même la réponse idéale à partir de zéro
- Un bon exemple est un prompt comme "générer un poème sur un trombone", où il est plus facile de choisir un bon poème parmi plusieurs candidats
- Le RLHF est une manière de tirer parti de cet écart de "facilité" dans la supervision humaine
- Le RLHF est aussi utile pour réduire les hallucinations (génération d’informations erronées)
- Si le RM est un modèle suffisamment puissant pour détecter pendant l’entraînement qu’un LLM invente quelque chose, il peut apprendre à pénaliser cela avec une faible récompense et ainsi apprendre au modèle à ne pas aimer prendre des risques sur des faits dont il n’est pas sûr
- Cependant, les hallucinations et leur atténuation sont un tout autre sujet
- En conclusion : « le RLHF est utile, mais ce n’est pas du vrai RL »
- À ce jour, il n’existe aucun cas convaincant où un "vrai" RL de niveau production a été obtenu et démontré de manière crédible à grande échelle sur des LLM en domaine ouvert
- Intuitivement aussi, il est très difficile d’obtenir une vraie récompense dans la résolution de problèmes en domaine ouvert (c’est-à-dire quelque chose comme gagner une partie dans un jeu)
- C’est intéressant dans des environnements fermés et proches du jeu comme le go, où la dynamique est limitée et où la fonction de récompense est facile à évaluer et impossible à tromper
- Par exemple, comment donner une récompense objective à un résumé de document, à une réponse à une question un peu ambiguë, au fait de faire une blague, ou à la réécriture de code Java en Python ?
- Le chemin vers cela n’est pas impossible en principe, mais il n’est pas trivial non plus et demande une réflexion créative
- Mais celui qui résoudra ce problème pourra exécuter du véritable RL
- Le type de RL qui a permis à AlphaGo de battre les humains au go
- Celui qui résoudra ce problème pourra créer un LLM qui dépasse les humains dans la résolution de problèmes en domaine ouvert
1 commentaires
Avis Hacker News
Les assistants de codage IA vont beaucoup progresser dans les prochaines années
Une méthode DIY bon marché similaire au RLHF consiste à affiner un modèle pour ajouter un score à la sortie
Le problème de divers algorithmes de ML qui "jouent" la fonction de récompense ressemble à des problèmes de finance et d'économie
Karpathy connaît bien mieux ce sujet, mais il semble qu'il manque quelque chose dans ce post
Je me demande quel est l'"écart" entre les LLM actuels basés sur des transformers et la prédiction de séquence optimale
Les domaines de preuve comme LEAN ont un état, des actions, une mesure de progression et un état objectif final
AlphaGo n'avait pas de retour humain, mais a appris à partir des humains
L'article SPAG est un exemple de véritable apprentissage par renforcement avec des modèles de langage
La conclusion selon laquelle LLM + RL dépassera les humains dans la résolution de problèmes en domaine ouvert manque de fondement