4 points par GN⁺ 2025-02-03 | 1 commentaires | Partager sur WhatsApp
  • Introduction

    • Le Reinforcement Learning from Human Feedback (RLHF) s’est imposé comme un outil technique clé pour déployer les systèmes modernes de machine learning.
    • Ce livre présente les méthodes fondamentales du RLHF, issues à l’origine de la convergence de plusieurs domaines scientifiques comme l’économie, la philosophie et le contrôle optimal.
    • Il explique les concepts mathématiques courants utilisés dans la littérature, comme les définitions, la formulation des problèmes et la collecte de données.
  • Optimisation et apprentissage par renforcement

    • Il couvre diverses méthodes d’optimisation, notamment les données de préférences, la modélisation de la récompense, la régularisation, l’alignement sur les instructions, le rejection sampling, le policy gradient et les algorithmes d’alignement direct.
  • Sujets avancés

    • Il aborde des sujets avancés comme l’IA constitutionnelle et le feedback d’IA, le raisonnement et le fine-tuning par renforcement, les données synthétiques, l’évaluation et la sur-optimisation.
  • Remerciements

    • L’auteur remercie Costa Huang et Claude pour leur aide directe sur le projet.
    • Il remercie également les contributeurs GitHub.
  • Citation

    • Auteur : Nathan Lambert
    • Titre : Reinforcement Learning from Human Feedback
    • Année de publication : 2024
    • Éditeur : Online
    • URL : https://rlhfbook.com

1 commentaires

 
GN⁺ 2025-02-03
Avis Hacker News
  • Apprécie les efforts de l’auteur pour combler le manque de documentation publique sur la théorie et la pratique du RLHF. L’état de l’art actuel est surtout documenté dans des articles arXiv, et comme chaque article ressemble davantage à un « delta » qu’à un « instantané », il faut combiner les connaissances de plusieurs travaux antérieurs pour comprendre l’état actuel. Il est donc très précieux de produire un « instantané » de l’état de l’art facile à consulter

    • Estime qu’il faudrait davantage de ressources d’introduction comparant le RLHF et le SFT afin d’aider à poser les motivations et les attentes autour du RLHF
    • Avantages du RLHF : permet d’ajuster l’ensemble de la génération, peut être adapté à des problèmes où plusieurs réponses sont acceptables, et permet d’intégrer des retours négatifs
    • Inconvénients du RLHF : la régularisation limite l’impact sur le modèle, la méthode est très sensible à la qualité du modèle de récompense, et elle consomme beaucoup de temps et de ressources
    • Considérations pratiques : il faut comprendre comment évaluer la qualité et comment le prompt engineering interagit avec le fine-tuning
  • Mentionne que l’auteur travaille encore actuellement sur ce contenu et accueille volontiers corrections et suggestions sur GitHub

  • Indique que la citation « Le reinforcement learning à partir de retours humains est conçu pour optimiser des modèles de machine learning dans des domaines où il est difficile de concevoir une fonction de récompense » est utile

  • Dit qu’une fois la définition du RLHF comprise, cela donne l’impression d’« apprendre ce que nous disons être important ». Exprime de grandes attentes pour l’avenir

  • Partage d’autres ressources utiles sur le RLHF

  • Mentionne qu’une version epub de cette ressource serait nécessaire

  • "Reinforcement Learning: An Overview" de Kevin Murphy offre une vue d’ensemble récente du domaine du reinforcement learning (profond) et de la prise de décision séquentielle, en couvrant notamment le RL fondé sur la valeur, les méthodes de policy gradient et les approches fondées sur des modèles

  • Une question est posée sur la différence entre le RLHF et la distillation