Publication d’un livre sur le RLHF
(rlhfbook.com)- Un livre et cours en ligne gratuits conçus pour apprendre en un seul endroit le RLHF et le post-training des modèles de langage, avec une structure permettant aux lecteurs disposant de bases quantitatives de suivre l’ensemble du processus d’entraînement
- Le fil conducteur est la recette RLHF, qui explique en les reliant l’instruction tuning, l’entraînement d’un reward model, le rejection sampling, le reinforcement learning, l’on-policy distillation et les algorithmes de direct alignment
- Le livre couvre aussi les origines du RLHF, au-delà des jalons techniques, avec des liens vers l’économie, la philosophie ou encore le contrôle optimal, afin de mieux comprendre le contexte d’émergence des concepts
- Des ressources associées sont fournies : une base de code des algorithmes, une bibliothèque pour comparer les complétions de modèles à chaque étape du post-training, et une page de cours pédagogique
- Après les dernières éditions d’avril 2026 et l’intégration des améliorations de l’édition Manning, le contenu passe à la version imprimée ; les modifications devraient désormais être moins fréquentes
Un livre pour apprendre le RLHF et le post-training
- Le RLHF est devenu un outil important pour construire des systèmes de machine learning modernes à grande échelle, et le périmètre des discussions s’est élargi des méthodes RLHF de base vers un ensemble plus large de techniques de post-training
- L’ouvrage commence par une courte introduction centrée sur les modèles de langage, puis guide les lecteurs disposant de bases quantitatives à travers les principales méthodes de post-training des modèles
- En suivant le processus RLHF standard, il enchaîne les sujets suivants
- Ce que fait le RLHF et pourquoi il a été créé
- Les principaux jalons techniques de sa courte histoire
- Les bases de reinforcement learning nécessaires pour comprendre le livre
- Les étapes d’optimisation allant de l’instruction tuning à l’entraînement du reward model
- Le rejection sampling, le reinforcement learning, l’on-policy distillation et les algorithmes de direct alignment
- La seconde partie traite de questions ouvertes et de domaines moins étudiés ou émergents, comme les données synthétiques, l’utilisation d’outils, l’apprentissage de personnages et l’évaluation
Ressources associées et historique des changements
- Des ressources complémentaires sont fournies pour apprendre les concepts fondamentaux des modèles de langage post-entraînés
-
Changements en 2026
- Avril 2026 : dernières corrections pour l’édition imprimée, intégration des améliorations de l’édition Manning, clarification des formules et de la terminologie, correction des coquilles et de la grammaire dans tous les chapitres, extension du chapitre produit
- Mars 2026 : publication de la page de cours avec vidéos, coloration syntaxique du PDF, extension du chapitre produit
- Février 2026 : ajout, dans le contenu v2, du chapitre sur le direct alignment, de nouveaux diagrammes, d’une fiche mémo RL, d’annexes, d’un champ de recherche, de la prise en charge Kindle et de corrections éditoriales
- Janvier 2026 : réorganisation majeure des chapitres selon la structure du livre Manning, bibliothèque d’exemples de code, redirections des anciennes URL vers leurs nouveaux emplacements
- En 2025 et 2024, DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization et bibliography ont été ajoutés progressivement
- Le format de citation de l’édition 2026 est fourni sous la forme
@book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}
Aucun commentaire pour le moment.