- Ce livre vise à présenter de manière mathématiquement accessible les concepts fondamentaux, les problèmes et les algorithmes du reinforcement learning.
- Il explique non seulement la procédure des algorithmes, mais aussi, d’un point de vue mathématique, pourquoi ils ont été conçus ainsi et pourquoi ils sont efficaces.
- Le niveau de profondeur mathématique est ajusté de manière appropriée, avec des exemples que le lecteur peut lire de façon sélective.
- Les idées clés des algorithmes sont isolées des éléments complexes afin d’aider le lecteur à mieux les comprendre.
- Chaque chapitre s’appuie sur le précédent et fournit les bases du suivant.
Contenu
- Ce livre se compose de 10 chapitres et se divise en deux parties, consacrées aux outils de base et aux algorithmes.
- Les chapitres sont interdépendants, et il est nécessaire d’étudier d’abord les premiers chapitres.
Public visé
- Ce livre s’adresse aux étudiants de fin de licence, aux doctorants, aux chercheurs et aux praticiens intéressés par le reinforcement learning.
- Il commence par les concepts de base afin de pouvoir être compris sans connaissances préalables en reinforcement learning.
- Des connaissances en théorie des probabilités et en algèbre linéaire sont nécessaires, et les bases mathématiques requises sont incluses en annexe.
Vidéos du cours
- Combiner le livre et les vidéos du cours permet un meilleur apprentissage.
- Les vidéos de cours en chinois sont disponibles sur la chaîne Bilibili et la chaîne YouTube, et ont dépassé 100�00 vues en février 2025.
- Les vidéos de cours en anglais ont été mises en ligne sur YouTube.
Présentation de l’auteur
- Les informations sur l’auteur sont disponibles sur sa page personnelle et le site web de son groupe de recherche.
- Il enseigne depuis 2019 un cours de master sur le reinforcement learning, et ce livre a été préparé à partir de ses notes de cours.
- Il espère que ce livre aidera les lecteurs à entrer plus facilement dans le domaine du reinforcement learning.
Citation
- Titre du livre : "Mathematical Foundations of Reinforcement Learning"
- Auteur : S. Zhao
- Année de publication : 2025
- Éditeurs : Springer Nature Press et Tsinghua University Press
Historique des mises à jour
- Février 2025 : plus de 5�000 étoiles obtenues
- Décembre 2024 : plus de 4�000 étoiles obtenues
- Octobre 2024 : conception de la couverture du livre terminée
- Septembre 2024 : dernières révisions avant la publication chez Springer
- Août 2024 : plus de 3�000 étoiles obtenues et ajout de code
- Juin 2024 : dernières révisions avant publication
- Avril 2024 : ajout du code de l’environnement Grid World
- Mars 2024 : 2�000 étoiles obtenues
- Mars 2024 : mise en ligne du brouillon de la troisième version
- Septembre 2023 : plus de 1�000 étoiles obtenues
- Août 2023 : mise en ligne du brouillon de la deuxième version
- Novembre 2022 : coédition prévue avec Springer Nature et Tsinghua University Press
- Octobre 2022 : notes de cours et vidéos mises en ligne
- Août 2022 : mise en ligne du premier brouillon
2 commentaires
Merci de présenter ces bonnes ressources.
Avis sur Hacker News
À l’époque d’OpenAI Gym, l’un des grands avantages du reinforcement learning (RL) était son accessibilité pour les débutants. On pouvait apprendre le RL comme hobby sur de petits environnements et l’appliquer à des problèmes simples comme Cartpole. Je me demande s’il existe, autour des LLMs, des tâches de RL ou des environnements d’apprentissage similaires et accessibles. Je me demande aussi ce qu’il est possible de faire dans le domaine LLM x RL avec un simple MacBook Air
Une autre excellente ressource sur le RL est la collection de manuels de Mykel Kochenderfer
Ce livre indique que le lecteur doit avoir des connaissances en théorie des probabilités et en algèbre linéaire. Ce genre de formulation doit toujours être pris avec des pincettes, en gardant à l’esprit qu’elle a été écrite par des passionnés de maths. Le programmeur moyen avec un niveau moyen en maths doit être prudent
Je ne vois pas comment le fait de comprendre ces ressources permettrait d’obtenir un emploi dans ce domaine. Pour l’instant, je reste software engineer (SWE)