- Cours de niveau graduate à l’université Stanford portant sur les concepts clés et les applications de l’apprentissage par renforcement (Reinforcement Learning), centré sur les principes selon lesquels des systèmes autonomes apprennent à prendre des décisions par eux-mêmes
- Apprentissage de la manière de définir et résoudre avec le RL des problèmes issus de domaines variés comme la robotique, les jeux, la modélisation des consommateurs et la santé
- Acquisition pratique, via des cours, devoirs écrits et devoirs de programmation, des bases des algorithmes de RL jusqu’au Deep RL
- Les étudiants doivent maîtriser au préalable Python, l’algèbre linéaire, les probabilités et statistiques, ainsi que les bases du machine learning ; les devoirs sont remis via Gradescope
- Curriculum structuré incluant le dilemme exploration/exploitation du RL, la recherche de politique, le RL offline, les cas AlphaGo, etc., ce qui en fait un élément important pour renforcer les compétences clés en recherche et en développement appliqué en IA
Vue d’ensemble du cours et organisation
- Souligne la nécessité de systèmes qui apprennent de manière autonome à prendre des décisions pour atteindre les objectifs de l’intelligence artificielle
- L’apprentissage par renforcement constitue un paradigme puissant pour mettre en œuvre ce type de système, applicable à de nombreuses situations réelles
- Le cours a lieu en direct le mardi et le jeudi, et les enregistrements sont fournis via Canvas
- Les questions-réponses passent par Ed Forum, tandis que Gradescope est utilisé pour gérer les devoirs et les quiz
- Emma Brunskill est l’enseignante responsable, avec le soutien de plusieurs assistants d’enseignement
Prérequis
- Maîtrise de la programmation en Python indispensable ; tous les devoirs sont à réaliser en Python
- Connaissances nécessaires en calcul différentiel au niveau universitaire, algèbre linéaire, probabilités et statistiques
- Compréhension attendue des bases du machine learning (par ex. CS221, CS229)
- Y compris la définition d’une fonction de coût, l’optimisation par descente de gradient et les notions d’optimisation convexe
Objectifs d’apprentissage
- Définir les caractéristiques essentielles qui distinguent l’apprentissage par renforcement du machine learning non interactif
- Formaliser un problème applicatif donné en RL et concevoir l’espace d’états, l’espace d’actions et le modèle de récompense
- Implémenter des algorithmes majeurs tels que la recherche de politique, Q-learning et la planification MDP
- Comprendre des critères d’évaluation comme le regret, la complexité en échantillons, la complexité de calcul et la convergence
- Comparer différentes approches du problème exploration vs exploitation
Résumé du calendrier du cours
- Semaine 1 : introduction à l’apprentissage par renforcement, planification pour les MDP tabulaires
- Semaine 2 : évaluation de politique, Q-learning et approximation de fonction
- Semaines 3 à 4 : recherche de politique (1 à 3), RL offline et apprentissage par imitation
- Semaine 5 : examen de mi-semestre, sujet DPO
- Semaines 6 à 7 : approfondissement du RL offline, exploration (1 à 3)
- Semaine 8 : exploration (4), conférence invitée, remise du jalon du projet
- Semaine 9 : Monte Carlo Tree Search / AlphaGo, quiz
- Semaines 10 à 11 : conférences invitées, session poster du projet final et remise du rapport
Manuels et ressources de référence
- Il n’y a pas de manuel officiel ; la référence principale est Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
- Parmi les ressources complémentaires figurent Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning et les cours de RL de David Silver
Pondération de l’évaluation
- Devoir 1 : 10 %, Devoir 2 : 18 %, Devoir 3 : 18 %
- Examen de mi-semestre : 25 %, quiz : 5 %, projet : 24 %
- Proposition 1 %, jalon 2 %, poster 5 %, article 16 %
- Bonus de participation au cours : jusqu’à 0,5 %
Politique de retard et de remise
- Un total de 5 jours de retard autorisés (late days) est accordé
- Maximum 2 jours utilisables par devoir ; au-delà, une pénalité s’applique
- En cas de remise dans les 24 heures suivant l’échéance, la note est plafonnée à 50 % ; au-delà, la note est de 0
- Aucun retard n’est autorisé pour la présentation du poster ni pour l’article final
Examens
- Un examen de mi-semestre et un quiz sont organisés, tous deux en présentiel sur le campus
- Un examen à distance ou de remplacement est possible en cas de motif officiel
- Documents autorisés : une feuille de notes manuscrites (mi-semestre), une feuille recto verso (quiz)
- Interdits : calculatrice, ordinateur portable, téléphone, tablette, etc.
Devoirs et remise
- Tous les devoirs sont publiés sur la page Assignments
- Certains devoirs peuvent utiliser des ressources de cloud computing
- Les consignes de remise sont consultables sur une page dédiée
Intégrité académique et usage des outils d’IA
- Les devoirs écrits autorisent la discussion d’idées, mais les réponses doivent être rédigées de manière indépendante
- Pour les devoirs de programmation, seuls les résultats d’entrée/sortie peuvent être partagés ; le partage de code est interdit
- La vérification du plagiat est effectuée au moyen d’un logiciel de détection de similarité
- L’usage de l’IA générative (GPT-4, Gemini, Copilot, etc.) est autorisé à un niveau comparable à une collaboration humaine
- La génération directe de code ou la copie de réponses est interdite
- Toute utilisation doit être signalée, et la responsabilité finale incombe à l’étudiant
- Un LLM ne peut pas être mentionné comme co-auteur d’un projet
Soutien académique et contestation des notes
- Les demandes d’aménagement liées au handicap peuvent être adressées via l’Office of Accessible Education (OAE)
- Les demandes de réévaluation peuvent être soumises sur Gradescope dans les 3 jours suivant la publication des notes
- En cas de réexamen, l’ensemble du devoir peut être réévalué
Notes et modalité d’inscription
- Les mêmes critères d’évaluation s’appliquent aussi en Credit/No Credit
- La mention CR est accordée à partir d’un C- ou plus (environ 70 %)
Divers
- Les étudiants SCPD peuvent adresser leurs questions administratives via une adresse e-mail dédiée
- Le design du site web a été réalisé par Andrej Karpathy
1 commentaires
Avis Hacker News
Je pensais que les vidéos du cours avaient été publiées et j’étais enthousiaste, mais en regardant de plus près, elles étaient en fait privées
Pendant la pandémie, plusieurs institutions ont ouvert leurs ressources au monde entier, mais aujourd’hui la tendance est plutôt à refermer l’accès, non seulement aux nouveaux cours mais aussi aux anciennes vidéos
Même au MIT OCW, dès qu’on monte vers des cours avancés de niveau graduate, les ressources disparaissent
Bien sûr, je comprends qu’une université veuille donner la priorité à ses anciens élèves, mais rendre publiques des ressources de base comme des vidéos de cours ne coûte pratiquement rien
Ce type de ressource a l’air d’apporter une grande valeur au monde
Certains professeurs ne veulent pas partager leurs slides de cours ou leurs enregistrements pour des raisons de droit d’auteur
Mais cette attitude donne l’impression de créer de l’exclusivité non pas par une véritable réputation, mais par des barrières juridiques
Au final, ceux qui y gagnent sont seulement les étudiants qui ont payé des frais d’inscription élevés, les enseignants qui ne veulent pas changer, et les administrateurs universitaires
On dit parfois que « le RL est la pire méthode d’apprentissage, sauf toutes les autres »
Beaucoup de chercheurs pensent que dans dix ans, le RL ne sera plus le courant dominant de l’entraînement des modèles de pointe
Je suis d’accord, et je recommande d’écouter ce cours tout en réfléchissant à d’autres paradigmes
De la même façon que la génération d’images a fait un bond avec les diffusion models et que GPT a progressé avec le RLHF, le RL ne sera probablement pas l’étape finale
Notre tâche est de trouver une meilleure méthode
Avec un temps d’exécution suffisant, il garantit mathématiquement une solution optimale
C’est pourquoi les voitures autonomes utilisent le RL, pas GPT
Lorsqu’il s’agit d’optimiser des centaines de millions à des milliards de visites, ajouter un contextual multi-armed bandit est très efficace pour stimuler les achats
Mais dans le travail réel, j’ai compris que la généralisation out-of-distribution n’est pas possible avec un simple apprentissage fondé sur la récompense
Je me demandais si les vidéos étaient publiques, et les cours du semestre de printemps sont disponibles dans une playlist YouTube
En venant uniquement du ML traditionnel, je suis perdu sur la manière d’appliquer le RL à des problèmes généraux
Par exemple, je ne vois pas comment forcer l’application du RL à une classification binaire avec une BCE loss ou à un problème de prédiction des prix de l’immobilier
Je n’arrive pas à voir comment raccorder cela à une fonction de perte
Pour un problème de régression clair comme la prédiction du prix d’un logement, les méthodes classiques sont largement suffisantes et le RL est inutile
En revanche, pour un problème de décision séquentielle comme le go, où le signal de récompense est rare et où l’amélioration de la stratégie n’est pas évidente, le RL est approprié
Le RL est utile dans des situations complexes sans labels, mais même pour des problèmes comme les échecs, le point clé est au final de les transformer en problème d’apprentissage supervisé
Elle convient aux problèmes de décision séquentielle où les espaces d’états et d’actions sont définis, mais pas à la classification binaire ni à la régression
Le RL est fort pour les problèmes où il faut prendre une décision au présent sans connaître les résultats futurs
Beaucoup disent que le RL est instable et difficile à faire converger
Les chercheurs de Stanford le reconnaissent aussi
Je me demande s’il existe une solution
En apprenant l’ensemble de la distribution des récompenses plutôt qu’un seul maximum, on améliore la stabilité
Si on a écouté le podcast d’Ilya, le titre de ce cours paraît intéressant
Je cherche des livres recommandés sur le RL
J’ai déjà suffisamment étudié le deep learning
J’examine notamment Reinforcement Learning de Sutton, Reinforcement Learning, an overview de Kevin Patrick Murphy, ainsi que le nouveau livre de Sebastian Raschka
Le PDF gratuit est disponible sur algorithmsbook.com