CS234 : apprentissage par renforcement, trimestre d’hiver 2025

(web.stanford.edu)

3 points par GN⁺ 2025-11-28 | 1 commentaires | Partager sur WhatsApp

Cours de niveau graduate à l’université Stanford portant sur les concepts clés et les applications de l’apprentissage par renforcement (Reinforcement Learning), centré sur les principes selon lesquels des systèmes autonomes apprennent à prendre des décisions par eux-mêmes
Apprentissage de la manière de définir et résoudre avec le RL des problèmes issus de domaines variés comme la robotique, les jeux, la modélisation des consommateurs et la santé
Acquisition pratique, via des cours, devoirs écrits et devoirs de programmation, des bases des algorithmes de RL jusqu’au Deep RL
Les étudiants doivent maîtriser au préalable Python, l’algèbre linéaire, les probabilités et statistiques, ainsi que les bases du machine learning ; les devoirs sont remis via Gradescope
Curriculum structuré incluant le dilemme exploration/exploitation du RL, la recherche de politique, le RL offline, les cas AlphaGo, etc., ce qui en fait un élément important pour renforcer les compétences clés en recherche et en développement appliqué en IA

Vue d’ensemble du cours et organisation

Souligne la nécessité de systèmes qui apprennent de manière autonome à prendre des décisions pour atteindre les objectifs de l’intelligence artificielle
- L’apprentissage par renforcement constitue un paradigme puissant pour mettre en œuvre ce type de système, applicable à de nombreuses situations réelles
Le cours a lieu en direct le mardi et le jeudi, et les enregistrements sont fournis via Canvas
Les questions-réponses passent par Ed Forum, tandis que Gradescope est utilisé pour gérer les devoirs et les quiz
Emma Brunskill est l’enseignante responsable, avec le soutien de plusieurs assistants d’enseignement

Prérequis

Maîtrise de la programmation en Python indispensable ; tous les devoirs sont à réaliser en Python
Connaissances nécessaires en calcul différentiel au niveau universitaire, algèbre linéaire, probabilités et statistiques
Compréhension attendue des bases du machine learning (par ex. CS221, CS229)
- Y compris la définition d’une fonction de coût, l’optimisation par descente de gradient et les notions d’optimisation convexe

Objectifs d’apprentissage

Définir les caractéristiques essentielles qui distinguent l’apprentissage par renforcement du machine learning non interactif
Formaliser un problème applicatif donné en RL et concevoir l’espace d’états, l’espace d’actions et le modèle de récompense
Implémenter des algorithmes majeurs tels que la recherche de politique, Q-learning et la planification MDP
Comprendre des critères d’évaluation comme le regret, la complexité en échantillons, la complexité de calcul et la convergence
Comparer différentes approches du problème exploration vs exploitation

Résumé du calendrier du cours

Semaine 1 : introduction à l’apprentissage par renforcement, planification pour les MDP tabulaires
Semaine 2 : évaluation de politique, Q-learning et approximation de fonction
Semaines 3 à 4 : recherche de politique (1 à 3), RL offline et apprentissage par imitation
Semaine 5 : examen de mi-semestre, sujet DPO
Semaines 6 à 7 : approfondissement du RL offline, exploration (1 à 3)
Semaine 8 : exploration (4), conférence invitée, remise du jalon du projet
Semaine 9 : Monte Carlo Tree Search / AlphaGo, quiz
Semaines 10 à 11 : conférences invitées, session poster du projet final et remise du rapport

Manuels et ressources de référence

Il n’y a pas de manuel officiel ; la référence principale est Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
Parmi les ressources complémentaires figurent Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning et les cours de RL de David Silver

Pondération de l’évaluation

Devoir 1 : 10 %, Devoir 2 : 18 %, Devoir 3 : 18 %
Examen de mi-semestre : 25 %, quiz : 5 %, projet : 24 %
- Proposition 1 %, jalon 2 %, poster 5 %, article 16 %
Bonus de participation au cours : jusqu’à 0,5 %

Politique de retard et de remise

Un total de 5 jours de retard autorisés (late days) est accordé
Maximum 2 jours utilisables par devoir ; au-delà, une pénalité s’applique
- En cas de remise dans les 24 heures suivant l’échéance, la note est plafonnée à 50 % ; au-delà, la note est de 0
Aucun retard n’est autorisé pour la présentation du poster ni pour l’article final

Examens

Un examen de mi-semestre et un quiz sont organisés, tous deux en présentiel sur le campus
Un examen à distance ou de remplacement est possible en cas de motif officiel
Documents autorisés : une feuille de notes manuscrites (mi-semestre), une feuille recto verso (quiz)
Interdits : calculatrice, ordinateur portable, téléphone, tablette, etc.

Devoirs et remise

Tous les devoirs sont publiés sur la page Assignments
Certains devoirs peuvent utiliser des ressources de cloud computing
Les consignes de remise sont consultables sur une page dédiée

Intégrité académique et usage des outils d’IA

Les devoirs écrits autorisent la discussion d’idées, mais les réponses doivent être rédigées de manière indépendante
Pour les devoirs de programmation, seuls les résultats d’entrée/sortie peuvent être partagés ; le partage de code est interdit
La vérification du plagiat est effectuée au moyen d’un logiciel de détection de similarité
L’usage de l’IA générative (GPT-4, Gemini, Copilot, etc.) est autorisé à un niveau comparable à une collaboration humaine
- La génération directe de code ou la copie de réponses est interdite
- Toute utilisation doit être signalée, et la responsabilité finale incombe à l’étudiant
Un LLM ne peut pas être mentionné comme co-auteur d’un projet

Soutien académique et contestation des notes

Les demandes d’aménagement liées au handicap peuvent être adressées via l’Office of Accessible Education (OAE)
Les demandes de réévaluation peuvent être soumises sur Gradescope dans les 3 jours suivant la publication des notes
En cas de réexamen, l’ensemble du devoir peut être réévalué

Notes et modalité d’inscription

Les mêmes critères d’évaluation s’appliquent aussi en Credit/No Credit
La mention CR est accordée à partir d’un C- ou plus (environ 70 %)

Divers

Les étudiants SCPD peuvent adresser leurs questions administratives via une adresse e-mail dédiée
Le design du site web a été réalisé par Andrej Karpathy

1 commentaires

GN⁺ 2025-11-28

Avis Hacker News

Je pensais que les vidéos du cours avaient été publiées et j’étais enthousiaste, mais en regardant de plus près, elles étaient en fait privées
Pendant la pandémie, plusieurs institutions ont ouvert leurs ressources au monde entier, mais aujourd’hui la tendance est plutôt à refermer l’accès, non seulement aux nouveaux cours mais aussi aux anciennes vidéos
Même au MIT OCW, dès qu’on monte vers des cours avancés de niveau graduate, les ressources disparaissent
Bien sûr, je comprends qu’une université veuille donner la priorité à ses anciens élèves, mais rendre publiques des ressources de base comme des vidéos de cours ne coûte pratiquement rien
Ce type de ressource a l’air d’apporter une grande valeur au monde
- Les vidéos du cours 2024 sont disponibles dans une playlist YouTube
- Certains avancent aussi que publier de nouveaux supports facilite le plagiat par d’autres institutions
  Certains professeurs ne veulent pas partager leurs slides de cours ou leurs enregistrements pour des raisons de droit d’auteur
  Mais cette attitude donne l’impression de créer de l’exclusivité non pas par une véritable réputation, mais par des barrières juridiques
  Au final, ceux qui y gagnent sont seulement les étudiants qui ont payé des frais d’inscription élevés, les enseignants qui ne veulent pas changer, et les administrateurs universitaires
On dit parfois que « le RL est la pire méthode d’apprentissage, sauf toutes les autres »
Beaucoup de chercheurs pensent que dans dix ans, le RL ne sera plus le courant dominant de l’entraînement des modèles de pointe
Je suis d’accord, et je recommande d’écouter ce cours tout en réfléchissant à d’autres paradigmes
De la même façon que la génération d’images a fait un bond avec les diffusion models et que GPT a progressé avec le RLHF, le RL ne sera probablement pas l’étape finale
Notre tâche est de trouver une meilleure méthode
- On suppose souvent que les gens ne s’intéressent qu’à la génération d’images ou de texte, mais le RL excelle dans les problèmes de contrôle
  Avec un temps d’exécution suffisant, il garantit mathématiquement une solution optimale
  C’est pourquoi les voitures autonomes utilisent le RL, pas GPT
- Le RL est en pratique moins une méthode d’apprentissage qu’une manière de générer des datasets
- Dans l’industrie publicitaire aussi, le RL est encore très utilisé
  Lorsqu’il s’agit d’optimiser des centaines de millions à des milliards de visites, ajouter un contextual multi-armed bandit est très efficace pour stimuler les achats
- Je me demande quel paradigme est le plus adapté aux problèmes d’optimisation combinatoire (combinatorial optimization) ou aux environnements basés sur la simulation
- À l’époque étudiante, je voyais le RLHF comme une stratégie pour améliorer ses notes aux examens
  Mais dans le travail réel, j’ai compris que la généralisation out-of-distribution n’est pas possible avec un simple apprentissage fondé sur la récompense
Je me demandais si les vidéos étaient publiques, et les cours du semestre de printemps sont disponibles dans une playlist YouTube
En venant uniquement du ML traditionnel, je suis perdu sur la manière d’appliquer le RL à des problèmes généraux
Par exemple, je ne vois pas comment forcer l’application du RL à une classification binaire avec une BCE loss ou à un problème de prédiction des prix de l’immobilier
Je n’arrive pas à voir comment raccorder cela à une fonction de perte
- Les trois points à considérer pour décider d’utiliser le RL sont ① la quantité d’information contenue dans la perte de chaque exemple, ② la possibilité d’ajuster le modèle à partir du signal de perte, et ③ la complexité de l’espace des caractéristiques
  Pour un problème de régression clair comme la prédiction du prix d’un logement, les méthodes classiques sont largement suffisantes et le RL est inutile
  En revanche, pour un problème de décision séquentielle comme le go, où le signal de récompense est rare et où l’amélioration de la stratégie n’est pas évidente, le RL est approprié
- À ta place, je n’utiliserais pas le RL
  Le RL est utile dans des situations complexes sans labels, mais même pour des problèmes comme les échecs, le point clé est au final de les transformer en problème d’apprentissage supervisé
- Le RL est une technique qui cherche la politique optimale dans un processus de décision de Markov (MDP)
  Elle convient aux problèmes de décision séquentielle où les espaces d’états et d’actions sont définis, mais pas à la classification binaire ni à la régression
  Le RL est fort pour les problèmes où il faut prendre une décision au présent sans connaître les résultats futurs
Beaucoup disent que le RL est instable et difficile à faire converger
Les chercheurs de Stanford le reconnaissent aussi
Je me demande s’il existe une solution
- FlowRL est une piste possible
  En apprenant l’ensemble de la distribution des récompenses plutôt qu’un seul maximum, on améliore la stabilité
Si on a écouté le podcast d’Ilya, le titre de ce cours paraît intéressant
- Certains plaisantent : « Alors, est-ce que l’hiver de l’IA arrive finalement ? »
- D’autres demandent de quel podcast il s’agit exactement
Je cherche des livres recommandés sur le RL
J’ai déjà suffisamment étudié le deep learning
J’examine notamment Reinforcement Learning de Sutton, Reinforcement Learning, an overview de Kevin Patrick Murphy, ainsi que le nouveau livre de Sebastian Raschka
- Algorithms for Decision Making de Kochenderfer et al. traite aussi d’approches liées au RL
  Le PDF gratuit est disponible sur algorithmsbook.com

CS234 : apprentissage par renforcement, trimestre d’hiver 2025

Vue d’ensemble du cours et organisation

Prérequis

Objectifs d’apprentissage

Résumé du calendrier du cours

Manuels et ressources de référence

Pondération de l’évaluation

Politique de retard et de remise

Examens

Devoirs et remise

Intégrité académique et usage des outils d’IA

Soutien académique et contestation des notes

Notes et modalité d’inscription

Divers

À lire aussi

1 commentaires

Avis Hacker News