3 points par GN⁺ 2025-11-28 | 1 commentaires | Partager sur WhatsApp
  • Cours de niveau graduate à l’université Stanford portant sur les concepts clés et les applications de l’apprentissage par renforcement (Reinforcement Learning), centré sur les principes selon lesquels des systèmes autonomes apprennent à prendre des décisions par eux-mêmes
  • Apprentissage de la manière de définir et résoudre avec le RL des problèmes issus de domaines variés comme la robotique, les jeux, la modélisation des consommateurs et la santé
  • Acquisition pratique, via des cours, devoirs écrits et devoirs de programmation, des bases des algorithmes de RL jusqu’au Deep RL
  • Les étudiants doivent maîtriser au préalable Python, l’algèbre linéaire, les probabilités et statistiques, ainsi que les bases du machine learning ; les devoirs sont remis via Gradescope
  • Curriculum structuré incluant le dilemme exploration/exploitation du RL, la recherche de politique, le RL offline, les cas AlphaGo, etc., ce qui en fait un élément important pour renforcer les compétences clés en recherche et en développement appliqué en IA

Vue d’ensemble du cours et organisation

  • Souligne la nécessité de systèmes qui apprennent de manière autonome à prendre des décisions pour atteindre les objectifs de l’intelligence artificielle
    • L’apprentissage par renforcement constitue un paradigme puissant pour mettre en œuvre ce type de système, applicable à de nombreuses situations réelles
  • Le cours a lieu en direct le mardi et le jeudi, et les enregistrements sont fournis via Canvas
  • Les questions-réponses passent par Ed Forum, tandis que Gradescope est utilisé pour gérer les devoirs et les quiz
  • Emma Brunskill est l’enseignante responsable, avec le soutien de plusieurs assistants d’enseignement

Prérequis

  • Maîtrise de la programmation en Python indispensable ; tous les devoirs sont à réaliser en Python
  • Connaissances nécessaires en calcul différentiel au niveau universitaire, algèbre linéaire, probabilités et statistiques
  • Compréhension attendue des bases du machine learning (par ex. CS221, CS229)
    • Y compris la définition d’une fonction de coût, l’optimisation par descente de gradient et les notions d’optimisation convexe

Objectifs d’apprentissage

  • Définir les caractéristiques essentielles qui distinguent l’apprentissage par renforcement du machine learning non interactif
  • Formaliser un problème applicatif donné en RL et concevoir l’espace d’états, l’espace d’actions et le modèle de récompense
  • Implémenter des algorithmes majeurs tels que la recherche de politique, Q-learning et la planification MDP
  • Comprendre des critères d’évaluation comme le regret, la complexité en échantillons, la complexité de calcul et la convergence
  • Comparer différentes approches du problème exploration vs exploitation

Résumé du calendrier du cours

  • Semaine 1 : introduction à l’apprentissage par renforcement, planification pour les MDP tabulaires
  • Semaine 2 : évaluation de politique, Q-learning et approximation de fonction
  • Semaines 3 à 4 : recherche de politique (1 à 3), RL offline et apprentissage par imitation
  • Semaine 5 : examen de mi-semestre, sujet DPO
  • Semaines 6 à 7 : approfondissement du RL offline, exploration (1 à 3)
  • Semaine 8 : exploration (4), conférence invitée, remise du jalon du projet
  • Semaine 9 : Monte Carlo Tree Search / AlphaGo, quiz
  • Semaines 10 à 11 : conférences invitées, session poster du projet final et remise du rapport

Manuels et ressources de référence

  • Il n’y a pas de manuel officiel ; la référence principale est Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
  • Parmi les ressources complémentaires figurent Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning et les cours de RL de David Silver

Pondération de l’évaluation

  • Devoir 1 : 10 %, Devoir 2 : 18 %, Devoir 3 : 18 %
  • Examen de mi-semestre : 25 %, quiz : 5 %, projet : 24 %
    • Proposition 1 %, jalon 2 %, poster 5 %, article 16 %
  • Bonus de participation au cours : jusqu’à 0,5 %

Politique de retard et de remise

  • Un total de 5 jours de retard autorisés (late days) est accordé
  • Maximum 2 jours utilisables par devoir ; au-delà, une pénalité s’applique
    • En cas de remise dans les 24 heures suivant l’échéance, la note est plafonnée à 50 % ; au-delà, la note est de 0
  • Aucun retard n’est autorisé pour la présentation du poster ni pour l’article final

Examens

  • Un examen de mi-semestre et un quiz sont organisés, tous deux en présentiel sur le campus
  • Un examen à distance ou de remplacement est possible en cas de motif officiel
  • Documents autorisés : une feuille de notes manuscrites (mi-semestre), une feuille recto verso (quiz)
  • Interdits : calculatrice, ordinateur portable, téléphone, tablette, etc.

Devoirs et remise

  • Tous les devoirs sont publiés sur la page Assignments
  • Certains devoirs peuvent utiliser des ressources de cloud computing
  • Les consignes de remise sont consultables sur une page dédiée

Intégrité académique et usage des outils d’IA

  • Les devoirs écrits autorisent la discussion d’idées, mais les réponses doivent être rédigées de manière indépendante
  • Pour les devoirs de programmation, seuls les résultats d’entrée/sortie peuvent être partagés ; le partage de code est interdit
  • La vérification du plagiat est effectuée au moyen d’un logiciel de détection de similarité
  • L’usage de l’IA générative (GPT-4, Gemini, Copilot, etc.) est autorisé à un niveau comparable à une collaboration humaine
    • La génération directe de code ou la copie de réponses est interdite
    • Toute utilisation doit être signalée, et la responsabilité finale incombe à l’étudiant
  • Un LLM ne peut pas être mentionné comme co-auteur d’un projet

Soutien académique et contestation des notes

  • Les demandes d’aménagement liées au handicap peuvent être adressées via l’Office of Accessible Education (OAE)
  • Les demandes de réévaluation peuvent être soumises sur Gradescope dans les 3 jours suivant la publication des notes
  • En cas de réexamen, l’ensemble du devoir peut être réévalué

Notes et modalité d’inscription

  • Les mêmes critères d’évaluation s’appliquent aussi en Credit/No Credit
  • La mention CR est accordée à partir d’un C- ou plus (environ 70 %)

Divers

  • Les étudiants SCPD peuvent adresser leurs questions administratives via une adresse e-mail dédiée
  • Le design du site web a été réalisé par Andrej Karpathy

1 commentaires

 
GN⁺ 2025-11-28
Avis Hacker News
  • Je pensais que les vidéos du cours avaient été publiées et j’étais enthousiaste, mais en regardant de plus près, elles étaient en fait privées
    Pendant la pandémie, plusieurs institutions ont ouvert leurs ressources au monde entier, mais aujourd’hui la tendance est plutôt à refermer l’accès, non seulement aux nouveaux cours mais aussi aux anciennes vidéos
    Même au MIT OCW, dès qu’on monte vers des cours avancés de niveau graduate, les ressources disparaissent
    Bien sûr, je comprends qu’une université veuille donner la priorité à ses anciens élèves, mais rendre publiques des ressources de base comme des vidéos de cours ne coûte pratiquement rien
    Ce type de ressource a l’air d’apporter une grande valeur au monde

    • Les vidéos du cours 2024 sont disponibles dans une playlist YouTube
    • Certains avancent aussi que publier de nouveaux supports facilite le plagiat par d’autres institutions
      Certains professeurs ne veulent pas partager leurs slides de cours ou leurs enregistrements pour des raisons de droit d’auteur
      Mais cette attitude donne l’impression de créer de l’exclusivité non pas par une véritable réputation, mais par des barrières juridiques
      Au final, ceux qui y gagnent sont seulement les étudiants qui ont payé des frais d’inscription élevés, les enseignants qui ne veulent pas changer, et les administrateurs universitaires
  • On dit parfois que « le RL est la pire méthode d’apprentissage, sauf toutes les autres »
    Beaucoup de chercheurs pensent que dans dix ans, le RL ne sera plus le courant dominant de l’entraînement des modèles de pointe
    Je suis d’accord, et je recommande d’écouter ce cours tout en réfléchissant à d’autres paradigmes
    De la même façon que la génération d’images a fait un bond avec les diffusion models et que GPT a progressé avec le RLHF, le RL ne sera probablement pas l’étape finale
    Notre tâche est de trouver une meilleure méthode

    • On suppose souvent que les gens ne s’intéressent qu’à la génération d’images ou de texte, mais le RL excelle dans les problèmes de contrôle
      Avec un temps d’exécution suffisant, il garantit mathématiquement une solution optimale
      C’est pourquoi les voitures autonomes utilisent le RL, pas GPT
    • Le RL est en pratique moins une méthode d’apprentissage qu’une manière de générer des datasets
    • Dans l’industrie publicitaire aussi, le RL est encore très utilisé
      Lorsqu’il s’agit d’optimiser des centaines de millions à des milliards de visites, ajouter un contextual multi-armed bandit est très efficace pour stimuler les achats
    • Je me demande quel paradigme est le plus adapté aux problèmes d’optimisation combinatoire (combinatorial optimization) ou aux environnements basés sur la simulation
    • À l’époque étudiante, je voyais le RLHF comme une stratégie pour améliorer ses notes aux examens
      Mais dans le travail réel, j’ai compris que la généralisation out-of-distribution n’est pas possible avec un simple apprentissage fondé sur la récompense
  • Je me demandais si les vidéos étaient publiques, et les cours du semestre de printemps sont disponibles dans une playlist YouTube

  • En venant uniquement du ML traditionnel, je suis perdu sur la manière d’appliquer le RL à des problèmes généraux
    Par exemple, je ne vois pas comment forcer l’application du RL à une classification binaire avec une BCE loss ou à un problème de prédiction des prix de l’immobilier
    Je n’arrive pas à voir comment raccorder cela à une fonction de perte

    • Les trois points à considérer pour décider d’utiliser le RL sont ① la quantité d’information contenue dans la perte de chaque exemple, ② la possibilité d’ajuster le modèle à partir du signal de perte, et ③ la complexité de l’espace des caractéristiques
      Pour un problème de régression clair comme la prédiction du prix d’un logement, les méthodes classiques sont largement suffisantes et le RL est inutile
      En revanche, pour un problème de décision séquentielle comme le go, où le signal de récompense est rare et où l’amélioration de la stratégie n’est pas évidente, le RL est approprié
    • À ta place, je n’utiliserais pas le RL
      Le RL est utile dans des situations complexes sans labels, mais même pour des problèmes comme les échecs, le point clé est au final de les transformer en problème d’apprentissage supervisé
    • Le RL est une technique qui cherche la politique optimale dans un processus de décision de Markov (MDP)
      Elle convient aux problèmes de décision séquentielle où les espaces d’états et d’actions sont définis, mais pas à la classification binaire ni à la régression
      Le RL est fort pour les problèmes où il faut prendre une décision au présent sans connaître les résultats futurs
  • Beaucoup disent que le RL est instable et difficile à faire converger
    Les chercheurs de Stanford le reconnaissent aussi
    Je me demande s’il existe une solution

    • FlowRL est une piste possible
      En apprenant l’ensemble de la distribution des récompenses plutôt qu’un seul maximum, on améliore la stabilité
  • Si on a écouté le podcast d’Ilya, le titre de ce cours paraît intéressant

    • Certains plaisantent : « Alors, est-ce que l’hiver de l’IA arrive finalement ? »
    • D’autres demandent de quel podcast il s’agit exactement
  • Je cherche des livres recommandés sur le RL
    J’ai déjà suffisamment étudié le deep learning
    J’examine notamment Reinforcement Learning de Sutton, Reinforcement Learning, an overview de Kevin Patrick Murphy, ainsi que le nouveau livre de Sebastian Raschka

    • Algorithms for Decision Making de Kochenderfer et al. traite aussi d’approches liées au RL
      Le PDF gratuit est disponible sur algorithmsbook.com