4 points par GN⁺ 2024-05-06 | 1 commentaires | Partager sur WhatsApp

Introduction au Deep Reinforcement Learning

  • Ce cours est un guide pratique d'initiation aux algorithmes fondamentaux et classiques de Deep Reinforcement Learning.
  • À la fin du cours, vous pourrez implémenter directement des algorithmes tels que DQN, SAC et PPO, et comprendre à un niveau élevé le cadre théorique de ces algorithmes.
  • Vous pourrez entraîner des IA à jouer à des jeux Atari ou à atterrir sur la Lune.

Configuration de l'environnement

  • Il propose une méthode de configuration de l'environnement pour vous permettre de vous concentrer sur l'apprentissage
    • Installation de Miniconda (gestionnaire d'environnements avec choix de version Python)
    • Clonez ce dépôt Git puis déplacez-vous dans le dossier concerné
    • Création et activation de l'environnement virtuel drlzh
      conda create --name drlzh python=3.11
      conda activate drlzh  
      
    • Installation de Poetry et des dépendances (avec gymnasium[accept-rom-license] pour Atari)
      pip install poetry
      poetry install
      
    • Installation de Visual Studio Code

Démarrage

  • Ouvrez le dossier de ce dépôt dans Visual Studio Code (conservez le dossier .vscode)
  • Ouvrez le premier notebook 00_Intro.ipynb et suivez-le
  • Continuez ensuite avec les notebooks suivants
  • Consultez le dossier /solution en cas de blocage
  • Pour obtenir des explications détaillées sur le codage étape par étape, regardez la vidéo YouTube

Avis de GN⁺

  • Le Reinforcement Learning est l'une des technologies d'IA qui enregistre les plus grands succès dans les domaines des jeux et de la robotique, mais son application à des problèmes réels reste encore difficile. Par exemple, l'apprentissage prend du temps, et dans les situations où la sécurité est essentielle, il est difficile de passer par des essais et erreurs.
  • Ce cours traite de problèmes simples comme les jeux Atari ou une simulation d'atterrissage lunaire, ce qui en fait un bon support pour les débutants, mais il semble qu'un apprentissage supplémentaire soit nécessaire pour une utilisation sur le terrain.
  • Avec l'augmentation de ces ressources éducatives open source, davantage de développeurs peuvent apprendre et exploiter des technologies d'IA. En particulier, le reinforcement learning devrait devenir une compétence incontournable pour les ingénieurs en robotique ou en conduite autonome.
  • Pour la configuration de l'environnement de pratique, des outils variés comme Conda et Poetry sont utilisés, mais ce processus peut être lourd pour les débutants. Proposer un environnement pratique basé sur le cloud pourrait réduire la barrière à l'entrée.

1 commentaires

 
GN⁺ 2024-05-06
Commentaire Hacker News

Voici un résumé :

  • En essayant d'apprendre le Deep Reinforcement Learning (apprentissage par renforcement profond), j'ai pu trouver beaucoup de très bonnes ressources, mais il y en avait peu qui offraient un bon équilibre entre théorie et pratique.
  • J'ai donc décidé de le créer moi-même et de le partager en open source. J'ai réécrit les algorithmes depuis zéro dans un notebook Python avec une approche pédagogique.
  • C'est un tutoriel pratique, étape par étape, qui couvre la théorie et les exercices de codage pour les algorithmes les plus utilisés comme QLearning, DQN, SAC et PPO.

Retours

  • Il existe de nombreux exemples simples qui fonctionnent, mais peu de ressources pratiques sur ce qu'il faut faire quand des problèmes surviennent. Par exemple, ce serait utile d'avoir des conseils pour des situations où l'action touche sa valeur maximale, ou lorsque l'exploration ne se déroule pas correctement.
  • Les techniques RL récentes présentent parfois de moins bonnes performances que des heuristiques simples dans Tetris.
  • Il partage RaveForce, un framework DRL pour la génération musicale similaire à Gym. Vous pouvez l'utiliser pour tester les algorithmes.
  • Cela devrait aussi aider les personnes ayant peu de connaissances en statistiques/ML à comprendre comment l'agent apprend.
  • Il serait bien d'ajouter des liens vers des vidéos YouTube.
  • Il a indiqué avoir repris le titre de « Neural Network: Zero To Hero » d'Andrej Karpathy. Une remarque soulève aussi un risque de confusion avec sa marque personnelle.