-
ACM A.M. Turing Award Honors Two Researchers Who Led the Development of Cornerstone AI Technology
-
Andrew Barto and Richard Sutton Recognized as Pioneers of Reinforcement Learning
- L’ACM a désigné Andrew G. Barto et Richard S. Sutton comme lauréats du ACM A.M. Turing Award 2024. Ils ont développé les bases conceptuelles et algorithmiques de l’apprentissage par renforcement.
- Barto est professeur émérite en information et informatique à l’Université du Massachusetts à Amherst, et Sutton est professeur d’informatique à l’Université de l’Alberta.
- Le prix Turing est souvent considéré comme le prix Nobel de l’informatique, avec une dotation de 1 million de dollars financée par Google.
-
What is Reinforcement Learning?
- Le domaine de l’intelligence artificielle (IA) se concentre principalement sur la construction d’agents capables de percevoir et d’agir. L’apprentissage par renforcement (RL) est le processus par lequel ces agents apprennent de meilleurs comportements à partir de signaux de récompense.
- Les bases de l’apprentissage par renforcement remontent au début des années 1980, lorsque Barto et Sutton, à partir d’observations issues de la psychologie, l’ont formalisé comme un cadre général de résolution de problèmes.
- Ils ont développé des algorithmes d’apprentissage par renforcement en s’appuyant sur des fondements mathématiques basés sur les processus de décision markoviens (MDP).
-
Contributions majeures
- Barto et Sutton ont développé les principales approches algorithmiques de l’apprentissage par renforcement, notamment l’apprentissage par différence temporelle, les méthodes de gradient de politique, et la représentation des fonctions d’apprentissage à l’aide de réseaux de neurones.
- Leur manuel, "Reinforcement Learning: An Introduction", reste la référence standard du domaine et a été cité plus de 75 000 fois.
-
Applications concrètes de l’apprentissage par renforcement
- L’apprentissage par renforcement a connu de grandes avancées au cours des 15 dernières années en combinaison avec des algorithmes de deep learning. Parmi les exemples les plus connus figurent la victoire d’AlphaGo au go et le développement de ChatGPT.
- L’apprentissage par renforcement rencontre du succès dans de nombreux domaines, notamment l’apprentissage des compétences motrices en robotique, le contrôle de la congestion réseau, la conception de puces et l’optimisation de la publicité sur Internet.
-
Inspiration neuroscientifique de l’apprentissage par renforcement
- Des recherches récentes montrent que certains algorithmes d’apprentissage par renforcement développés en IA correspondent le mieux à l’explication du système dopaminergique du cerveau humain.
-
Explication du ACM A.M. Turing Award
- Le prix Turing est décerné depuis 1966 afin d’honorer les informaticiens et ingénieurs qui ont contribué au progrès de l’industrie des technologies de l’information.
-
Lauréats du ACM A.M. Turing Award 2024
- Andrew Barto est professeur émérite en information et informatique à l’Université du Massachusetts à Amherst et a reçu de nombreuses distinctions.
- Richard Sutton est professeur d’informatique à l’Université de l’Alberta, a travaillé dans divers instituts de recherche et a reçu plusieurs récompenses.
1 commentaires
Commentaires Hacker News
C’est vraiment génial. Ma femme et moi avons acheté la maison d’Andy Barto et de sa femme
Génial ! Il le mérite amplement. Ils proposent gratuitement en PDF les deux éditions du manuel sur le RL
C’est le bon moment pour relire The Bitter Lesson
Sutton est un successeuriste humain et cela lui est égal si tous les humains meurent. On ne peut pas lui faire confiance et ce n’est pas quelqu’un à féliciter
Il aurait mieux valu remettre le prix à des physiciens
Je suis surpris que Sutton vive à Edmonton, au Canada, plutôt qu’aux États-Unis
Ils sont excellents, mais malheureusement, le livre sur l’IA de Sutton et Barto est vraiment mauvais
J’ai utilisé leur livre sur le RL dans le cours que j’enseignais
Toutes mes félicitations à Andrew Barto et Richard Sutton pour leur Turing Award
Cela a pris longtemps. Ils ont porté l’idée du début à la fin et l’ont transformée en un champ entier, au lieu d’en faire un simple sous-chapitre dans un livre sur la programmation dynamique