Richard Sutton et Andrew Barto reçoivent le prix Turing 2024

(awards.acm.org)

1 points par GN⁺ 2025-03-06 | 1 commentaires | Partager sur WhatsApp

L’ACM a désigné Andrew G. Barto et Richard S. Sutton, qui ont posé les bases conceptuelles et algorithmiques de l’apprentissage par renforcement, comme lauréats du 2024 ACM A.M. Turing Award
Depuis les années 1980, les deux chercheurs ont formalisé l’apprentissage fondé sur la récompense comme un cadre général de résolution de problèmes, et développé des approches qui fonctionnent même lorsque l’environnement et les récompenses sont inconnus
Leurs contributions majeures ont conduit à l’apprentissage par différence temporelle, aux méthodes de gradient de politique, aux représentations de fonctions fondées sur les réseaux de neurones, ainsi qu’à la conception d’agents combinant apprentissage et planification
Le manuel de 1998 Reinforcement Learning: An Introduction a été cité plus de 75 000 fois et a influencé AlphaGo, le RLHF de ChatGPT, la manipulation robotique, le contrôle de congestion réseau et la conception de puces
Le prix Turing, soutenu par Google, est assorti d’une dotation de 1 million de dollars ; l’ACM estime que l’apprentissage par renforcement a contribué à la fois aux progrès de l’IA et à la compréhension du fonctionnement du cerveau

Lauréats et motifs de la distinction

L’ACM a désigné Andrew G. Barto et Richard S. Sutton comme lauréats du 2024 ACM A.M. Turing Award
Ils sont distingués pour avoir développé les bases conceptuelles et algorithmiques de l’apprentissage par renforcement
Dès les années 1980, ils ont introduit dans leurs publications les idées clés de l’apprentissage par renforcement, puis en ont construit les fondements mathématiques et les principaux algorithmes
Barto est professeur émérite en Information and Computer Sciences à l’University of Massachusetts, Amherst
Sutton est professeur d’informatique à l’University of Alberta, chercheur chez Keen Technologies et fellow de l’Amii (Alberta Machine Intelligence Institute)
Le ACM A.M. Turing Award est souvent qualifié de « prix Nobel de l’informatique » et s’accompagne d’une récompense de 1 million de dollars, financée par Google, Inc.

Le problème que résout l’apprentissage par renforcement

L’intelligence artificielle consiste généralement à créer des agents capables de percevoir un environnement et d’agir sur celui-ci
Un agent plus intelligent doit pouvoir choisir de meilleures séquences d’actions, et la capacité à juger qu’une action est meilleure qu’une autre est au cœur de l’IA
La récompense (reward) est un terme venu de la psychologie et des neurosciences, qui désigne le signal fourni en lien avec la qualité du comportement d’un agent
L’apprentissage par renforcement est le processus par lequel on apprend à agir avec plus de succès à partir de ce signal de récompense
Dans son article de 1950, “Computing Machinery and Intelligence”, Alan Turing traitait la question « Les machines peuvent-elles penser ? » et proposait une approche d’apprentissage automatique fondée sur les récompenses et les punitions
Arthur Samuel a développé à la fin des années 1950 un programme de dames capable d’apprendre en jouant contre lui-même, mais cette branche de l’IA a ensuite connu très peu de progrès pendant plusieurs décennies

Les contributions techniques de Barto et Sutton

Au début des années 1980, Barto et Sutton, alors son doctorant, ont commencé à formaliser l’apprentissage par renforcement comme un cadre général de résolution de problèmes, en s’inspirant d’observations issues de la psychologie
Ils se sont appuyés sur les fondements mathématiques des processus de décision de Markov (MDP)
- Dans un MDP, un agent prend des décisions dans un environnement probabiliste
- Après chaque transition, il reçoit un signal de récompense et cherche à maximiser la récompense cumulée à long terme
La théorie classique des MDP suppose que toutes les informations sont connues de l’agent, mais le cadre de l’apprentissage par renforcement traite aussi les situations où l’environnement et les récompenses sont inconnus
Comme les besoins en information sont limités et que le cadre MDP est général, l’apprentissage par renforcement peut s’appliquer à une grande variété de problèmes
Par leurs travaux communs et les collaborations qui ont suivi, Barto et Sutton ont développé plusieurs approches algorithmiques fondamentales en apprentissage par renforcement
- Leur contribution la plus importante est l’apprentissage par différence temporelle (temporal difference learning), qui a marqué une avancée majeure dans la résolution du problème de prédiction des récompenses
- Les méthodes de gradient de politique (policy-gradient methods) font aussi partie des approches majeures
- Ils ont fait progresser les approches utilisant des réseaux de neurones comme outil de représentation des fonctions apprises
- Ils ont également proposé des architectures d’agents combinant apprentissage et planification, où la connaissance de l’environnement acquise sert de base à la planification

L’influence du manuel et la continuité vers le deep reinforcement learning

Le manuel de 1998 Reinforcement Learning: An Introduction reste une référence standard du domaine et a été cité plus de 75 000 fois
Cet ouvrage a aidé des milliers de chercheurs à comprendre et à faire progresser l’apprentissage par renforcement, alors champ émergent, et continue d’influencer la recherche en informatique aujourd’hui
Les algorithmes de Barto et Sutton ont été développés il y a plusieurs décennies, mais les 15 dernières années ont vu des avancées majeures en application réelle grâce à la combinaison entre apprentissage par renforcement et deep learning
Cette convergence a conduit aux techniques de deep reinforcement learning
Les algorithmes de deep learning sont présentés comme ayant été lancés par les lauréats du prix Turing 2018 Bengio, Hinton et LeCun

Cas d’usage et extension des recherches

Parmi les exemples emblématiques de l’apprentissage par renforcement figurent les victoires d’AlphaGo sur les meilleurs joueurs humains de go en 2016 et 2017
ChatGPT fait également partie des réussites majeures
- ChatGPT est un grand modèle de langage entraîné en deux étapes
- Lors de la seconde étape, il utilise l’apprentissage par renforcement à partir de retours humains (RLHF) afin de mieux capter les attentes humaines
En robotique, on peut citer la manipulation robotique dans la main et la résolution physique du Rubik’s Cube
- Ces travaux montrent qu’un apprentissage par renforcement effectué en simulation peut réussir dans le monde réel, pourtant sensiblement différent
Parmi les autres domaines d’application figurent le contrôle de congestion réseau, la conception de puces, la publicité sur Internet, l’optimisation, l’optimisation des chaînes d’approvisionnement mondiales, l’amélioration du comportement et des capacités de raisonnement des chatbots, ainsi que l’amélioration des algorithmes de multiplication matricielle
Les techniques inspirées des neurosciences ont, en retour, influencé les neurosciences elles-mêmes
- Des travaux récents, dont ceux de Barto, estiment que certains algorithmes d’apprentissage par renforcement développés en IA expliquent le mieux plusieurs découvertes liées au système dopaminergique du cerveau humain

L’évaluation de l’ACM et de Google

Le président de l’ACM, Yannis Ioannidis, estime que les travaux de Barto et Sutton montrent le potentiel d’une approche pluridisciplinaire appliquée à un défi ancien de l’informatique
Les sciences cognitives, la psychologie et les neurosciences ont inspiré les progrès de l’apprentissage par renforcement, qui a à son tour fourni une base essentielle aux avancées de l’IA ainsi qu’une meilleure compréhension du fonctionnement du cerveau
Ioannidis a déclaré que l’apprentissage par renforcement n’est pas une simple étape révolue, mais un domaine toujours en croissance, porteur de nouveaux progrès potentiels pour l’informatique et de nombreuses autres disciplines
Le Senior Vice President de Google, Jeff Dean, a cité une conférence donnée par Alan Turing en 1947, dans laquelle il disait : « Ce que nous voulons, c’est une machine capable d’apprendre par l’expérience »
Selon Dean, l’apprentissage par renforcement, dont Barto et Sutton ont été les pionniers, répond directement au défi posé par Turing, a constitué l’un des axes centraux des progrès de l’IA au cours des dernières décennies, et reste l’un des piliers du boom actuel de l’IA

Biographies des lauréats

Andrew Barto est professeur émérite au département Information and Computer Sciences de l’University of Massachusetts, Amherst
- Il a commencé sa carrière en 1977 comme chercheur postdoctoral à UMass Amherst
- Il a ensuite occupé les fonctions d’Associate Professor, de Professor et de Department Chair
- Il est titulaire d’une licence de mathématiques ainsi que d’un master et d’un doctorat en Computer and Communication Sciences de l’University of Michigan
- Il a reçu le UMass Neurosciences Lifetime Achievement Award, l’IJCAI Award for Research Excellence et l’IEEE Neural Network Society Pioneer Award
- Il est IEEE Fellow et AAAS Fellow
Richard Sutton est professeur d’informatique à l’University of Alberta, chercheur chez Keen Technologies, société d’intelligence artificielle générale basée à Dallas, et conseiller scientifique en chef d’Amii
- Il a été Distinguished Research Scientist chez DeepMind de 2017 à 2023
- De 1998 à 2002, il a travaillé comme Principal Technical Staff Member dans la division IA des AT&T Shannon Laboratory
- Sa collaboration avec Barto a commencé en 1978 à l’University of Massachusetts at Amherst, où Barto a été son directeur de doctorat puis de postdoctorat
- Il est titulaire d’une licence de psychologie de Stanford University, ainsi que d’un master et d’un doctorat en Computer and Information Science de l’University of Massachusetts at Amherst
- Il a reçu l’IJCAI Research Excellence Award, le Canadian Artificial Intelligence Association Lifetime Achievement Award et l’University of Massachusetts at Amherst Outstanding Achievement in Research Award
- Il est fellow de la Royal Society of London, de l’Association for the Advancement of Artificial Intelligence et de la Royal Society of Canada

1 commentaires

GN⁺ 2025-03-06

Avis sur Hacker News

Ça me fait vraiment plaisir de voir ça. Il se trouve que ma femme et moi avons acheté la maison d’Andy Barto et de sa femme.
Il y avait une surenchère pendant l’achat et, comme on nous a demandé de faire « notre meilleure offre », sachant qu’il était mathématicien, nous avons proposé un montant premier. C’est chouette de voir son travail reconnu.
- Il aurait aussi pu plaisanter en disant : « Soyons équitables, que diriez-vous de 2 dollars ? »
- Par « montant premier », c’était $12345678910987654321 ?
- Quelle histoire incroyable. Je me demande quel était ce montant premier.
Super, et amplement mérité. Les deux éditions du manuel de reinforcement learning sont disponibles gratuitement en PDF.
Je travaille comme praticien rémunéré de l’IA depuis 1982, mais le reinforcement learning a été pour moi un sujet difficile à apprendre seul, et le livre de Sutton/Barto ainsi que le cours Coursera sur le reinforcement learning des professeurs White m’ont beaucoup aidé. Je recommande.
Les programmes d’exemple du livre sont disponibles en Common Lisp et en Python : http://incompleteideas.net/book/the-book-2nd.html
C’est le bon moment pour relire The Bitter Lesson : https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson...
- L’URL officielle est ici : <http://www.incompleteideas.net/IncIdeas/BitterLesson.html>
- C’est vraiment une leçon amère. Avant, encoder des connaissances humaines dans l’ordinateur était plaisant, et cela permettait de comprendre ce qui se passait.
  Désormais, tout devient une énorme boîte noire difficile à raisonner. Par ailleurs, la loi de Moore est devenue une prophétie autoréalisatrice. L’IA fait fortement grimper la demande en puissance de calcul, ce qui pousse les fabricants de puces à créer du matériel dédié, et cela tourne comme un flywheel.
- Cela dépend un peu de l’objectif de la recherche en IA. Si le but est de construire des machines capables d’exécuter des tâches que l’on pensait réservées ou nécessaires à l’esprit humain, alors cette leçon amère vaut largement le coup.
  Mais si l’objectif est d’apprendre à une machine à faire X tout en comprenant aussi comment les humains font X, des constructions statistiques de plus en plus complexes n’apportent qu’une information limitée. Je ne prends pas parti pour l’un ou l’autre ; je veux dire qu’une approche plus nuancée peut être nécessaire.
- On a observé une dynamique similaire en vision par ordinateur. Les premières méthodes traitaient la vision en cherchant des arêtes, des cylindres généralisés ou des caractéristiques SIFT, mais aujourd’hui ces choses ont été abandonnées, et les réseaux neuronaux modernes de deep learning font bien mieux avec seulement des convolutions et certaines invariances.
  J’étais sur le terrain au moment où le pattern matching commençait à mourir en vision. Il n’a pas totalement disparu, et ce qu’on a appris à l’époque reste utile ailleurs aujourd’hui.
- Quand on pense à la leçon amère qu’ont dû apprendre les praticiens classiques du traitement automatique du langage naturel, ça donne le vertige. Ce texte reste toujours valable aujourd’hui.
Leur livre Reinforcement Learning: An Introduction est l’un des textes les plus accessibles dans le domaine de l’IA et du machine learning, je le recommande vivement.
- J’ai essayé de me lancer dans le reinforcement learning, mais j’ai toujours eu l’impression que les formules et toutes sortes de choses avec des astérisques dépassaient largement mon niveau.
- Je serais curieux de connaître ton parcours. Malheureusement, je n’ai pas trouvé ce livre si accessible.
- Ce livre est un plaisir à lire. Je le recommande vivement.
- Le livre dont tu parles est Reinforcement Learning: An Introduction ? Ou bien en ont-ils écrit un autre ?
Pour équilibrer, il aurait fallu le donner à des physiciens.
Il faut rappeler que Sutton est un successionniste de l’humanité et quelqu’un que cela ne dérange pas si tous les humains meurent. Ce n’est pas une personne à qui faire confiance ni à célébrer : https://www.youtube.com/watch?v=NgHFMolXs3U
- Le prix de l’ACM récompense leurs réalisations académiques professionnelles. Il faut arrêter cette obsession consistant à fouiller dans la vie privée de quelqu’un pour trouver la chose la plus étrange qu’il ait dite, puis à s’en servir pour couvrir de mal l’ensemble de l’œuvre d’une vie.
  Il est stupide et dangereux de penser que, parce qu’on n’aime pas A et que cette personne a dit ou fait A, n’importe qui peut invalider ses nobles accomplissements sur B, qui peuvent changer le monde. Internet met sur le même plan le jugement de gens qui connaissent bien le sujet et la simple antipathie. Cette façon de faire divise les gens à plus grande échelle, et cela me met en colère.
- As-tu déjà rencontré Sutton en personne ? C’est l’une des personnes les plus chaleureuses, attentionnées et passionnées, presque un hippie, que j’aie rencontrées. Il ne souhaite pas que tous les humains meurent.
  La conférence que tu as liée n’étaye pas non plus cette affirmation. Si j’ai manqué quelque chose, donne un horodatage. Dans la conférence, il dit que même si l’humanité ne contrôle plus seule son destin, cela mènera à une ère de prospérité. La diapositive de conclusion à 12:33 contient littéralement l’élément « meilleur espoir pour l’avenir à long terme de l’humanité ». C’est l’exact opposé de « cela ne le dérange pas si tous les humains meurent ».
  Le fait que je prépare ma succession ne signifie pas que je souhaite ou que je m’attends à ce que ma fille me tue. J’espère prendre une retraite longue et en bonne santé, puis m’endormir paisiblement en sachant que, dans une relation symbiotique avec l’univers, j’ai transmis à ma fille ce que je pouvais de mieux.
- « Cela ne le dérange pas si tous les humains meurent » me semble être une formulation dure et trompeuse de sa position.
  À mon avis, il est plutôt proche de l’idée qu’il est inévitable que les humains soient un jour remplacés par des transhumains. Cela ressemble davantage à un utopisme de science-fiction un peu brut qu’à de la malveillance, et cela ne me paraît pas être une raison de ne pas célébrer ses travaux académiques.
- Signaler ce point de vue est intéressant, mais je ne vois pas pourquoi on ne devrait pas faire confiance à quelqu’un ni le célébrer simplement parce qu’il a des opinions avec lesquelles on n’est pas d’accord.
  En particulier, l’insinuation selon laquelle Sutton souhaiterait activement que tout le monde meure semble très peu étayée.
- Sa dernière diapositive dit littéralement « meilleur espoir pour l’avenir à long terme de l’humanité ». C’est l’exact contraire de l’affirmation.
J’ai utilisé leur livre sur le reinforcement learning dans un cours que j’ai enseigné. Il est magnifiquement écrit et disponible gratuitement : http://incompleteideas.net/book/the-book-2nd.html
Les phrases étaient si bonnes qu’il m’arrivait de perdre le fil du contenu réel en lisant.
Un grand bravo à Andrew Barto et Richard Sutton pour leur Turing Award. Quand j’étais étudiant, Reinforcement Learning: An Introduction a été ma porte d’entrée dans ce domaine.
Le chapitre 6, en particulier, Temporal Difference Learning, a fondamentalement changé ma manière d’envisager la prise de décision séquentielle. C’est un classique intemporel que je recommande encore vivement de lire.
C’est une récompense attendue depuis longtemps. Ils ont porté une idée du début à la fin et en ont fait non pas un sous-chapitre de livres de programmation dynamique, mais un domaine entier.
J’aimerais voir le reinforcement learning beaucoup plus utilisé dans les jeux, qui sont aussi l’endroit où tout a commencé. Ce serait vraiment génial.
Prix mérité. Le reinforcement learning va devenir de plus en plus important avec le temps, grâce à la flexibilité qu’il possède avec les réseaux neuronaux.
À mesure qu’on passe à l’échelle, la leçon amère ne paraîtra peut-être plus si amère.

Richard Sutton et Andrew Barto reçoivent le prix Turing 2024

Lauréats et motifs de la distinction

Le problème que résout l’apprentissage par renforcement

Les contributions techniques de Barto et Sutton

L’influence du manuel et la continuité vers le deep reinforcement learning

Cas d’usage et extension des recherches

L’évaluation de l’ACM et de Google

Biographies des lauréats

À lire aussi

1 commentaires

Avis sur Hacker News