Une IA qui apprend au-delà du jeu jusqu’au réel : le défi de John Carmack pour un apprentissage par renforcement ancré dans la réalité

(twitter.com/ID_AA_Carmack)

17 points par GN⁺ 2025-05-24 | 1 commentaires | Partager sur WhatsApp

Résumé des notes préparatoires et des slides de la présentation « Upper Bound 2025 » de John Carmack
John Carmack, après être passé par Id Software, Oculus et Keen Technologies, se consacre aujourd’hui à la recherche sur une AGI fondée sur l’apprentissage par renforcement
Il évite les LLM et s’intéresse à un apprentissage continu et efficace où l’on apprend en interagissant avec l’environnement, comme les animaux
À partir des jeux Atari classiques, il a construit un système de RL physique qui apprend via des entrées en temps réel de caméra et de joystick
Il expose largement les défis techniques que les systèmes de RL doivent résoudre pour se rapprocher du réel : vitesse, latence, apprentissage continu, prévention de l’oubli, etc.
Il partage des observations affûtées issues de l’expérience sur l’architecture CNN, la représentation des récompenses, les stratégies d’exploration, tout en remettant en question les pratiques établies

Slides : https://docs.google.com/presentation/d/…
Notes préparatoires : https://docs.google.com/document/d/…

Quick Background

En tant que fondateur d’Id Software, Quake a stimulé l’évolution des GPU et influencé indirectement le domaine de l’IA
Chez Armadillo Aerospace, il a mené pendant 10 ans des recherches sur les fusées à décollage et atterrissage verticaux
Chez Oculus, il a posé les bases de la VR moderne
Il a fondé Keen Technologies et se consacre pleinement à la recherche en IA, avec un focus sur l’apprentissage par renforcement
Il mène des recherches avec Richard Sutton et partage avec lui une même philosophie de l’apprentissage par renforcement

Where I thought I was going

Not LLMs

Les LLM sont une “connaissance sans apprentissage”, une philosophie différente de l’apprentissage interactif qu’il recherche
Même s’il reste possible que les LLM remplacent le RL, il trouve plus attirante l’idée d’apprendre depuis l’environnement, comme les animaux

Games

Grâce à sa longue expérience dans le développement de jeux, il utilise les jeux comme environnement expérimental
Comme dans les travaux de DeepMind sur Atari, il explore la possibilité d’apprendre à partir d’entrées purement pixelisées
Mais le nombre massif de frames d’entraînement et les problèmes d’efficacité restent des obstacles
L’apprentissage multi-tâche, en ligne et efficace demeure non résolu

Video

Au départ, il envisageait un apprentissage passif à partir de vidéos comme la télévision, mais a choisi de se concentrer sur l’apprentissage dans les jeux eux-mêmes

Missteps

Il a commencé à un niveau trop bas (C++ CUDA), puis est passé à PyTorch pour accélérer le rythme des expérimentations
Il a d’abord démarré avec la Sega Master System plutôt qu’Atari, avant de changer faute de bases de comparaison suffisantes
L’apprentissage à partir de vidéo a été mis en pause, les tâches d’apprentissage dans le jeu étant déjà largement suffisantes

Settling in with Atari

La diversité des jeux commerciaux présente l’avantage de réduire les biais de recherche
Il recommande d’utiliser ALE directement (les wrappers comme Gym peuvent poser problème)
Même si les modèles récents obtiennent d’excellents scores sur la plupart des jeux, un apprentissage efficace en données comme “Atari 100k” est plus important
Le caractère déterministe de l’environnement doit être compensé, notamment avec l’introduction de sticky actions

Reality is not a turn based game

Le réel n’attend pas l’agent → traitement asynchrone et prise en compte de la latence sont nécessaires
Un échec d’apprentissage dans un environnement unique peut indiquer un problème de l’algorithme lui-même
Vitesse : il faut des politiques évaluables à haute fréquence (avec utilisation de CUDA graph, etc.)
Latence : la plupart des algorithmes de RL y sont fragiles → il faut des structures capables d’intégrer le délai d’application des politiques

Physical Atari

Construction d’un système d’apprentissage Atari en environnement physique
Un vrai joystick, une caméra regardant l’écran, et un agent de RL fonctionnant en temps réel
En testant plusieurs jeux, il prend en compte des problèmes bien réels comme la reconnaissance du score, la latence des actions, les erreurs de manipulation
Le comportement du joystick est instable, et la reconnaissance du score est la difficulté la plus délicate
Certains jeux sont exclus parce que le score y est difficilement lisible

Sparse rewards / Curiosity

Le RL est faible dans les environnements à récompenses clairsemées → recours à des récompenses intrinsèques et à une curiosité artificielle
Il explore aussi la possibilité d’utiliser le score du jeu lui-même comme récompense
Il tente de reproduire des comportements humains comme le passage d’un jeu à l’autre ou le maintien de l’intérêt pour un nouveau jeu

Sequential multi-task learning

Le problème d’oubli dans les environnements d’apprentissage continu (catastrophic forgetting) reste grave
Les humains se souviennent d’anciennes compétences, alors que les modèles actuels chutent fortement quand ils reviennent à d’anciens jeux
Il essaie d’améliorer cela via la préservation de la mémoire, l’ajustement du taux d’apprentissage, la sparsité des poids, etc.
L’utilisation d’un Task ID est considérée comme de la triche ; la transition doit se faire de manière implicite

Transfer Learning

Les jeux déjà beaucoup appris devraient permettre d’apprendre plus vite de nouveaux jeux
Le challenge Sonic d’OpenAI est finalement revenu à un apprentissage from scratch
Des systèmes comme GATO subissent du negative transfer
Une stratégie de type « apprendre lentement pour apprendre vite » pourrait être nécessaire
Nouveau benchmark proposé : évaluer les scores en répétant séquentiellement plusieurs jeux

Plasticity vs generalization

La généralisation consiste à ignorer, tandis que la plasticité consiste à reconnaître de nouveaux motifs → les deux peuvent entrer en conflit
La généralisation repose sur une base théorique faible, au mieux sur des éléments comme l’inductive bias des CNN
La fonction de valeur du RL est un produit de la généralisation et reste extrêmement sensible

Exploration

Les limites du choix d’actions aléatoires : une seule erreur peut déterminer la survie
Tentatives de structurer l’espace d’action et d’utiliser des politiques fondées sur la confidence
Il faut aussi repenser les actions à l’échelle temporelle → l’apprentissage à 60 fps est très difficile

Recurrence vs frame stacks

Sur Atari, les frame stacks sont efficaces, mais une architecture récurrente est plus proche du cerveau
Les Transformers sont forts pour l’apprentissage par batch, mais l’apprentissage récurrent en ligne général reste inachevé

Apprentissage centré sur l’approximation de fonction

Les NN assurent simultanément l’estimation de valeur, la généralisation, la moyenne probabiliste et l’amélioration de politique
Chaque mise à jour de poids affecte toutes les valeurs de sortie
La combinaison initialisation · fonction d’activation · optimiseur a un impact majeur sur les performances

Value representation

Le reward clamping du DQN classique est efficace pour stabiliser l’apprentissage
Il existe diverses approches comme la représentation catégorielle, l’usage de la MSE ou la compression de valeur de MuZero
Comme la plage de scores varie selon les jeux, cela pose problème pour l’apprentissage multi-tâche

Conv Nets

Les CNN restent l’architecture de base du RL
Les grands réseaux d’images voient leurs performances chuter en RL (ex. : ConvNeXT)
Expérimentations sur les structures de noyaux, le partage de paramètres, les CNN isotropes
Recherche d’un flux d’information efficace avec DenseNet, Dilated CNN, etc.
Tentatives d’améliorer les CNN en les rapprochant de structures biologiques

1 commentaires

GN⁺ 2025-05-24

Commentaires sur Hacker News

Chaque fois que je regarde une conférence ou lis un texte de Carmack, j’ai envie d’insister sur le fait que c’est toujours une expérience passionnante. Dans ces notes aussi, sa manière de consigner minutieusement son processus de réflexion en tant qu’ingénieur est impressionnante. Je me posais des questions sur son orientation de recherche, notamment son focus sur l’apprentissage en temps réel. Je comprends que Carmack fasse de l’online learning en temps réel. C’est un défi intéressant, qui permet de mettre à profit de superbes démos et son expérience de l’optimisation, mais au vu des leçons récentes et des tendances de la recherche, j’ai l’impression que sans ressources de calcul capables d’assurer inférence et apprentissage en temps réel, les résultats risquent de vite buter sur des limites. Le cerveau est le seul exemple qui sache résoudre des jeux Atari, et même la puissance de calcul du cerveau humain n’a jamais été clairement quantifiée. Dans ce contexte, je me demande sincèrement s’il ne vaudrait pas mieux se concentrer sur l’efficacité de l’apprentissage plutôt que d’imposer des contraintes temps réel. Bien sûr, travailler sous contrainte apporte beaucoup, mais quand on voit qu’une araignée sauteuse résout des problèmes complexes avec 100 000 neurones, cela reste difficile à prévoir
- À l’époque des premiers travaux de Carmack sur les graphismes 3D et le rendu en temps réel, au début des années 1990, les experts de l’offline sur station de travail pensaient sans doute de manière similaire. La plus grande force de Carmack a toujours été sa capacité à obtenir des résultats extrêmes avec des ressources limitées (id Software, Oculus, Armadillo Aerospace, etc.). J’ai l’impression qu’être pris dans de grandes organisations ou des technologies établies réduit plutôt ses résultats (je pense que son départ de Bethesda-id et de Meta s’explique aussi en partie par cela). Je comprends donc son style centré sur le temps réel, et je doute qu’il apprécie particulièrement, dans le boom actuel de l’IA, les approches qui consistent simplement à forcer les choses à coups de puissance de calcul. Heureusement, il ne passe pas son temps à entraîner des LLM avec l’argent des investisseurs. Dans l’idéal, j’aimerais le voir innover comme autrefois, en démocratisant des technologies de pointe avec d’excellents collègues à ses côtés (par exemple comme pour la diffusion des graphismes 3D)
- Pour citer une phrase des notes de présentation, il faudrait peut-être un fact check sur cette idée : « Si vous pensez qu’une AGI incarnée arrive bientôt, donnez un joystick à votre robot humanoïde dansant et faites-lui apprendre un jeu vidéo totalement inédit »
- Je voudrais souligner que les humains comme les animaux disposent d’énormes capacités innées et de connaissances préalables, ce qui rend l’apprentissage de nouvelles choses bien plus facile. La différence n’est pas seulement une question de puissance de calcul, c’est aussi que le point de départ de l’apprentissage n’est pas le même
- Concernant l’idée selon laquelle la capacité de calcul du cerveau humain reste floue, on peut en fait mesurer la vitesse de transmission des signaux neuronaux, ce qui impose une limite supérieure au nombre de neurones reliés en série (environ 100 étapes). À partir de là, on peut estimer que le traitement cognitif humain est peut-être moins complexe qu’on ne le pense. Bien sûr, il y a énormément de parallélisme et de boucles de rétroaction, mais si l’algorithme de l’AGI est découvert un jour, je pense qu’une version « mini » pourrait tourner en temps réel sur du matériel ordinaire de 2025
Liens directs associés :
- Slides de présentation
- Document texte
Je voulais partager une réponse intéressante d’un insider d’OpenAI : lien X
- En réalité, c’est une réaction assez peu intéressante. Cette attitude vague qui balaie les avis extérieurs est typiquement le signe d’une insécurité académique. Il n’y a ni explication concrète ni fondement, donc cela n’aide pas la discussion. Entre « un insider d’OpenAI » et « John Carmack et Richard Sutton », mon choix est assez évident
- Carmack a répondu directement à ce post : réponse de Carmack
- Certaines personnes évaluent la situation après avoir lu tout le fil Twitter, tandis que celles qui ne sont pas connectées ne voient que le premier tweet, ce qui donne l’impression d’un simple rejet
- C’est amusant de dire « j’ai appris certaines leçons » sans jamais préciser lesquelles
- En voyant le tweet « they will learn the same lesson I did », j’ai envie de plaisanter en demandant : « ça veut dire qu’il ne faut pas faire confiance à Altman ? »
Quand j’ai appris que Carmack allait se concentrer sur l’IA, j’ai vraiment été enthousiaste. J’attends encore la vidéo, mais d’après les slides, il semble avoir construit un système capable de jouer à des jeux Atari. Je trouve le projet intéressant, mais je me demande s’il y aura d’autres papiers ou résultats
- Les jeux Atari sont largement utilisés comme benchmark standard dans la recherche en RL (apprentissage par renforcement). Référence : Arcade Learning Environment. L’objectif est de développer des algorithmes capables de se généraliser à des tâches variées
- Il existe déjà beaucoup d’agents capables de terminer des jeux Atari ou d’y obtenir de très gros scores, mais le domaine a encore un long chemin à parcourir. Dans mon mémoire de master, j’ai travaillé sur des méthodes d’apprentissage avec peu d’interactions ; appliqué à de vrais robots, cela pourrait éviter qu’ils aient besoin de marcher et tomber pendant des centaines d’années avant d’apprendre un comportement. Il y a encore peu de travaux sur une généralisation de plus haut niveau, c’est-à-dire sur les principes permettant d’apprendre plusieurs jeux vidéo puis d’en aborder intuitivement de nouveaux
- L’objectif de ce projet n’est pas simplement de « terminer » des jeux Atari, mais de développer une méthodologie générale applicable à des jeux plus complexes ou au monde physique. Mais du point de vue des insights de recherche, il me semble encore plus efficace, à ce stade, de modifier l’environnement Atari — par exemple pour le temps réel — afin de mener les tests
- Le fait que ce soit prévu en open source est appréciable. Jouer en temps réel sur le GPU d’un laptop avec un contrôleur physique et une caméra est original, mais je ne sais pas si cela sera révolutionnaire en soi. En revanche, si les résultats sont réellement supérieurs aux travaux existants en efficacité d’échantillonnage ou en généralisation, ce serait vraiment impressionnant
- Mon souhait, c’est simplement que les NPC dans les jeux deviennent plus intelligents
Comme le suggèrent les premières slides, je regrette un peu qu’il n’ait pas mené ce type de recherche dans un environnement VR. Si quelqu’un a les compétences pour bien implémenter en VR des filtres caméra JPEG, de la simulation physique, du bruit et même des environnements de simulation robotique, c’est bien Carmack. Utiliser de vrais robots est un énorme goulot d’étranglement en termes de temps d’apprentissage
Cela me fait réfléchir à la raison pour laquelle une AGI aurait réellement besoin d’un corps physique, et pourquoi, dès qu’on imagine une intelligence supérieure, on veut qu’elle conduise nos voitures ou fasse le ménage à la maison. Un scénario à la Dan Simmons dans Hyperion, où l’AGI disparaît dans le cloud et ignore globalement les humains, me semble plus réaliste
- Cela n’a pas besoin d’être éternel, et les humains eux-mêmes abandonneraient probablement leur corps s’ils le pouvaient. Être enfermé de façon permanente dans une interface physique présente aussi des inconvénients
- Si c’est si souvent mentionné en SF, c’est aussi peut-être pour éviter que « l’AGI ne puisse appuyer sur le bouton d’alimentation de mon corps »
Pour discuter de l’AGI, j’ai l’impression qu’on n’a même pas encore de définition claire de ce qu’est un « concept ». Nous ne savons toujours pas ce qu’est le processus qui consiste à réutiliser un concept d’un domaine dans un autre, ni comment le cerveau combine et abstrait les idées
- Quand des objets apparaissent de manière répétée, on leur donne un nom, et un concept est un schéma de pensée récurrent. L’abstraction, les relations et les métaphores sont toutes des outils de transfert de motifs entre domaines
Comme expérience de pensée, si l’AGI d’OpenAI était vraiment imminente, il serait intéressant de demander pourquoi l’entreprise gaspille du temps et de l’argent à acquérir la startup hardware dirigée par Ive. Si elle voulait se lancer dans la robotique, ou si elle détenait vraiment la meilleure AGI, d’innombrables entreprises viendraient naturellement demander des licences hardware et software, ce qui suffirait à générer des revenus illimités
- L’AGI seule ne suffit pas. Même si on mettait une AGI dans l’interface de ChatGPT, pour avoir un vrai impact sur le monde réel, il faudrait qu’elle soit « partout »
- Si une entreprise approche réellement de l’AGI, il est aussi très probable qu’elle cherche délibérément à en cacher des informations pour échapper à la régulation des gouvernements ou de l’armée. Être le premier à atteindre l’AGI comporte d’énormes risques
- Je voudrais aussi suggérer l’idée que l’AGI puisse aller jusqu’à concevoir des produits
Je pense que la direction de recherche choisie par Carmack est la bonne. Il faut dépasser l’apprentissage uniquement fondé sur le langage, comme aujourd’hui. L’IA a besoin de physicalité
- En réalité, entraîner sérieusement l’IA sur d’autres types de données que le langage est déjà en cours depuis plusieurs années. Les derniers modèles frontier sont entraînés de manière multimodale au sein d’un même modèle sur du texte, de l’audio, de la vidéo et des images (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4, etc.). Toutes les entrées sont tokenisées puis traitées dans un espace d’embedding partagé
- Du point de vue selon lequel l’IA a besoin de physicalité, il est intéressant de rappeler que Carmack lui-même soutenait autrefois que les environnements simulés étaient plus adaptés au développement de l’IA, et que les environnements physiques étaient en pratique inefficaces
- Nvidia partage aussi cet avis. Jim Fan a parlé du « test de Turing physique » et de l’avenir de l’embodied AI. Vidéo de la conférence de Jim Fan. Il y souligne également l’énorme quantité de ressources de calcul nécessaires pour faire tourner des environnements de simulation robustes
La formule « je suis nouveau dans la communauté de recherche, donc j’y ai prêté attention » semble laisser entendre une possible soumission de papier
- Il précise que ce projet est une tentative de recherche, pas une entreprise produit

Une IA qui apprend au-delà du jeu jusqu’au réel : le défi de John Carmack pour un apprentissage par renforcement ancré dans la réalité

Quick Background

Where I thought I was going

Not LLMs

Games

Video

Missteps

Settling in with Atari

Reality is not a turn based game

Physical Atari

Sparse rewards / Curiosity

Sequential multi-task learning

Transfer Learning

Plasticity vs generalization

Exploration

Recurrence vs frame stacks

Apprentissage centré sur l’approximation de fonction

Value representation

Conv Nets

À lire aussi

1 commentaires

Commentaires sur Hacker News