- Résumé des notes préparatoires et des slides de la présentation « Upper Bound 2025 » de John Carmack
- John Carmack, après être passé par Id Software, Oculus et Keen Technologies, se consacre aujourd’hui à la recherche sur une AGI fondée sur l’apprentissage par renforcement
- Il évite les LLM et s’intéresse à un apprentissage continu et efficace où l’on apprend en interagissant avec l’environnement, comme les animaux
- À partir des jeux Atari classiques, il a construit un système de RL physique qui apprend via des entrées en temps réel de caméra et de joystick
- Il expose largement les défis techniques que les systèmes de RL doivent résoudre pour se rapprocher du réel : vitesse, latence, apprentissage continu, prévention de l’oubli, etc.
- Il partage des observations affûtées issues de l’expérience sur l’architecture CNN, la représentation des récompenses, les stratégies d’exploration, tout en remettant en question les pratiques établies
Quick Background
- En tant que fondateur d’Id Software, Quake a stimulé l’évolution des GPU et influencé indirectement le domaine de l’IA
- Chez Armadillo Aerospace, il a mené pendant 10 ans des recherches sur les fusées à décollage et atterrissage verticaux
- Chez Oculus, il a posé les bases de la VR moderne
- Il a fondé Keen Technologies et se consacre pleinement à la recherche en IA, avec un focus sur l’apprentissage par renforcement
- Il mène des recherches avec Richard Sutton et partage avec lui une même philosophie de l’apprentissage par renforcement
Where I thought I was going
Not LLMs
- Les LLM sont une “connaissance sans apprentissage”, une philosophie différente de l’apprentissage interactif qu’il recherche
- Même s’il reste possible que les LLM remplacent le RL, il trouve plus attirante l’idée d’apprendre depuis l’environnement, comme les animaux
Games
- Grâce à sa longue expérience dans le développement de jeux, il utilise les jeux comme environnement expérimental
- Comme dans les travaux de DeepMind sur Atari, il explore la possibilité d’apprendre à partir d’entrées purement pixelisées
- Mais le nombre massif de frames d’entraînement et les problèmes d’efficacité restent des obstacles
- L’apprentissage multi-tâche, en ligne et efficace demeure non résolu
Video
- Au départ, il envisageait un apprentissage passif à partir de vidéos comme la télévision, mais a choisi de se concentrer sur l’apprentissage dans les jeux eux-mêmes
Missteps
- Il a commencé à un niveau trop bas (C++ CUDA), puis est passé à PyTorch pour accélérer le rythme des expérimentations
- Il a d’abord démarré avec la Sega Master System plutôt qu’Atari, avant de changer faute de bases de comparaison suffisantes
- L’apprentissage à partir de vidéo a été mis en pause, les tâches d’apprentissage dans le jeu étant déjà largement suffisantes
Settling in with Atari
- La diversité des jeux commerciaux présente l’avantage de réduire les biais de recherche
- Il recommande d’utiliser ALE directement (les wrappers comme Gym peuvent poser problème)
- Même si les modèles récents obtiennent d’excellents scores sur la plupart des jeux, un apprentissage efficace en données comme “Atari 100k” est plus important
- Le caractère déterministe de l’environnement doit être compensé, notamment avec l’introduction de sticky actions
Reality is not a turn based game
- Le réel n’attend pas l’agent → traitement asynchrone et prise en compte de la latence sont nécessaires
- Un échec d’apprentissage dans un environnement unique peut indiquer un problème de l’algorithme lui-même
- Vitesse : il faut des politiques évaluables à haute fréquence (avec utilisation de CUDA graph, etc.)
- Latence : la plupart des algorithmes de RL y sont fragiles → il faut des structures capables d’intégrer le délai d’application des politiques
Physical Atari
- Construction d’un système d’apprentissage Atari en environnement physique
- Un vrai joystick, une caméra regardant l’écran, et un agent de RL fonctionnant en temps réel
- En testant plusieurs jeux, il prend en compte des problèmes bien réels comme la reconnaissance du score, la latence des actions, les erreurs de manipulation
- Le comportement du joystick est instable, et la reconnaissance du score est la difficulté la plus délicate
- Certains jeux sont exclus parce que le score y est difficilement lisible
Sparse rewards / Curiosity
- Le RL est faible dans les environnements à récompenses clairsemées → recours à des récompenses intrinsèques et à une curiosité artificielle
- Il explore aussi la possibilité d’utiliser le score du jeu lui-même comme récompense
- Il tente de reproduire des comportements humains comme le passage d’un jeu à l’autre ou le maintien de l’intérêt pour un nouveau jeu
Sequential multi-task learning
- Le problème d’oubli dans les environnements d’apprentissage continu (catastrophic forgetting) reste grave
- Les humains se souviennent d’anciennes compétences, alors que les modèles actuels chutent fortement quand ils reviennent à d’anciens jeux
- Il essaie d’améliorer cela via la préservation de la mémoire, l’ajustement du taux d’apprentissage, la sparsité des poids, etc.
- L’utilisation d’un Task ID est considérée comme de la triche ; la transition doit se faire de manière implicite
Transfer Learning
- Les jeux déjà beaucoup appris devraient permettre d’apprendre plus vite de nouveaux jeux
- Le challenge Sonic d’OpenAI est finalement revenu à un apprentissage from scratch
- Des systèmes comme GATO subissent du negative transfer
- Une stratégie de type « apprendre lentement pour apprendre vite » pourrait être nécessaire
- Nouveau benchmark proposé : évaluer les scores en répétant séquentiellement plusieurs jeux
Plasticity vs generalization
- La généralisation consiste à ignorer, tandis que la plasticité consiste à reconnaître de nouveaux motifs → les deux peuvent entrer en conflit
- La généralisation repose sur une base théorique faible, au mieux sur des éléments comme l’inductive bias des CNN
- La fonction de valeur du RL est un produit de la généralisation et reste extrêmement sensible
Exploration
- Les limites du choix d’actions aléatoires : une seule erreur peut déterminer la survie
- Tentatives de structurer l’espace d’action et d’utiliser des politiques fondées sur la confidence
- Il faut aussi repenser les actions à l’échelle temporelle → l’apprentissage à 60 fps est très difficile
Recurrence vs frame stacks
- Sur Atari, les frame stacks sont efficaces, mais une architecture récurrente est plus proche du cerveau
- Les Transformers sont forts pour l’apprentissage par batch, mais l’apprentissage récurrent en ligne général reste inachevé
Apprentissage centré sur l’approximation de fonction
- Les NN assurent simultanément l’estimation de valeur, la généralisation, la moyenne probabiliste et l’amélioration de politique
- Chaque mise à jour de poids affecte toutes les valeurs de sortie
- La combinaison initialisation · fonction d’activation · optimiseur a un impact majeur sur les performances
Value representation
- Le reward clamping du DQN classique est efficace pour stabiliser l’apprentissage
- Il existe diverses approches comme la représentation catégorielle, l’usage de la MSE ou la compression de valeur de MuZero
- Comme la plage de scores varie selon les jeux, cela pose problème pour l’apprentissage multi-tâche
Conv Nets
- Les CNN restent l’architecture de base du RL
- Les grands réseaux d’images voient leurs performances chuter en RL (ex. : ConvNeXT)
- Expérimentations sur les structures de noyaux, le partage de paramètres, les CNN isotropes
- Recherche d’un flux d’information efficace avec DenseNet, Dilated CNN, etc.
- Tentatives d’améliorer les CNN en les rapprochant de structures biologiques
1 commentaires
Commentaires sur Hacker News
Chaque fois que je regarde une conférence ou lis un texte de Carmack, j’ai envie d’insister sur le fait que c’est toujours une expérience passionnante. Dans ces notes aussi, sa manière de consigner minutieusement son processus de réflexion en tant qu’ingénieur est impressionnante. Je me posais des questions sur son orientation de recherche, notamment son focus sur l’apprentissage en temps réel. Je comprends que Carmack fasse de l’online learning en temps réel. C’est un défi intéressant, qui permet de mettre à profit de superbes démos et son expérience de l’optimisation, mais au vu des leçons récentes et des tendances de la recherche, j’ai l’impression que sans ressources de calcul capables d’assurer inférence et apprentissage en temps réel, les résultats risquent de vite buter sur des limites. Le cerveau est le seul exemple qui sache résoudre des jeux Atari, et même la puissance de calcul du cerveau humain n’a jamais été clairement quantifiée. Dans ce contexte, je me demande sincèrement s’il ne vaudrait pas mieux se concentrer sur l’efficacité de l’apprentissage plutôt que d’imposer des contraintes temps réel. Bien sûr, travailler sous contrainte apporte beaucoup, mais quand on voit qu’une araignée sauteuse résout des problèmes complexes avec 100 000 neurones, cela reste difficile à prévoir
À l’époque des premiers travaux de Carmack sur les graphismes 3D et le rendu en temps réel, au début des années 1990, les experts de l’offline sur station de travail pensaient sans doute de manière similaire. La plus grande force de Carmack a toujours été sa capacité à obtenir des résultats extrêmes avec des ressources limitées (
id Software, Oculus, Armadillo Aerospace, etc.). J’ai l’impression qu’être pris dans de grandes organisations ou des technologies établies réduit plutôt ses résultats (je pense que son départ de Bethesda-id et de Meta s’explique aussi en partie par cela). Je comprends donc son style centré sur le temps réel, et je doute qu’il apprécie particulièrement, dans le boom actuel de l’IA, les approches qui consistent simplement à forcer les choses à coups de puissance de calcul. Heureusement, il ne passe pas son temps à entraîner des LLM avec l’argent des investisseurs. Dans l’idéal, j’aimerais le voir innover comme autrefois, en démocratisant des technologies de pointe avec d’excellents collègues à ses côtés (par exemple comme pour la diffusion des graphismes 3D)Pour citer une phrase des notes de présentation, il faudrait peut-être un fact check sur cette idée : « Si vous pensez qu’une AGI incarnée arrive bientôt, donnez un joystick à votre robot humanoïde dansant et faites-lui apprendre un jeu vidéo totalement inédit »
Je voudrais souligner que les humains comme les animaux disposent d’énormes capacités innées et de connaissances préalables, ce qui rend l’apprentissage de nouvelles choses bien plus facile. La différence n’est pas seulement une question de puissance de calcul, c’est aussi que le point de départ de l’apprentissage n’est pas le même
Concernant l’idée selon laquelle la capacité de calcul du cerveau humain reste floue, on peut en fait mesurer la vitesse de transmission des signaux neuronaux, ce qui impose une limite supérieure au nombre de neurones reliés en série (environ 100 étapes). À partir de là, on peut estimer que le traitement cognitif humain est peut-être moins complexe qu’on ne le pense. Bien sûr, il y a énormément de parallélisme et de boucles de rétroaction, mais si l’algorithme de l’AGI est découvert un jour, je pense qu’une version « mini » pourrait tourner en temps réel sur du matériel ordinaire de 2025
Liens directs associés :
Je voulais partager une réponse intéressante d’un insider d’OpenAI : lien X
En réalité, c’est une réaction assez peu intéressante. Cette attitude vague qui balaie les avis extérieurs est typiquement le signe d’une insécurité académique. Il n’y a ni explication concrète ni fondement, donc cela n’aide pas la discussion. Entre « un insider d’OpenAI » et « John Carmack et Richard Sutton », mon choix est assez évident
Carmack a répondu directement à ce post : réponse de Carmack
Certaines personnes évaluent la situation après avoir lu tout le fil Twitter, tandis que celles qui ne sont pas connectées ne voient que le premier tweet, ce qui donne l’impression d’un simple rejet
C’est amusant de dire « j’ai appris certaines leçons » sans jamais préciser lesquelles
En voyant le tweet « they will learn the same lesson I did », j’ai envie de plaisanter en demandant : « ça veut dire qu’il ne faut pas faire confiance à Altman ? »
Quand j’ai appris que Carmack allait se concentrer sur l’IA, j’ai vraiment été enthousiaste. J’attends encore la vidéo, mais d’après les slides, il semble avoir construit un système capable de jouer à des jeux Atari. Je trouve le projet intéressant, mais je me demande s’il y aura d’autres papiers ou résultats
Les jeux Atari sont largement utilisés comme benchmark standard dans la recherche en RL (apprentissage par renforcement). Référence : Arcade Learning Environment. L’objectif est de développer des algorithmes capables de se généraliser à des tâches variées
Il existe déjà beaucoup d’agents capables de terminer des jeux Atari ou d’y obtenir de très gros scores, mais le domaine a encore un long chemin à parcourir. Dans mon mémoire de master, j’ai travaillé sur des méthodes d’apprentissage avec peu d’interactions ; appliqué à de vrais robots, cela pourrait éviter qu’ils aient besoin de marcher et tomber pendant des centaines d’années avant d’apprendre un comportement. Il y a encore peu de travaux sur une généralisation de plus haut niveau, c’est-à-dire sur les principes permettant d’apprendre plusieurs jeux vidéo puis d’en aborder intuitivement de nouveaux
L’objectif de ce projet n’est pas simplement de « terminer » des jeux Atari, mais de développer une méthodologie générale applicable à des jeux plus complexes ou au monde physique. Mais du point de vue des insights de recherche, il me semble encore plus efficace, à ce stade, de modifier l’environnement Atari — par exemple pour le temps réel — afin de mener les tests
Le fait que ce soit prévu en open source est appréciable. Jouer en temps réel sur le GPU d’un laptop avec un contrôleur physique et une caméra est original, mais je ne sais pas si cela sera révolutionnaire en soi. En revanche, si les résultats sont réellement supérieurs aux travaux existants en efficacité d’échantillonnage ou en généralisation, ce serait vraiment impressionnant
Mon souhait, c’est simplement que les NPC dans les jeux deviennent plus intelligents
Comme le suggèrent les premières slides, je regrette un peu qu’il n’ait pas mené ce type de recherche dans un environnement VR. Si quelqu’un a les compétences pour bien implémenter en VR des filtres caméra JPEG, de la simulation physique, du bruit et même des environnements de simulation robotique, c’est bien Carmack. Utiliser de vrais robots est un énorme goulot d’étranglement en termes de temps d’apprentissage
Cela me fait réfléchir à la raison pour laquelle une AGI aurait réellement besoin d’un corps physique, et pourquoi, dès qu’on imagine une intelligence supérieure, on veut qu’elle conduise nos voitures ou fasse le ménage à la maison. Un scénario à la Dan Simmons dans Hyperion, où l’AGI disparaît dans le cloud et ignore globalement les humains, me semble plus réaliste
Cela n’a pas besoin d’être éternel, et les humains eux-mêmes abandonneraient probablement leur corps s’ils le pouvaient. Être enfermé de façon permanente dans une interface physique présente aussi des inconvénients
Si c’est si souvent mentionné en SF, c’est aussi peut-être pour éviter que « l’AGI ne puisse appuyer sur le bouton d’alimentation de mon corps »
Pour discuter de l’AGI, j’ai l’impression qu’on n’a même pas encore de définition claire de ce qu’est un « concept ». Nous ne savons toujours pas ce qu’est le processus qui consiste à réutiliser un concept d’un domaine dans un autre, ni comment le cerveau combine et abstrait les idées
Comme expérience de pensée, si l’AGI d’OpenAI était vraiment imminente, il serait intéressant de demander pourquoi l’entreprise gaspille du temps et de l’argent à acquérir la startup hardware dirigée par Ive. Si elle voulait se lancer dans la robotique, ou si elle détenait vraiment la meilleure AGI, d’innombrables entreprises viendraient naturellement demander des licences hardware et software, ce qui suffirait à générer des revenus illimités
L’AGI seule ne suffit pas. Même si on mettait une AGI dans l’interface de ChatGPT, pour avoir un vrai impact sur le monde réel, il faudrait qu’elle soit « partout »
Si une entreprise approche réellement de l’AGI, il est aussi très probable qu’elle cherche délibérément à en cacher des informations pour échapper à la régulation des gouvernements ou de l’armée. Être le premier à atteindre l’AGI comporte d’énormes risques
Je voudrais aussi suggérer l’idée que l’AGI puisse aller jusqu’à concevoir des produits
Je pense que la direction de recherche choisie par Carmack est la bonne. Il faut dépasser l’apprentissage uniquement fondé sur le langage, comme aujourd’hui. L’IA a besoin de physicalité
En réalité, entraîner sérieusement l’IA sur d’autres types de données que le langage est déjà en cours depuis plusieurs années. Les derniers modèles frontier sont entraînés de manière multimodale au sein d’un même modèle sur du texte, de l’audio, de la vidéo et des images (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4, etc.). Toutes les entrées sont tokenisées puis traitées dans un espace d’embedding partagé
Du point de vue selon lequel l’IA a besoin de physicalité, il est intéressant de rappeler que Carmack lui-même soutenait autrefois que les environnements simulés étaient plus adaptés au développement de l’IA, et que les environnements physiques étaient en pratique inefficaces
Nvidia partage aussi cet avis. Jim Fan a parlé du « test de Turing physique » et de l’avenir de l’embodied AI. Vidéo de la conférence de Jim Fan. Il y souligne également l’énorme quantité de ressources de calcul nécessaires pour faire tourner des environnements de simulation robustes
La formule « je suis nouveau dans la communauté de recherche, donc j’y ai prêté attention » semble laisser entendre une possible soumission de papier