Vue d’ensemble de DIAMOND 💎
- DIAMOND est un agent d’apprentissage par renforcement entraîné dans un modèle du monde à diffusion.
- Ce modèle accorde une grande importance aux détails visuels dans des environnements de jeu comme Atari.
- DIAMOND peut aussi simuler des environnements 3D, par exemple CounterStrike: Global Offensive (CSGO).
Contexte et motivation de la recherche
- Les modèles du monde constituent une approche prometteuse pour entraîner des agents d’apprentissage par renforcement de manière sûre et efficace.
- Les modèles du monde existants modélisent principalement la dynamique de l’environnement à l’aide de séquences de variables latentes discrètes.
- Cependant, cette compression peut ignorer des détails visuels importants pour l’apprentissage par renforcement.
- Les modèles de diffusion se sont imposés comme l’approche dominante en génération d’images.
- DIAMOND a été développé en s’inspirant de ce changement de paradigme.
Performances et résultats de DIAMOND
- DIAMOND a atteint un score humain normalisé moyen de 1,46 sur le benchmark Atari 100k.
- Il s’agit de la meilleure performance parmi les agents entraînés à l’intérieur d’un modèle du monde.
- Le code de DIAMOND est disponible sur GitHub.
Principe de fonctionnement de DIAMOND
- Le modèle de diffusion est entraîné à prédire l’image suivante du jeu.
- Il simule la réaction de l’environnement en tenant compte des actions de l’agent et des images précédentes.
- La génération autorégressive aide l’agent à apprendre le jeu.
- Pour obtenir un modèle du monde rapide, il faut réduire le nombre d’étapes de débruitage.
- Les modèles basés sur DDPM sont instables avec un faible nombre d’étapes de débruitage, tandis que les modèles basés sur EDM restent stables.
Importance des détails visuels
- DIAMOND modélise mieux les détails visuels importants.
- Il capture mieux les détails visuels que IRIS, fondé sur des tokens discrets.
- Sur Atari 100k, il affiche des performances 46 % supérieures à celles d’un humain.
Résumé de GN⁺
- DIAMOND souligne l’importance des détails visuels dans l’apprentissage par renforcement.
- L’utilisation de modèles de diffusion permet de mieux capturer les détails visuels.
- Il montre une amélioration des performances dans des jeux comme Atari et CSGO.
- Cela peut constituer une ressource intéressante et utile pour les chercheurs du domaine.
- Parmi les projets aux fonctionnalités similaires, on trouve DreamerV2 et PlaNet.
1 commentaires
Commentaires Hacker News
Un utilisateur mentionne que la vidéo liée ressemble beaucoup à ses rêves, et explique qu’il vit une expérience similaire lorsqu’il essaie de faire de grands sauts dans ses rêves.
Il est expliqué qu’un modèle de 300M de paramètres a été entraîné pendant 12 jours sur 5M d’images avec une GTX4090.
Il est mentionné qu’une grande entreprise technologique avait réalisé un travail similaire en 2015.
Il est dit qu’un travail à l’échelle industrielle, comparable aux grands LLM, serait très impressionnant.
Il est expliqué que cela pourrait être utilisé dans un moteur de jeu pour produire une approximation réaliste de la physique.
Une question est posée à quelqu’un qui l’a réellement essayé : est-ce qu’il construit une carte de jeu, ou est-ce plutôt une étrange expérience hallucinatoire ?
Quelqu’un affirme comprendre le concept de base de la diffusion stable et se demande s’il existe des recherches qui tentent cela au niveau des assets 3D.
Quelqu’un se dit perplexe face aux personnes qui ne reconnaissent pas le « bruit de l’enfer » dans les images et vidéos générées par des réseaux de neurones.
Le travail du groupe de Schmidhuber en 2018 est mentionné, avec un lien partagé.
Il est dit qu’il serait intéressant d’entraîner le modèle sur de vraies vidéos liées aux GTA récents afin d’améliorer visuellement les anciens jeux.
Quelqu’un se demande s’il existe un moyen de le combiner avec un modèle de langage, en affirmant que le langage devrait être fondé sur un world model.
Quelqu’un estime que les modèles de langage sont inefficaces et imagine un « jeu » entraîné comme outil d’ingénierie structurelle.
Il est expliqué que ce réseau pourrait devenir une composante capable de comprendre le monde, de prédire des actions utiles ou de répondre à des questions.
Quelqu’un se demande comment ce modèle, doté d’une boucle puissante, réagirait si on l’utilisait à partir d’une nouvelle image ou d’une nouvelle carte.