1 points par GN⁺ 2024-10-14 | 1 commentaires | Partager sur WhatsApp

Vue d’ensemble de DIAMOND 💎

  • DIAMOND est un agent d’apprentissage par renforcement entraîné dans un modèle du monde à diffusion.
  • Ce modèle accorde une grande importance aux détails visuels dans des environnements de jeu comme Atari.
  • DIAMOND peut aussi simuler des environnements 3D, par exemple CounterStrike: Global Offensive (CSGO).

Contexte et motivation de la recherche

  • Les modèles du monde constituent une approche prometteuse pour entraîner des agents d’apprentissage par renforcement de manière sûre et efficace.
  • Les modèles du monde existants modélisent principalement la dynamique de l’environnement à l’aide de séquences de variables latentes discrètes.
  • Cependant, cette compression peut ignorer des détails visuels importants pour l’apprentissage par renforcement.
  • Les modèles de diffusion se sont imposés comme l’approche dominante en génération d’images.
  • DIAMOND a été développé en s’inspirant de ce changement de paradigme.

Performances et résultats de DIAMOND

  • DIAMOND a atteint un score humain normalisé moyen de 1,46 sur le benchmark Atari 100k.
  • Il s’agit de la meilleure performance parmi les agents entraînés à l’intérieur d’un modèle du monde.
  • Le code de DIAMOND est disponible sur GitHub.

Principe de fonctionnement de DIAMOND

  • Le modèle de diffusion est entraîné à prédire l’image suivante du jeu.
  • Il simule la réaction de l’environnement en tenant compte des actions de l’agent et des images précédentes.
  • La génération autorégressive aide l’agent à apprendre le jeu.
  • Pour obtenir un modèle du monde rapide, il faut réduire le nombre d’étapes de débruitage.
  • Les modèles basés sur DDPM sont instables avec un faible nombre d’étapes de débruitage, tandis que les modèles basés sur EDM restent stables.

Importance des détails visuels

  • DIAMOND modélise mieux les détails visuels importants.
  • Il capture mieux les détails visuels que IRIS, fondé sur des tokens discrets.
  • Sur Atari 100k, il affiche des performances 46 % supérieures à celles d’un humain.

Résumé de GN⁺

  • DIAMOND souligne l’importance des détails visuels dans l’apprentissage par renforcement.
  • L’utilisation de modèles de diffusion permet de mieux capturer les détails visuels.
  • Il montre une amélioration des performances dans des jeux comme Atari et CSGO.
  • Cela peut constituer une ressource intéressante et utile pour les chercheurs du domaine.
  • Parmi les projets aux fonctionnalités similaires, on trouve DreamerV2 et PlaNet.

1 commentaires

 
GN⁺ 2024-10-14
Commentaires Hacker News
  • Un utilisateur mentionne que la vidéo liée ressemble beaucoup à ses rêves, et explique qu’il vit une expérience similaire lorsqu’il essaie de faire de grands sauts dans ses rêves.

  • Il est expliqué qu’un modèle de 300M de paramètres a été entraîné pendant 12 jours sur 5M d’images avec une GTX4090.

  • Il est mentionné qu’une grande entreprise technologique avait réalisé un travail similaire en 2015.

  • Il est dit qu’un travail à l’échelle industrielle, comparable aux grands LLM, serait très impressionnant.

  • Il est expliqué que cela pourrait être utilisé dans un moteur de jeu pour produire une approximation réaliste de la physique.

    • En utilisant un moteur physique lourd pour générer des extraits de gameplay, puis en entraînant le modèle à approximer la physique.
    • Il est suggéré qu’on pourrait avoir plusieurs moteurs physiques spécialisés.
  • Une question est posée à quelqu’un qui l’a réellement essayé : est-ce qu’il construit une carte de jeu, ou est-ce plutôt une étrange expérience hallucinatoire ?

  • Quelqu’un affirme comprendre le concept de base de la diffusion stable et se demande s’il existe des recherches qui tentent cela au niveau des assets 3D.

  • Quelqu’un se dit perplexe face aux personnes qui ne reconnaissent pas le « bruit de l’enfer » dans les images et vidéos générées par des réseaux de neurones.

  • Le travail du groupe de Schmidhuber en 2018 est mentionné, avec un lien partagé.

  • Il est dit qu’il serait intéressant d’entraîner le modèle sur de vraies vidéos liées aux GTA récents afin d’améliorer visuellement les anciens jeux.

  • Quelqu’un se demande s’il existe un moyen de le combiner avec un modèle de langage, en affirmant que le langage devrait être fondé sur un world model.

  • Quelqu’un estime que les modèles de langage sont inefficaces et imagine un « jeu » entraîné comme outil d’ingénierie structurelle.

  • Il est expliqué que ce réseau pourrait devenir une composante capable de comprendre le monde, de prédire des actions utiles ou de répondre à des questions.

  • Quelqu’un se demande comment ce modèle, doté d’une boucle puissante, réagirait si on l’utilisait à partir d’une nouvelle image ou d’une nouvelle carte.