1 points par GN⁺ 2024-08-29 | 1 commentaires | Partager sur WhatsApp

Diffusion Models Are Real-Time Game Engines

  • GameNGen : premier moteur de jeu propulsé par un modèle neuronal, capable d’offrir des interactions en temps réel avec des environnements complexes en haute qualité
  • Simulation de DOOM : permet de simuler de manière interactive le jeu classique DOOM à plus de 20 images par seconde sur un seul TPU
  • PSNR : atteint 29,4 PSNR dans la prédiction de l’image suivante, soit un niveau comparable à une compression JPEG avec perte
  • Évaluateurs humains : les évaluateurs humains font à peine mieux que le hasard pour distinguer les extraits de jeu des extraits simulés

Vidéo complète du gameplay

Collecte de données via le jeu de l’agent

  • Agent RL automatisé : comme il est difficile de collecter à grande échelle des données de gameplay humain, la première étape consiste à entraîner un agent RL automatisé à jouer, puis à enregistrer les actions et observations de ces épisodes d’entraînement pour les utiliser comme données d’entraînement du modèle génératif

Entraînement du modèle génératif de diffusion

  • Stable Diffusion v1.4 : réutilisation d’un petit modèle de diffusion conditionné par les séquences précédentes d’actions et d’observations (frames)
  • Ajout de bruit gaussien : pendant l’entraînement, du bruit gaussien est ajouté aux frames encodées afin de dégrader les frames de contexte, ce qui permet au réseau de corriger les informations échantillonnées à partir des frames précédentes. Cela est essentiel pour préserver la stabilité visuelle sur de longues durées

Ajustement fin du décodeur latent

  • Autoencodeur préentraîné de Stable Diffusion v1.4 : il compresse des patches de 8x8 pixels en 4 canaux latents, ce qui entraîne des artefacts significatifs lors de la prédiction des frames de jeu. Cela affecte en particulier les petits détails et le HUD dans la barre inférieure
  • Entraînement du décodeur : pour améliorer la qualité d’image, seul le décodeur de l’autoencodeur latent est entraîné en calculant une perte MSE sur les pixels des frames cibles

Résumé de GN⁺

  • GameNGen est le premier moteur de jeu utilisant un modèle neuronal capable d’interagir en temps réel avec des environnements de jeu complexes
  • Grâce à la simulation de DOOM, il fournit une prédiction de frames de haute qualité, au point que les évaluateurs humains ont du mal à distinguer le jeu réel de la simulation
  • Il améliore l’efficacité en réutilisant des modèles existants comme Stable Diffusion v1.4, et maintient la stabilité visuelle grâce à des techniques comme l’ajout de bruit gaussien
  • L’ajustement fin du décodeur latent améliore la qualité d’image et préserve les détails des frames de jeu

1 commentaires

 
GN⁺ 2024-08-29
Commentaires sur Hacker News
  • Le modèle de diffusion de Google basé sur SD 1.4 intègre plus de causalité, de conséquences et de séquentialité que prévu

    • Faire jouer un agent à Doom pour obtenir des données d’entraînement infinies
    • Ajouter du bruit gaussien aux images source et récompenser l’agent pour qu’il « corrige » les images successives
    • Il est important d’apprendre au modèle à corriger les erreurs et à maintenir la stabilité
    • On se demande s’il serait possible d’affiner ce modèle dans un style « photoréaliste » ou type ray tracing
  • Cet article ne décrit pas un système qui prend des entrées utilisateur en temps réel pour ajuster la sortie

    • Entraîné sur un vaste jeu de données où un agent joue à Doom
    • Les entrées utilisateur ne sont pas reflétées en temps réel dans la simulation
    • L’article omet d’expliquer le gameplay utilisateur en temps réel
  • Il est surprenant que ce modèle puisse rendre à 20 fps

    • Cela ressemble à un croisement entre un modèle de diffusion et un RNN
    • C’est comparable à un modèle qui rêve d’un jeu auquel il a beaucoup joué
    • Les humains pourraient eux aussi être des machines à prédire l’instant suivant
  • Les tentatives de faire tourner Doom sur tout et n’importe quoi continuent

    • Ce modèle est la version de Doom aux exigences matérielles les plus élevées
    • Doom se retrouve ainsi aux deux extrémités du spectre matériel
  • Il est amusant de lire des commentaires disant que cela n’a aucun sens

    • Tout n’a pas besoin d’être créé pour générer du profit
    • Créer quelque chose pour l’apprentissage, le défi et la curiosité a aussi de l’importance
    • Le temps passé à éprouver du plaisir n’est jamais du temps perdu
  • Comparaison entre la configuration requise de Doom et Stable Diffusion v1

    • Doom : 4 Mo de RAM, 12 Mo d’espace disque
    • Stable Diffusion v1 : UNet 860M et CLIP ViT-L/14, taille du checkpoint de 4,27 Go, exécuté sur TPU-v5e
    • Malgré une capacité suffisante pour mémoriser le jeu des centaines de fois, il reste beaucoup de marge pour l’optimisation
    • Si l’on automatise suffisamment un jeu, on peut le répliquer
  • Le rôle d’un moteur de jeu est de rendre un monde

    • Le message « cette porte nécessite une clé bleue » ne donne pas une clé bleue à l’utilisateur
    • Un moteur de jeu peut créer de nouveaux jeux et modifier en temps réel les règles des jeux existants
    • Un modèle de diffusion n’est pas un moteur de jeu
  • Même si aucune condition textuelle n’a été fournie, il pourrait être possible de créer un nouveau jeu uniquement avec des prompts textuels

    • Utilisation du RL pour apprendre l’apparence et le fonctionnement de Doom
    • Simuler un jeu en monde ouvert avec un nombre infini d’états serait difficile