Diffusion Models Are Real-Time Game Engines
- GameNGen : premier moteur de jeu propulsé par un modèle neuronal, capable d’offrir des interactions en temps réel avec des environnements complexes en haute qualité
- Simulation de DOOM : permet de simuler de manière interactive le jeu classique DOOM à plus de 20 images par seconde sur un seul TPU
- PSNR : atteint 29,4 PSNR dans la prédiction de l’image suivante, soit un niveau comparable à une compression JPEG avec perte
- Évaluateurs humains : les évaluateurs humains font à peine mieux que le hasard pour distinguer les extraits de jeu des extraits simulés
Vidéo complète du gameplay
Collecte de données via le jeu de l’agent
- Agent RL automatisé : comme il est difficile de collecter à grande échelle des données de gameplay humain, la première étape consiste à entraîner un agent RL automatisé à jouer, puis à enregistrer les actions et observations de ces épisodes d’entraînement pour les utiliser comme données d’entraînement du modèle génératif
Entraînement du modèle génératif de diffusion
- Stable Diffusion v1.4 : réutilisation d’un petit modèle de diffusion conditionné par les séquences précédentes d’actions et d’observations (frames)
- Ajout de bruit gaussien : pendant l’entraînement, du bruit gaussien est ajouté aux frames encodées afin de dégrader les frames de contexte, ce qui permet au réseau de corriger les informations échantillonnées à partir des frames précédentes. Cela est essentiel pour préserver la stabilité visuelle sur de longues durées
Ajustement fin du décodeur latent
- Autoencodeur préentraîné de Stable Diffusion v1.4 : il compresse des patches de 8x8 pixels en 4 canaux latents, ce qui entraîne des artefacts significatifs lors de la prédiction des frames de jeu. Cela affecte en particulier les petits détails et le HUD dans la barre inférieure
- Entraînement du décodeur : pour améliorer la qualité d’image, seul le décodeur de l’autoencodeur latent est entraîné en calculant une perte MSE sur les pixels des frames cibles
Résumé de GN⁺
- GameNGen est le premier moteur de jeu utilisant un modèle neuronal capable d’interagir en temps réel avec des environnements de jeu complexes
- Grâce à la simulation de DOOM, il fournit une prédiction de frames de haute qualité, au point que les évaluateurs humains ont du mal à distinguer le jeu réel de la simulation
- Il améliore l’efficacité en réutilisant des modèles existants comme Stable Diffusion v1.4, et maintient la stabilité visuelle grâce à des techniques comme l’ajout de bruit gaussien
- L’ajustement fin du décodeur latent améliore la qualité d’image et préserve les détails des frames de jeu
1 commentaires
Commentaires sur Hacker News
Le modèle de diffusion de Google basé sur SD 1.4 intègre plus de causalité, de conséquences et de séquentialité que prévu
Cet article ne décrit pas un système qui prend des entrées utilisateur en temps réel pour ajuster la sortie
Il est surprenant que ce modèle puisse rendre à 20 fps
Les tentatives de faire tourner Doom sur tout et n’importe quoi continuent
Il est amusant de lire des commentaires disant que cela n’a aucun sens
Comparaison entre la configuration requise de Doom et Stable Diffusion v1
Le rôle d’un moteur de jeu est de rendre un monde
Même si aucune condition textuelle n’a été fournie, il pourrait être possible de créer un nouveau jeu uniquement avec des prompts textuels