- WorldGen de Meta est un système d’IA générative end-to-end qui crée automatiquement des mondes 3D explorables à partir d’un seul prompt textuel
- Il combine raisonnement procédural, génération 3D par diffusion et décomposition de scène par reconnaissance d’objets pour composer des environnements géométriquement cohérents et visuellement riches
- Le processus de génération se déroule en quatre étapes : planification (Planning), reconstruction (Reconstruction), décomposition (Decomposition) et raffinement (Refinement)
- Les résultats sont compatibles avec les moteurs de jeu standard comme Unity et Unreal, et peuvent être utilisés sans processus de conversion supplémentaire
- La technologie a le potentiel de rendre la création de contenus 3D accessible à tous et plus efficace, malgré sa complexité et son coût actuels
Aperçu de WorldGen
- WorldGen peut générer en quelques minutes un monde 3D interactif à partir de simples entrées textuelles comme « cartoon medieval village » ou « sci-fi base station on Mars »
- Le monde généré conserve une cohérence de style et de thème, et sa structure est connectée de façon à permettre aux personnages de s’y déplacer librement
- En s’appuyant sur les progrès des technologies d’IA générative, il devient possible de construire un environnement 3D complet à partir d’un simple prompt texte ou image
Architecture technique et étapes de génération
- WorldGen commence par une étape de planification comprenant la génération procédurale du blockout, l’extraction de Navmesh et la génération d’images de référence
- Vient ensuite une étape de reconstruction qui réalise la conversion image-vers-3D, la génération de scène basée sur le Navmesh et la génération de textures de base
- La décomposition de scène et la curation des données s’appuient sur AutoPartGen pour isoler les éléments de détail
- Enfin, une étape de raffinement est appliquée via l’amélioration d’image, le raffinement des meshes et des modèles de texturing
Ce qui le distingue des approches existantes
- Les systèmes précédents génèrent principalement à partir d’un point de vue unique (viewpoint), ce qui entraîne une forte dégradation de la qualité en périphérie de la zone centrale
- WorldGen génère une scène entièrement texturée de 50 × 50 mètres tout en conservant une cohérence stylistique et géométrique
- Les recherches se poursuivent avec pour objectif de prendre en charge des mondes plus vastes à l’avenir
Compatibilité et possibilités d’usage
- Le projet est actuellement au stade de la recherche et n’a pas encore été ouvert aux développeurs, mais les contenus générés peuvent être utilisés directement dans Unity et Unreal
- Aucune conversion supplémentaire du pipeline de rendu n’est nécessaire
Limites et orientations futures
- Le modèle actuel présente encore une marge d’amélioration en matière de taille spatiale et de latence de génération
- Les futures versions viseront la génération d’espaces plus vastes et une amélioration de la vitesse
Importance pour l’industrie
- La technologie pourrait réduire la complexité et le coût de la production de contenus 3D, et ouvrir la possibilité de construire des mondes virtuels même pour les non-spécialistes
- Elle s’inscrit dans la vision présentée par Meta lors de Connect : un avenir où chacun peut créer des mondes virtuels sans écrire une seule ligne de code
Remerciements
- Le projet est mené par l’équipe Reality Labs 3D GenAI
- Principaux contributeurs : Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn, etc. (le symbole † indique les responsables du projet)
1 commentaires
Avis Hacker News
C’est une démo amusante, mais on ne peut pas entrer dans les bâtiments, la taille des bâtiments et la disposition du village sont presque toujours les mêmes, et il y a beaucoup d’incohérences visuelles
Au final, on dirait surtout qu’on a placé des boîtes similaires sur une grille puis qu’on se promène entre elles
Je sais bien que les progrès se font de manière progressive, mais par rapport à d’autres démos de génération de mondes, ça ressemble à un pas vraiment minuscule
Tous les bâtiments sont espacés de façon régulière sur une grille, et il semble même y avoir une limite de hauteur
Dans les jeux en monde ouvert réalistes (GTA, Cyberpunk, etc.), il existe volontairement des « encombrements conçus » comme des impasses ou des portes verrouillées
Si toutes les routes mènent à quelque chose d’intéressant, le plaisir de l’exploration disparaît au contraire
Si l’approche consiste à utiliser des assets explicites, elle pourrait être plus adaptée à la création de jeux
Meta a déjà publié beaucoup d’articles clés dans ce domaine et possède aussi Hyperscape, donc on peut y voir une tentative expérimentale dans une autre direction
Je me demande quand viendra le jour où les utilisateurs ordinaires pourront eux aussi essayer directement ce type de moteur de worldgen
Pourquoi Google, Meta et Tencent se contentent-ils de faire des démonstrations sans jamais rien publier réellement ?
Ça ressemble à un pipeline d’ingénierie qui combine des techniques GenAI existantes
Le résultat n’est pas non plus au niveau SOTA, et cela ressemble moins à un progrès qu’à une approche en impasse
La vraie innovation serait de générer directement des maillages texturés avec un modèle appris de bout en bout, et le fait qu’ils n’y soient pas parvenus peut vouloir dire que la technologie essentielle fait encore défaut
Cela dit, ça pourrait tout de même servir à bootstrapper des jeux de données pour l’entraînement de futurs modèles
C’est plus proche de 3DAssetGen que d’un « modèle du monde »
Il ne génère pas vraiment un monde, il se contente de combiner des assets
Un monde conçu à la main est bien meilleur, et c’est même moins séduisant qu’un jeu créé avec RPG Maker
Cela reste malgré tout significatif en tant que première tentative, et j’espère que l’IA pourra abaisser la barrière à la création de mondes pour le métavers
C’est d’autant plus vrai quand on pense au temps et au coût énormes nécessaires pour créer ne serait-ce qu’une petite île comme dans GTA
Autant acheter directement des modèles de bâtiments sur un asset store à 5 dollars
Je me demande vraiment s’il faut construire des data centers à plusieurs milliards de dollars et dégrader l’environnement pour produire ce genre de chose
Je me demande aussi si les artistes 3D ont encore aujourd’hui la volonté de distribuer gratuitement leurs assets
L’ambiance de la première vidéo fait penser à Warcraft 3 ou DotA
Il fut un temps où une simple carte a complètement transformé les jeux en ligne et l’e-sport
Aujourd’hui, on peut créer des mondes à la demande de bien meilleure qualité, mais cette carte toute simple paraît malgré tout plus grande encore
Au fond, tout ce qu’on veut, c’est simplement un meilleur SimCity, alors je ne comprends pas pourquoi il faudrait autant de modèles de génération de mondes et de data centers
Il y a quelque chose d’ironique à consommer autant d’électricité et d’eau pour fabriquer de faux villages
Moi aussi, j’évite volontairement d’acheter une console de peur de devenir accro à des jeux comme Red Dead
Je me demande à qui profite réellement cette technologie
En cliquant sur le lien, j’ai eu une erreur 404, alors j’ai cherché et vu qu’il existait déjà en mai un projet Worldgen du même nom
Celui-là semble bien mieux réussir à produire des scènes 3D réalistes
Il suffit de bouger un peu la caméra pour que l’illusion s’effondre
L’article en lui-même était plutôt bon
Il contient des détails intéressants sur la manière de traiter les maillages individuels
Lien vers l’article
Comme le mot « interactif » était utilisé plusieurs fois, je m’attendais à de vraies interactions, comme ouvrir une porte ou ramasser des objets,
mais en pratique cela voulait simplement dire qu’on pouvait explorer la scène à la première personne
Avec une telle définition, tous les modèles 3D sont interactifs
Génération de panoramas 2D par diffusion → conversion en nuage de points → lifting 3D → inpainting 2D → optimisation par 3D Gaussian Splatting
En gros, ils ont assemblé des images pour en faire de la 3D
Conceptuellement, c’est une approche qu’il est difficile d’appeler un modèle du monde, et c’est dommage que la terminologie soit aussi floue