WorldGen – Générer des mondes 3D immersifs à partir de texte

(meta.com)

3 points par GN⁺ 2025-11-24 | 1 commentaires | Partager sur WhatsApp

WorldGen de Meta est un système d’IA générative end-to-end qui crée automatiquement des mondes 3D explorables à partir d’un seul prompt textuel
Il combine raisonnement procédural, génération 3D par diffusion et décomposition de scène par reconnaissance d’objets pour composer des environnements géométriquement cohérents et visuellement riches
Le processus de génération se déroule en quatre étapes : planification (Planning), reconstruction (Reconstruction), décomposition (Decomposition) et raffinement (Refinement)
Les résultats sont compatibles avec les moteurs de jeu standard comme Unity et Unreal, et peuvent être utilisés sans processus de conversion supplémentaire
La technologie a le potentiel de rendre la création de contenus 3D accessible à tous et plus efficace, malgré sa complexité et son coût actuels

Aperçu de WorldGen

WorldGen peut générer en quelques minutes un monde 3D interactif à partir de simples entrées textuelles comme « cartoon medieval village » ou « sci-fi base station on Mars »
- Le monde généré conserve une cohérence de style et de thème, et sa structure est connectée de façon à permettre aux personnages de s’y déplacer librement
En s’appuyant sur les progrès des technologies d’IA générative, il devient possible de construire un environnement 3D complet à partir d’un simple prompt texte ou image

Architecture technique et étapes de génération

WorldGen commence par une étape de planification comprenant la génération procédurale du blockout, l’extraction de Navmesh et la génération d’images de référence
Vient ensuite une étape de reconstruction qui réalise la conversion image-vers-3D, la génération de scène basée sur le Navmesh et la génération de textures de base
La décomposition de scène et la curation des données s’appuient sur AutoPartGen pour isoler les éléments de détail
Enfin, une étape de raffinement est appliquée via l’amélioration d’image, le raffinement des meshes et des modèles de texturing

Ce qui le distingue des approches existantes

Les systèmes précédents génèrent principalement à partir d’un point de vue unique (viewpoint), ce qui entraîne une forte dégradation de la qualité en périphérie de la zone centrale
WorldGen génère une scène entièrement texturée de 50 × 50 mètres tout en conservant une cohérence stylistique et géométrique
Les recherches se poursuivent avec pour objectif de prendre en charge des mondes plus vastes à l’avenir

Compatibilité et possibilités d’usage

Le projet est actuellement au stade de la recherche et n’a pas encore été ouvert aux développeurs, mais les contenus générés peuvent être utilisés directement dans Unity et Unreal
Aucune conversion supplémentaire du pipeline de rendu n’est nécessaire

Limites et orientations futures

Le modèle actuel présente encore une marge d’amélioration en matière de taille spatiale et de latence de génération
Les futures versions viseront la génération d’espaces plus vastes et une amélioration de la vitesse

Importance pour l’industrie

La technologie pourrait réduire la complexité et le coût de la production de contenus 3D, et ouvrir la possibilité de construire des mondes virtuels même pour les non-spécialistes
Elle s’inscrit dans la vision présentée par Meta lors de Connect : un avenir où chacun peut créer des mondes virtuels sans écrire une seule ligne de code

Remerciements

Le projet est mené par l’équipe Reality Labs 3D GenAI
Principaux contributeurs : Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn, etc. (le symbole † indique les responsables du projet)

1 commentaires

GN⁺ 2025-11-24

Avis Hacker News

C’est une démo amusante, mais on ne peut pas entrer dans les bâtiments, la taille des bâtiments et la disposition du village sont presque toujours les mêmes, et il y a beaucoup d’incohérences visuelles
Au final, on dirait surtout qu’on a placé des boîtes similaires sur une grille puis qu’on se promène entre elles
Je sais bien que les progrès se font de manière progressive, mais par rapport à d’autres démos de génération de mondes, ça ressemble à un pas vraiment minuscule
- Les villages créés par l’IA donnent l’impression d’avoir subi une réglementation d’urbanisme extrêmement stricte
  Tous les bâtiments sont espacés de façon régulière sur une grille, et il semble même y avoir une limite de hauteur
  Dans les jeux en monde ouvert réalistes (GTA, Cyberpunk, etc.), il existe volontairement des « encombrements conçus » comme des impasses ou des portes verrouillées
  Si toutes les routes mènent à quelque chose d’intéressant, le plaisir de l’exploration disparaît au contraire
- Cette démo pourrait être plus utile pour le pipeline de production de contenu que d’autres exemples comme World Labs
  Si l’approche consiste à utiliser des assets explicites, elle pourrait être plus adaptée à la création de jeux
  Meta a déjà publié beaucoup d’articles clés dans ce domaine et possède aussi Hyperscape, donc on peut y voir une tentative expérimentale dans une autre direction
- Je ne vois pas de lien vers une vraie démo fonctionnelle
- La plupart des jeux ne permettent pas non plus d’entrer dans les bâtiments. Même dans Cyberpunk, seules très peu de portes s’ouvrent réellement
  Je me demande quand viendra le jour où les utilisateurs ordinaires pourront eux aussi essayer directement ce type de moteur de worldgen
  Pourquoi Google, Meta et Tencent se contentent-ils de faire des démonstrations sans jamais rien publier réellement ?
Ça ressemble à un pipeline d’ingénierie qui combine des techniques GenAI existantes
Le résultat n’est pas non plus au niveau SOTA, et cela ressemble moins à un progrès qu’à une approche en impasse
La vraie innovation serait de générer directement des maillages texturés avec un modèle appris de bout en bout, et le fait qu’ils n’y soient pas parvenus peut vouloir dire que la technologie essentielle fait encore défaut
Cela dit, ça pourrait tout de même servir à bootstrapper des jeux de données pour l’entraînement de futurs modèles
- Je me demande quelle est actuellement la technologie SOTA dans ce domaine
- Les développeurs ont sûrement fait de leur mieux pour répondre aux demandes de la direction, mais cela ressemble à un exemple des limites de l’innovation dans les grands groupes
C’est plus proche de 3DAssetGen que d’un « modèle du monde »
Il ne génère pas vraiment un monde, il se contente de combiner des assets
Un monde conçu à la main est bien meilleur, et c’est même moins séduisant qu’un jeu créé avec RPG Maker
- En réalité, cela semble ne générer qu’une petite zone carrée. Ce type de monde en grille risque d’être désagréable pour les joueurs
  Cela reste malgré tout significatif en tant que première tentative, et j’espère que l’IA pourra abaisser la barrière à la création de mondes pour le métavers
  C’est d’autant plus vrai quand on pense au temps et au coût énormes nécessaires pour créer ne serait-ce qu’une petite île comme dans GTA
- Nulle part sur la page il n’est question de « modèle du monde »
Autant acheter directement des modèles de bâtiments sur un asset store à 5 dollars
Je me demande vraiment s’il faut construire des data centers à plusieurs milliards de dollars et dégrader l’environnement pour produire ce genre de chose
- Je pense qu’il vaudrait mieux utiliser cet argent pour soutenir des artistes low poly comme Quaternius
  Je me demande aussi si les artistes 3D ont encore aujourd’hui la volonté de distribuer gratuitement leurs assets
L’ambiance de la première vidéo fait penser à Warcraft 3 ou DotA
Il fut un temps où une simple carte a complètement transformé les jeux en ligne et l’e-sport
Aujourd’hui, on peut créer des mondes à la demande de bien meilleure qualité, mais cette carte toute simple paraît malgré tout plus grande encore
Au fond, tout ce qu’on veut, c’est simplement un meilleur SimCity, alors je ne comprends pas pourquoi il faudrait autant de modèles de génération de mondes et de data centers
Il y a quelque chose d’ironique à consommer autant d’électricité et d’eau pour fabriquer de faux villages
Moi aussi, j’évite volontairement d’acheter une console de peur de devenir accro à des jeux comme Red Dead
Je me demande à qui profite réellement cette technologie
En cliquant sur le lien, j’ai eu une erreur 404, alors j’ai cherché et vu qu’il existait déjà en mai un projet Worldgen du même nom
Celui-là semble bien mieux réussir à produire des scènes 3D réalistes
- Mais en réalité, c’est quasiment un trucage qui donne à des images 2D une apparence 3D
  Il suffit de bouger un peu la caméra pour que l’illusion s’effondre
L’article en lui-même était plutôt bon
Il contient des détails intéressants sur la manière de traiter les maillages individuels
Lien vers l’article
Comme le mot « interactif » était utilisé plusieurs fois, je m’attendais à de vraies interactions, comme ouvrir une porte ou ramasser des objets,
mais en pratique cela voulait simplement dire qu’on pouvait explorer la scène à la première personne
Avec une telle définition, tous les modèles 3D sont interactifs
Génération de panoramas 2D par diffusion → conversion en nuage de points → lifting 3D → inpainting 2D → optimisation par 3D Gaussian Splatting
En gros, ils ont assemblé des images pour en faire de la 3D
Conceptuellement, c’est une approche qu’il est difficile d’appeler un modèle du monde, et c’est dommage que la terminologie soit aussi floue

WorldGen – Générer des mondes 3D immersifs à partir de texte

Aperçu de WorldGen

Architecture technique et étapes de génération

Ce qui le distingue des approches existantes

Compatibilité et possibilités d’usage

Limites et orientations futures

Importance pour l’industrie

Remerciements

À lire aussi

1 commentaires

Avis Hacker News