3 points par GN⁺ 2025-11-24 | 1 commentaires | Partager sur WhatsApp
  • WorldGen de Meta est un système d’IA générative end-to-end qui crée automatiquement des mondes 3D explorables à partir d’un seul prompt textuel
  • Il combine raisonnement procédural, génération 3D par diffusion et décomposition de scène par reconnaissance d’objets pour composer des environnements géométriquement cohérents et visuellement riches
  • Le processus de génération se déroule en quatre étapes : planification (Planning), reconstruction (Reconstruction), décomposition (Decomposition) et raffinement (Refinement)
  • Les résultats sont compatibles avec les moteurs de jeu standard comme Unity et Unreal, et peuvent être utilisés sans processus de conversion supplémentaire
  • La technologie a le potentiel de rendre la création de contenus 3D accessible à tous et plus efficace, malgré sa complexité et son coût actuels

Aperçu de WorldGen

  • WorldGen peut générer en quelques minutes un monde 3D interactif à partir de simples entrées textuelles comme « cartoon medieval village » ou « sci-fi base station on Mars »
    • Le monde généré conserve une cohérence de style et de thème, et sa structure est connectée de façon à permettre aux personnages de s’y déplacer librement
  • En s’appuyant sur les progrès des technologies d’IA générative, il devient possible de construire un environnement 3D complet à partir d’un simple prompt texte ou image

Architecture technique et étapes de génération

  • WorldGen commence par une étape de planification comprenant la génération procédurale du blockout, l’extraction de Navmesh et la génération d’images de référence
  • Vient ensuite une étape de reconstruction qui réalise la conversion image-vers-3D, la génération de scène basée sur le Navmesh et la génération de textures de base
  • La décomposition de scène et la curation des données s’appuient sur AutoPartGen pour isoler les éléments de détail
  • Enfin, une étape de raffinement est appliquée via l’amélioration d’image, le raffinement des meshes et des modèles de texturing

Ce qui le distingue des approches existantes

  • Les systèmes précédents génèrent principalement à partir d’un point de vue unique (viewpoint), ce qui entraîne une forte dégradation de la qualité en périphérie de la zone centrale
  • WorldGen génère une scène entièrement texturée de 50 × 50 mètres tout en conservant une cohérence stylistique et géométrique
  • Les recherches se poursuivent avec pour objectif de prendre en charge des mondes plus vastes à l’avenir

Compatibilité et possibilités d’usage

  • Le projet est actuellement au stade de la recherche et n’a pas encore été ouvert aux développeurs, mais les contenus générés peuvent être utilisés directement dans Unity et Unreal
  • Aucune conversion supplémentaire du pipeline de rendu n’est nécessaire

Limites et orientations futures

  • Le modèle actuel présente encore une marge d’amélioration en matière de taille spatiale et de latence de génération
  • Les futures versions viseront la génération d’espaces plus vastes et une amélioration de la vitesse

Importance pour l’industrie

  • La technologie pourrait réduire la complexité et le coût de la production de contenus 3D, et ouvrir la possibilité de construire des mondes virtuels même pour les non-spécialistes
  • Elle s’inscrit dans la vision présentée par Meta lors de Connect : un avenir où chacun peut créer des mondes virtuels sans écrire une seule ligne de code

Remerciements

  • Le projet est mené par l’équipe Reality Labs 3D GenAI
  • Principaux contributeurs : Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn, etc. (le symbole † indique les responsables du projet)

1 commentaires

 
GN⁺ 2025-11-24
Avis Hacker News
  • C’est une démo amusante, mais on ne peut pas entrer dans les bâtiments, la taille des bâtiments et la disposition du village sont presque toujours les mêmes, et il y a beaucoup d’incohérences visuelles
    Au final, on dirait surtout qu’on a placé des boîtes similaires sur une grille puis qu’on se promène entre elles
    Je sais bien que les progrès se font de manière progressive, mais par rapport à d’autres démos de génération de mondes, ça ressemble à un pas vraiment minuscule

    • Les villages créés par l’IA donnent l’impression d’avoir subi une réglementation d’urbanisme extrêmement stricte
      Tous les bâtiments sont espacés de façon régulière sur une grille, et il semble même y avoir une limite de hauteur
      Dans les jeux en monde ouvert réalistes (GTA, Cyberpunk, etc.), il existe volontairement des « encombrements conçus » comme des impasses ou des portes verrouillées
      Si toutes les routes mènent à quelque chose d’intéressant, le plaisir de l’exploration disparaît au contraire
    • Cette démo pourrait être plus utile pour le pipeline de production de contenu que d’autres exemples comme World Labs
      Si l’approche consiste à utiliser des assets explicites, elle pourrait être plus adaptée à la création de jeux
      Meta a déjà publié beaucoup d’articles clés dans ce domaine et possède aussi Hyperscape, donc on peut y voir une tentative expérimentale dans une autre direction
    • Je ne vois pas de lien vers une vraie démo fonctionnelle
    • La plupart des jeux ne permettent pas non plus d’entrer dans les bâtiments. Même dans Cyberpunk, seules très peu de portes s’ouvrent réellement
      Je me demande quand viendra le jour où les utilisateurs ordinaires pourront eux aussi essayer directement ce type de moteur de worldgen
      Pourquoi Google, Meta et Tencent se contentent-ils de faire des démonstrations sans jamais rien publier réellement ?
  • Ça ressemble à un pipeline d’ingénierie qui combine des techniques GenAI existantes
    Le résultat n’est pas non plus au niveau SOTA, et cela ressemble moins à un progrès qu’à une approche en impasse
    La vraie innovation serait de générer directement des maillages texturés avec un modèle appris de bout en bout, et le fait qu’ils n’y soient pas parvenus peut vouloir dire que la technologie essentielle fait encore défaut
    Cela dit, ça pourrait tout de même servir à bootstrapper des jeux de données pour l’entraînement de futurs modèles

    • Je me demande quelle est actuellement la technologie SOTA dans ce domaine
    • Les développeurs ont sûrement fait de leur mieux pour répondre aux demandes de la direction, mais cela ressemble à un exemple des limites de l’innovation dans les grands groupes
  • C’est plus proche de 3DAssetGen que d’un « modèle du monde »
    Il ne génère pas vraiment un monde, il se contente de combiner des assets
    Un monde conçu à la main est bien meilleur, et c’est même moins séduisant qu’un jeu créé avec RPG Maker

    • En réalité, cela semble ne générer qu’une petite zone carrée. Ce type de monde en grille risque d’être désagréable pour les joueurs
      Cela reste malgré tout significatif en tant que première tentative, et j’espère que l’IA pourra abaisser la barrière à la création de mondes pour le métavers
      C’est d’autant plus vrai quand on pense au temps et au coût énormes nécessaires pour créer ne serait-ce qu’une petite île comme dans GTA
    • Nulle part sur la page il n’est question de « modèle du monde »
  • Autant acheter directement des modèles de bâtiments sur un asset store à 5 dollars
    Je me demande vraiment s’il faut construire des data centers à plusieurs milliards de dollars et dégrader l’environnement pour produire ce genre de chose

    • Je pense qu’il vaudrait mieux utiliser cet argent pour soutenir des artistes low poly comme Quaternius
      Je me demande aussi si les artistes 3D ont encore aujourd’hui la volonté de distribuer gratuitement leurs assets
  • L’ambiance de la première vidéo fait penser à Warcraft 3 ou DotA
    Il fut un temps où une simple carte a complètement transformé les jeux en ligne et l’e-sport
    Aujourd’hui, on peut créer des mondes à la demande de bien meilleure qualité, mais cette carte toute simple paraît malgré tout plus grande encore

  • Au fond, tout ce qu’on veut, c’est simplement un meilleur SimCity, alors je ne comprends pas pourquoi il faudrait autant de modèles de génération de mondes et de data centers
    Il y a quelque chose d’ironique à consommer autant d’électricité et d’eau pour fabriquer de faux villages
    Moi aussi, j’évite volontairement d’acheter une console de peur de devenir accro à des jeux comme Red Dead
    Je me demande à qui profite réellement cette technologie

  • En cliquant sur le lien, j’ai eu une erreur 404, alors j’ai cherché et vu qu’il existait déjà en mai un projet Worldgen du même nom
    Celui-là semble bien mieux réussir à produire des scènes 3D réalistes

    • Mais en réalité, c’est quasiment un trucage qui donne à des images 2D une apparence 3D
      Il suffit de bouger un peu la caméra pour que l’illusion s’effondre
  • L’article en lui-même était plutôt bon
    Il contient des détails intéressants sur la manière de traiter les maillages individuels
    Lien vers l’article

  • Comme le mot « interactif » était utilisé plusieurs fois, je m’attendais à de vraies interactions, comme ouvrir une porte ou ramasser des objets,
    mais en pratique cela voulait simplement dire qu’on pouvait explorer la scène à la première personne
    Avec une telle définition, tous les modèles 3D sont interactifs

  • Génération de panoramas 2D par diffusion → conversion en nuage de points → lifting 3D → inpainting 2D → optimisation par 3D Gaussian Splatting
    En gros, ils ont assemblé des images pour en faire de la 3D
    Conceptuellement, c’est une approche qu’il est difficile d’appeler un modèle du monde, et c’est dommage que la terminologie soit aussi floue