TRELLIS - Modèle de génération de maillages 3D

(trellis3d.github.io)

1 points par GN⁺ 2024-12-10 | 1 commentaires | Partager sur WhatsApp

TRELLIS est un modèle génératif qui crée des assets 3D à partir de texte ou d’images, en combinant la représentation latente unifiée SLAT et les Rectified Flow Transformers pour améliorer la qualité et la flexibilité des sorties
SLAT capture à la fois une grille 3D clairsemée et des caractéristiques visuelles multi-vues afin de représenter la géométrie et les textures, et peut être décodé en Radiance Fields, 3D Gaussians et meshes
Le modèle, qui peut aller jusqu’à 2 milliards de paramètres, a été entraîné sur un jeu de données de 500 000 assets 3D, et ses auteurs affirment qu’il produit une qualité supérieure aux approches précédentes, y compris aux méthodes récentes de taille comparable
En plus de la génération texte-vers-3D et image-vers-3D, il prend en charge la génération de variations d’assets 3D existants ainsi que l’édition de zones locales, avec des manipulations comme retirer un bras, ajouter une arme ou remplacer des jambes
Les ressources publiées sont limitées à des usages académiques et de recherche, et des biais potentiels liés au jeu de données issu d’Internet ainsi que des limites dans la génération d’objets réalistes du monde réel subsistent

Objectif et périmètre de TRELLIS

TRELLIS est un modèle génératif 3D natif visant une génération 3D à la fois extensible et polyvalente
La page du projet est l’unique page officielle de TRELLIS, et le travail est indiqué comme CVPR 2025 Highlight
L’objectif principal est de créer des assets 3D de haute qualité à partir de conditions textuelles ou visuelles, tout en offrant différents formats de sortie et des fonctions d’édition
Le code, les modèles et les données doivent être publiés

Représentation Structured LATent (SLAT)

SLAT est une représentation latente 3D unifiée conçue pour une génération 3D de haute qualité et multi-usage
Des vecteurs latents locaux sont définis sur les voxels actifs qui intersectent la surface de l’objet
Ces vecteurs latents locaux sont encodés après un rendu dense de l’asset 3D sous plusieurs vues, puis une fusion et un traitement des caractéristiques d’image
Ces caractéristiques proviennent d’un encodeur de vision préentraîné et complètent la structure grossière fournie par les voxels actifs afin de capturer les détails géométriques et les propriétés visuelles
En appliquant différents décodeurs, SLAT peut être converti en plusieurs représentations 3D
- Radiance Fields
- 3D Gaussians
- meshes

Architecture du modèle génératif et apprentissage

TRELLIS est une grande famille de modèles génératifs 3D construite sur SLAT, utilisant comme condition des prompts textuels ou des images
Le pipeline de génération se divise en 2 étapes
- d’abord, il génère la structure clairsemée de SLAT
- ensuite, il génère les vecteurs latents des cellules non vides
Le modèle backbone repose sur des Rectified Flow Transformers, adaptés pour traiter la nature clairsemée de SLAT
L’échelle d’entraînement monte jusqu’à 2 milliards de paramètres, avec un vaste jeu de données composé de 500 000 objets 3D variés
Les résultats sont des assets 3D avec une géométrie détaillée et des textures riches, que les auteurs présentent comme nettement supérieurs aux méthodes antérieures

Exemples de génération et d’édition, et formats de sortie

Les exemples texte-vers-3D utilisent des prompts textuels créés par GPT-4
- un téléphone rotatif vintage en cuivre
- une maison en briques à deux étages avec toit rouge et clôture
- une sphère lumineuse posée sur un socle en pierre
- un robot sphérique au design doré et argenté
Les exemples image-vers-3D utilisent des images générées par DALL-E 3
L’apparence et la géométrie de la page sont respectivement rendues à partir de 3D Gaussians et de meshes
Les fichiers GLB sont extraits en cuisant l’apparence des 3D Gaussians sur le mesh
Pour un asset 3D donné, il est possible de générer des variations cohérentes avec un prompt textuel
- une texture métallique avec une finition peinte orange et blanche
- une texture rappelant un tissu tricoté vert et violet
- une texture métallique de style arme médiévale avec lanières en cuir et accents bleus
- une structure high-tech transparente, semblable au verre
Les manipulations locales éditent une zone spécifique selon un prompt textuel ou visuel
- retirer un bras d’un mécha de combat humanoïde
- ajouter une arme à rayon géante
- remplacer les jambes par un châssis à chenilles
En composant les assets 3D générés, il est possible de créer des designs d’art 3D complexes et vivants

Objectifs de recherche et limites

TRELLIS est un projet de recherche pur
Le jeu de données utilisé est public et a été examiné pour éviter la présence d’informations personnellement identifiables ou de contenus nuisibles
Comme le jeu de données a été collecté sur Internet, des biais potentiels peuvent subsister
Le modèle actuel est particulièrement efficace pour générer des assets 3D de style artistique
Sa capacité à générer des objets réalistes du monde réel reste limitée
Les ressources de la page sont fournies uniquement à des fins académiques et de recherche pour explorer les techniques de génération texte-vers-3D et image-vers-3D
Aucun usage ou objectif commercial n’est envisagé
L’article associé est le preprint arXiv Structured 3D Latents for Scalable and Versatile 3D Generation

1 commentaires

GN⁺ 2024-12-10

Commentaires Hacker News

Waouh, c'est vraiment impressionnant, mais c'est la première fois que du contenu généré par IA me donne la nausée
C'est tellement bien fait que ça ressemble à des assets génériques ultra haut de gamme, sans âme, produits à la chaîne, et ça me rend triste
Ce n'est pas pour minimiser l'accomplissement en lui-même ; au contraire, j'ai l'impression que ça annonce la fin des assets fabriqués à la main
Ce n'est pas tant que j'ai pitié des artistes, c'est plutôt que je me désole moi-même de tenir à cette qualité intrinsèque d'une création faite par des mains humaines
C'est aussi pour ça que je n'aime pas trop les jeux à génération procédurale. J'ai envie de me promener dans un monde sorti de l'esprit de quelqu'un ; si je voulais un univers procédural qui existe sans raison particulière, je n'aurais qu'à sortir me balader dehors
Je veux des œuvres d'art créées avec une intention, dans lesquelles des contemporains ont mis leur vision, leurs idées, leurs valeurs, leur regard et leur personnalité — pas juste du contenu ou un tas d'objets à fouiller. Elles n'ont même pas besoin d'avoir l'air aussi réussies, il suffit qu'elles aient été faites avec un but
- On peut aussi voir les choses comme ça : les jeux AAA ne pourront bientôt plus se différencier simplement en disant « les graphismes sont incroyables »
  Honnêtement, la plupart des nouvelles sorties aujourd'hui ressemblent déjà à peu près au même gameplay avec juste une mise à jour graphique
  Et si bientôt moi aussi je peux faire ça, je me demande ce que les grands studios vont préparer pour nous donner envie de revenir
- La phrase « si je voulais un univers procédural qui existe sans raison particulière, je n'aurais qu'à sortir » me rappelle quand j'ai commencé le sport en extérieur il y a quelques années
  Avant ça, je sortais à peine et je restais surtout dans une pièce plutôt sombre ; puis un jour j'ai levé les yeux vers le ciel et je me suis dit : « Waouh, ces nuages ressemblent à ceux de jeux comme Horizon ou Assassin's Creed »
  En regardant ces assets, j'ai aussi ressenti une certaine tristesse. En voyant une « maison en briques de deux étages avec toit rouge et clôture », j'ai pensé à l'exemple d'animation/keyframes de three.js
  L'exemple three.js a été fait à la main par quelqu'un, avec une vraie intention derrière chaque choix, alors que Trellis donne plutôt l'impression de dire « pouf, le voilà », comme un mélange de travaux trouvés sur Internet et dans des jeux
  L'IA va peut-être faire disparaître une certaine forme de valeur, mais du coup le contenu fait à la main pourrait aussi devenir plus précieux. Reste à savoir si nous reconnaîtrons suffisamment cette valeur pour permettre aux artistes d'en vivre durablement
  https://threejs.org/examples/#webgl_animation_keyframes
- Une bonne partie des développeurs de jeux détestent le level design, et si nous n'utilisons pas la génération procédurale, ce n'est pas parce que c'est difficile mais parce que nous nous forçons à construire un monde fait main
  Je suis plutôt de ceux-là, donc l'idée que quelqu'un joue à mon jeu en pensant que les niveaux ont « jailli » de mon esprit me ferait bien rire. Comme si j'étais un artiste profond
  Je suis très fier d'autres aspects du développement de jeux, mais mon level design n'en fait pas partie
- Je ne pense pas que cette technologie change fondamentalement le champ de compétition humain
  Quand elle commencera à être largement utilisée, on verra sûrement déferler des productions médiocres en masse, mais les vrais artistes qui cherchent à créer quelque chose avec une intention apprendront à s'en servir comme tremplin vers quelque chose de plus grand
  Quand on voit des gens comme Martin Nebelong, on constate qu'ils apprennent à utiliser l'IA tout en gardant l'humain dans la boucle
  https://x.com/martinnebelong?s=21&t=cTpE-rRbCiocUlN0VaSheQ
- C'est vraiment un bon outil de prototypage pour les personnes qui ne savent pas créer des assets 3D
  Un peu comme le scripting visuel d'Unreal Blueprints a ouvert le développement de jeux et le modding à des gens peu à l'aise avec la programmation
  Donc si on peut obtenir des modèles à mettre dans un prototype sans avoir à apprendre Blender, Maya, etc., c'est très bien. Même si c'est un peu irrégulier et bizarre, au moins il y a du contenu
Waouh, le résultat est excellent. Je ne suis pas spécialiste, mais j’ai l’impression que c’est ce à quoi tout le monde pensait depuis la sortie de la première démo NeRF
En cherchant, j’ai même retrouvé un commentaire que j’avais écrit il y a 5 ans en espérant exactement ça : https://news.ycombinator.com/item?id=22642628
L’étape suivante, c’est d’ajouter automatiquement à l’image 3D des « nœuds » permettant au modèle de pivoter ou de tourner. On obtiendrait alors immédiatement des animations et du contenu interactif à la demande
On pourrait recréer des souvenirs en y injectant des photos d’enfance, puis faire parler des proches en ajoutant des échantillons de leur voix. Pour renforcer l’immersion, il suffirait de mettre un casque à réduction de bruit et de passer en VR
Bientôt disponible ! Cliquez ici pour rejoindre la liste d’attente de « Surrender Reality »
- L’étape suivante, c’est de générer des modèles avec une topologie de mesh de meilleure qualité, qui ne se casse pas dès qu’on fait de l’animation ou de l’édition
  J’ai fait pas mal de retopologie, et si on rigge ces modèles tels quels, on aura des problèmes d’ombrage et de déformation dans tous les sens. Même sans animation, la triangulation saute déjà assez nettement aux yeux de près
  Cela dit, la génération d’assets 3D de haute qualité semble toute proche. Il suffirait de combiner l’approche montrée ici avec un remeshing quadrangulaire par IA fondé sur l’estimation de champs de direction et la détection de caractéristiques, et ce domaine progresse lui aussi à une vitesse effrayante
- Intuitivement, la combinaison d’un moteur 3D et de cette technologie me semble être une meilleure solution que l’approche actuelle consistant à générer directement de la vidéo rasterisée dans l’espace latent. Par coïncidence, Sora est aussi sorti aujourd’hui
  Il n’est peut-être pas réaliste d’entraîner un réseau à rigger et animer des meshes, puis à configurer une scène vidéo complète arbitraire comme « jumeau numérique »
  Malgré tout, si une telle configuration est possible, on pourrait sans doute contrôler la vidéo générée de manière bien plus fine tout en laissant le reste inchangé
- Je ne suis pas sûr de ce que recouvrent exactement les « nœuds » ici. Les rotations ou zooms arbitraires n’ont l’air théoriquement utiles que si on veut un plateau tournant ou une tête d’Exorciste qui pivote dans tous les sens
  L’étape suivante sera probablement plutôt une topologie symétrique plus normale, de meilleures UV maps, et de l’auto-rigging (FK/IK) pour faciliter l’animation
- Je me demande quel effet cela aura sur les artistes 3D dans les studios de développement de jeux
  Est-ce que les studios garderont leurs artistes tout en utilisant ces outils pour produire plus de contenu plus vite et plus facilement, ou est-ce qu’ils n’en conserveront qu’une partie, réduiront les 80 % restants, puis les remplaceront par cet outil ?
- C’est utile non seulement pour les animations et contenus interactifs à la demande, mais aussi pour le rendu d’images fixes
  Jusqu’ici, les images 2D générées par IA avaient un éclairage faux et beaucoup d’erreurs. Une fois qu’on dispose d’une scène 3D et qu’on la rend avec un outil gratuit comme Blender, l’éclairage devient correct et paramétrable, et les mauvais détails sont faciles à corriger
  Il existe déjà des outils absurdement puissants, et à partir de là, ça va sans doute devenir encore beaucoup plus puissant, beaucoup plus vite
Ce n’est pas parfait, mais c’est bien meilleur que la plupart des générateurs de modèles 3D que j’ai testés jusqu’ici
Avant, les résultats étaient incroyablement mauvais ; cette fois, c’était au moins passable
Il ne manque plus qu’un format de fichier qu’on puisse envoyer directement dans Orca Slicer
Impressionnant. J’ai créé ce dirigeable low poly avec layer diffusion : https://image.non.io/b3f843be-b1b4-468a-a0ec-9d58b191beee.we...
Et voilà le résultat : https://video.non.io/video-2732101706.mp4
Franchement, ce n’est pas mal du tout, et on se rapproche d’un niveau exploitable pour des assets de jeu
J’ai essayé avec une image Wikipédia du F-117 furtif, et la sortie a été un échec total
Au point que je ne vois même pas comment les exemples de la page du projet ont été générés, et la silhouette de base était complètement fausse
J’espérais pouvoir corriger ça en téléversant des images prises sous plusieurs angles, mais il ne semble pas y avoir de fonctionnalité de ce type
- Le F-117 a une forme très particulière. Si on ne sait pas déjà à quoi il ressemble, extrapoler à partir d’une seule vue sous un angle donné est déjà assez difficile, même pour un humain
  Si ce n’était pas dans le dataset, on peut lui pardonner jusque-là. Avec sa forme anguleuse, il semble même facile de mal l’identifier comme n’étant pas un avion
  Je ne cherche pas à juger la qualité globale du modèle, mais le F-117 serait presque à coup sûr un test injuste
J’ai vu passer ça il y a quelques jours aussi, mais c’est une démo tellement impressionnante que ça mériterait d’être discuté ici
https://news.ycombinator.com/item?id=42342557
Il y a du potentiel, mais les images que j’ai mises ont généré d’étranges plaques plates, probablement parce qu’elles s’écartaient trop de la distribution d’entraînement
- J’ai réussi à obtenir de bons résultats avec des images de type jeu isométrique, vues de dessus, avec des personnages ou des objets
  Dès que j’utilisais une image de face, tous les résultats étaient plats
- Encore un outil miraculeux. Jusqu’à ce qu’on le teste soi-même
Cela dépend beaucoup de l’image, mais la manière dont il a reproduit la fourrure animale avec une combinaison appropriée de mesh polygonal et textures transparentes était vraiment stupéfiante
Les exemples de la page ne montraient même pas cette capacité
https://imgur.com/a/qJp4HNX
AlphaFold est un modèle qui génère de la 3D à partir d’une séquence protéique unidimensionnelle, et sa représentation interne des données est sophistiquée et complexe
En comparaison, il est intéressant de voir que cet article consiste essentiellement à voxeliser les données d’entrée et à créer le jeu d’entraînement en prenant beaucoup de photos sous plusieurs angles
J’ai réussi à aller d’une image générée par IA jusqu’à une impression 3D avec ça. J’ai résumé les étapes ici : https://x.com/ryanlanciaux/status/1866163343788007619
- C’est vraiment futuriste. On peut créer une image à partir de mots, puis la transformer chez soi en objet physique, mais le texte brut et les images qui décrivent le processus sont illisibles à cause d’un site cassé

TRELLIS - Modèle de génération de maillages 3D

Objectif et périmètre de TRELLIS

Représentation Structured LATent (SLAT)

Architecture du modèle génératif et apprentissage

Exemples de génération et d’édition, et formats de sortie

Objectifs de recherche et limites

À lire aussi

1 commentaires

Commentaires Hacker News