1 points par GN⁺ 2024-12-10 | 1 commentaires | Partager sur WhatsApp

Présentation d’une nouvelle méthode de génération 3D

  • Représentation Structured LATent (SLAT) : introduction d’une représentation latente structurée unifiée pouvant être décodée en différents formats de sortie. Elle intègre des caractéristiques visuelles multi-vues denses extraites de modèles puissants fondés sur la vision avec une grille 3D peu densément remplie, afin de capturer de manière complète les informations structurelles (géométriques) et texturales (apparence).

  • Rectified Flow Transformers : modèle de génération 3D conçu pour SLAT, avec un entraînement allant jusqu’à 2 milliards de paramètres sur un vaste jeu de données d’actifs 3D composé de 500 000 objets variés. Il produit des résultats de haute qualité à partir de conditions textuelles ou d’images, en surpassant largement les méthodes existantes.

Génération et édition d’actifs 3D

  • Génération d’actifs 3D à partir de texte et d’images : TRELLIS peut générer divers actifs 3D à l’aide de prompts textuels ou d’images. Parmi les exemples figurent un téléphone rotatif en cuivre, une maison en briques à deux étages ou encore un robot sphérique.

  • Variations d’actifs et édition locale : il est possible de générer des variations d’un actif 3D donné selon un prompt textuel, ainsi que de manipuler des zones spécifiques pour créer de nouveaux designs. Par exemple, on peut retirer le bras d’un robot de combat ou lui ajouter des armes.

Applications et méthodologie de TRELLIS

  • Design d’art 3D : en combinant les actifs 3D de haute qualité générés par TRELLIS, il est possible de créer facilement des compositions d’art 3D complexes et vivantes.

  • Représentation latente structurée : SLAT combine une structure creuse et de puissantes représentations visuelles en définissant des latents locaux sur les voxels actifs qui croisent la surface des objets. Ces caractéristiques, dérivées de puissants encodeurs de vision préentraînés, capturent des propriétés géométriques et visuelles détaillées.

  • Modèle TRELLIS : entraînement d’un modèle de génération 3D à grande échelle conditionné par des prompts textuels ou des images. Un pipeline en deux étapes est appliqué pour générer d’abord la structure creuse de SLAT, puis les vecteurs latents des cellules non vides. Cela permet de générer facilement des actifs 3D dans différents formats de sortie.

1 commentaires

 
GN⁺ 2024-12-10
Commentaires sur Hacker News
  • C’est la première fois qu’un contenu généré par IA me met mal à l’aise. C’est très impressionnant, mais ça me rend triste, comme si les œuvres faites de la main de l’homme disparaissaient. Je préfère des mondes nés de l’imagination humaine à des jeux générés de façon procédurale.

    • Je veux des œuvres d’art, pas du contenu. Je veux des créations faites par des pairs, porteuses de leur vision et de leurs valeurs.
  • J’ai l’impression que tout le monde y pense depuis les démos NeRF. J’ai retrouvé mon commentaire d’il y a cinq ans. La prochaine étape consiste à ajouter des « nœuds » aux images 3D pour créer du contenu pouvant être animé et avec lequel on peut interagir.

    • On pourrait entrer des photos d’enfance pour recréer des souvenirs, puis ajouter un échantillon de la voix d’un être cher pour pouvoir converser avec lui. La VR et un casque à réduction de bruit pourraient renforcer l’immersion.
  • Ce n’est pas parfait, mais c’est le meilleur générateur de modèles 3D que j’ai essayé jusqu’à présent. J’aimerais un format de fichier qu’on puisse importer directement dans Orca Slicer.

  • J’ai essayé avec une image du bombardier furtif F-117 sur Wikipédia, mais le résultat a complètement échoué. Il faudrait une fonction permettant de téléverser des images prises sous plusieurs angles.

  • Je me demande s’il existe une démo de la fonction « Text to 3D Asset ».

  • Je l’avais vu passer il y a quelques jours, mais la démo est vraiment impressionnante. J’espère qu’on en discutera ici.

  • J’en vois le potentiel, mais l’image que j’ai fournie semble sortir de son domaine d’entraînement, donc il n’a généré que des plans bizarres.

  • J’ai utilisé la diffusion par couches pour créer un dirigeable low poly. On arrive à un niveau exploitable comme asset de jeu.

  • J’ai téléversé des photos de câbles et de prises, et il a généré un maillage de prise avec les bons trous et les fils individuels.

  • La modélisation du flocon de neige Nix était vraiment médiocre. On dirait qu’il a été davantage entraîné sur des structures et textures naturelles et biologiques.