1 points par GN⁺ 2023-11-29 | 1 commentaires | Partager sur WhatsApp

MeshGPT : un transformeur décodeur-only pour la génération de maillages triangulaires

  • MeshGPT génère des maillages triangulaires en échantillonnant de manière autorégressive un modèle transformeur qui produit des tokens à partir d’un vocabulaire géométrique appris.
  • Ces tokens peuvent être décodés en faces du maillage triangulaire, et les maillages générés se caractérisent par leur propreté, leur cohérence, leurs arêtes vives et leur haute fidélité.

Résumé

  • MeshGPT propose une nouvelle méthode de génération de maillages triangulaires qui reflète la compacité caractéristique des maillages créés par des artistes, contrairement aux maillages triangulaires denses extraits de champs neuronaux.
  • Inspirée par les récents progrès des grands modèles de langage, l’approche adopte une méthode basée sur des séquences qui génère de manière autorégressive des maillages triangulaires sous forme de séquences de triangles.
  • Elle commence par apprendre, à l’aide de convolutions sur graphe, un vocabulaire d’embeddings potentiellement quantifiés ; ces embeddings sont ensuite séquencés par un décodeur et décodés en triangles afin de reconstruire efficacement les maillages.

Comparaison vidéo et autres applications

  • L’approche de MeshGPT génère des maillages compacts avec des détails géométriques nets, tandis que les méthodes existantes ont tendance à manquer ces détails, à produire des maillages excessivement triangulés ou à générer des formes trop simplifiées.
  • Lorsqu’un maillage partiel est fourni, cette méthode peut inférer plusieurs complétions de forme possibles.
  • Cette méthode peut être utilisée pour générer des assets 3D pour une scène ; ici, une pièce remplie d’assets générés avec cette méthode est présentée.

Aperçu de la méthode

  • Un vocabulaire pour les maillages triangulaires est d’abord appris, puis utilisé pour effectuer une génération autorégressive des maillages.
  • Le vocabulaire d’embeddings géométriques est appris à partir d’une collection de formes variées, via un réseau encodeur-décodeur intégrant une quantification vectorielle.
  • Une fois l’entraînement terminé, ce transformeur peut directement échantillonner des maillages sous forme de séquences de tokens issus du vocabulaire appris.

L’avis de GN⁺

MeshGPT présente une approche innovante qui dépasse les méthodes existantes de génération de maillages et montre des améliorations notables en couverture de formes et en score FID. Cette technologie représente une avancée majeure dans les domaines de la modélisation 3D et de l’infographie, notamment grâce à sa capacité à générer directement des maillages compacts aux arêtes vives, qui imitent mieux les schémas de triangulation efficaces des maillages créés par l’humain. Ces progrès offrent de nouveaux outils aux créateurs de contenus 3D et ouvrent la possibilité de produire des assets 3D de meilleure qualité, plus rapidement et plus efficacement.

1 commentaires

 
GN⁺ 2023-11-29
Avis Hacker News
  • Une recherche qui illustre à quoi ressemble une idée révolutionnaire, avec beaucoup de détails dans le paper. On sait que les modèles Transformer sont extensibles, et cette idée sera probablement utilisée par de nombreuses entreprises pour entraîner des pipelines génériques de génération d’actifs 3D.

    "Nous apprenons d’abord un vocabulaire d’embeddings quantifiés latents qui intègrent des informations sur la géométrie locale du maillage et sa topologie à l’aide de convolutions sur graphe. Ces embeddings sont ensuite séquentialisés et décodés en triangles par un décodeur, ce qui permet de reconstruire efficacement le maillage."

  • En tant qu’ingénieur machine learning intéressé par Blender et le développement de jeux comme hobby, cette recherche est impressionnante, mais elle n’est pas vraiment utile de manière pratique pour des exemples limités de mobilier. Un modeleur expérimenté peut créer ce genre de mesh en moins de 5 minutes, et il faut toujours des polygones pour la génération. L’étape suivante serait probablement d’utiliser un LLM pour contrôler la génération à partir d’un seed, et d’ajouter un modèle d’image à la partie autorégressive de l’architecture. On pourrait alors voir de vrais assets adaptés aux jeux mobiles.

  • En tant que professionnel de la production 3D/cinéma, la situation actuelle me paraît à la fois extrêmement passionnante et inquiétante.

  • Je me demande quelle est l’entrée. Est-ce qu’on convertit une requête textuelle comme « chaise » en mesh ? Modification : il semble que le principal mode entrée-sortie soit la complétion de mesh, et non une fonctionnalité simple.

  • On dirait que les derniers problèmes difficiles sur lesquels il n’y a pas eu de grands progrès depuis les années 90 vont d’une manière ou d’une autre être résolus par les Transformers. Quelle époque fascinante à vivre.

  • La prochaine innovation sera une UX permettant de générer des scènes 3D avec ce type de modèle en VR. Cela nous permettra de générer des environnements 3D persistants et arbitraires pour tout type d’environnement pour lequel nous avons des données d’entraînement. Les modèles de diffusion pourront être utilisés pour générer les textures.

  • Même si ce n’est « qu’ » de l’autocomplétion de mesh, c’est extrêmement utile pour les artistes 3D. Il existe actuellement un décalage entre la manière de sculpter un personnage et celle de l’animer. Retopologiser un modèle prend beaucoup de temps. Une retopologie basée sur un Transformer qui prend un mesh brut et fournit une topologie propre ferait gagner un temps considérable.

  • J’adore ce domaine. Le paper comprend un super site web, des exemples et des vidéos. C’est bien plus rafraîchissant que le style habituel des articles avec résumé, introduction et résultats très denses.

  • Cette technologie devient vraiment très bonne ! Il reste encore des artefacts bizarres, mais on a désormais l’impression qu’il s’agit davantage de « détails répétitifs » que de problèmes algorithmiques ou complexes. Si on pouvait mettre tous les meshes dans un dossier, entraîner un réseau, puis lui demander autre chose dans ce style, on n’aurait même plus besoin de retopologiser ce qui est généré ni d’y ajouter d’autres influences créatives. Bien sûr, avant d’en arriver complètement là, le procgen rend encore un meilleur service, mais je suis vraiment emballé par la vitesse à laquelle cette technologie progresse ! J’espère qu’au showcase Unreal de l’année prochaine, on parlera d’une nouvelle fonctionnalité « Asset Generator ».

  • Cette technologie a vraiment l’air géniale ! Elle semble pouvoir énormément aider les développeurs de jeux indépendants à générer beaucoup d’assets.