Hunyuan3D 2.0 – le système de génération d’assets 3D haute résolution de Tencent

(github.com/Tencent)

3 points par GN⁺ 2025-01-23 | 1 commentaires | Partager sur WhatsApp

Hunyuan3D 2.0 est un système de synthèse 3D à grande échelle pour la génération d’assets 3D texturés en haute résolution
Deux composants principaux :
- Hunyuan3D-DiT : un modèle de génération de formes à grande échelle, construit sur un fusion transformer de diffusion basé sur les flux et extensible, qui fournit une base stable en générant une géométrie alignée sur des images de condition spécifiques
- Hunyuan3D-Paint : génère des texture maps haute résolution et riches en détails pour des meshes générés ou créés manuellement en s’appuyant sur de solides connaissances préalables en géométrie et en diffusion
Hunyuan3D-Studio est une plateforme qui simplifie le processus de régénération d’assets 3D, permettant aux professionnels comme aux amateurs de manipuler ou d’animer efficacement des meshes
Hunyuan3D 2.0 affiche des performances supérieures à celles des modèles open source et propriétaires existants : détails géométriques, alignement conditionnel, qualité des textures, etc.

Hunyuan3D 2.0

Architecture

Pipeline de génération en deux étapes : génération du mesh puis synthèse de la texture map
Sépare les difficultés liées à la génération de formes et de textures, et offre un texturing flexible pour les meshes générés ou créés manuellement

Performances

Hunyuan3D 2.0 affiche des performances supérieures par rapport aux autres méthodes de génération 3D open source et propriétaires
Dépasse tous les benchmarks en CMMD, FID_CLIP, FID et CLIP-score

Modèles préentraînés

Hunyuan3D-DiT-v2-0 : 2025-01-21, 2.6B paramètres
Hunyuan3D-Paint-v2-0 : 2025-01-21, 1.3B paramètres
Hunyuan3D-Delight-v2-0 : 2025-01-21, 1.3B paramètres

Utilisation de l’API

Conception d’une API de type diffusers pour utiliser les modèles Hunyuan3D-DiT et Hunyuan3D-Paint
Génération de mesh possible via Hunyuan3D-DiT
Synthèse de textures possible via Hunyuan3D-Paint

Application Gradio

Hébergement possible sur un ordinateur personnel via l’application Gradio

📑 Plan open source

Inclut le code d’inférence, les checkpoints des modèles, le rapport technique, ComfyUI et une version TensorRT

1 commentaires

GN⁺ 2025-01-23

Commentaire Hacker News

Dans les questions liées aux modèles de maillage 3D, une discussion porte sur l’existence d’un modèle adapté à la photogrammétrie. Malgré l’utilisation de photos de haute qualité, d’un éclairage cohérent et d’un fond uni, les applications courantes génèrent des maillages à faible nombre de polygones ou comportant de nombreux trous.
Certains estiment que l’IA générative fera tomber à zéro le coût marginal de création de contenus 3D interactifs. Cela pourrait avoir le potentiel de relancer le métavers.
La licence de Tencent Hunyuan 3D 2.0 ne s’applique pas dans l’Union européenne, au Royaume-Uni ni en Corée du Sud.
Bien qu’un schéma indique que le maillage est généré avec l’algorithme marching cubes, certains pensent qu’en réalité il est produit autrement.
Une question est posée sur la possibilité d’exécuter le modèle d’IA chez soi, par exemple sur une carte graphique 4090.
Certains font remarquer que tout ce qui contient le mot « avancé » est une bonne chose.
Les systèmes de contenus générés par les utilisateurs peuvent rencontrer le « problème des pénis ».
Certains avancent qu’il faut faire confiance aux modèles génératifs, mais en vérifiant. Il est important d’essayer soi-même.
Quelqu’un a essayé le modèle lié sur la page Hugging Face, mais n’a pas pu le tester à cause d’une erreur de surutilisation. Les résultats ont néanmoins l’air assez convaincants.
Il semble qu’un long prompt soit nécessaire, ce qui peut susciter des doutes. Quelqu’un a essayé avec des prompts simples pour voir à quel point l’usage réel est difficile.
Le résultat pour le prompt « guitare » montre une guitare un peu épaisse, et le prompt « feuille de monstera » donne une forme un peu étrange.
Le résultat du prompt pour le personnage « Super Mario » paraît douteux. Luigi devrait apparaître différemment de Mario, mais ce n’est pas le cas.
Le résultat pour le prompt « Peach » fait sourire : il s’agit d’une pêche avec un visage mignon.
Le résultat pour le prompt « Toad » ressemble à une sorte de Carapuce déformé.
L’article scientifique est disponible sur arXiv. Les modèles génératifs sont entraînés sur beaucoup de données, et une interface de type base de données pourrait être nécessaire.
On peut imaginer un modèle adapté aux objets fonctionnels pour l’impression 3D.

Hunyuan3D 2.0 – le système de génération d’assets 3D haute résolution de Tencent

Hunyuan3D 2.0

Architecture

Performances

Modèles préentraînés

Utilisation de l’API

Application Gradio

📑 Plan open source

À lire aussi

1 commentaires

Commentaire Hacker News