- Hunyuan3D 2.0 est un système de synthèse 3D à grande échelle pour la génération d’assets 3D texturés en haute résolution
- Deux composants principaux :
- Hunyuan3D-DiT : un modèle de génération de formes à grande échelle, construit sur un fusion transformer de diffusion basé sur les flux et extensible, qui fournit une base stable en générant une géométrie alignée sur des images de condition spécifiques
- Hunyuan3D-Paint : génère des texture maps haute résolution et riches en détails pour des meshes générés ou créés manuellement en s’appuyant sur de solides connaissances préalables en géométrie et en diffusion
- Hunyuan3D-Studio est une plateforme qui simplifie le processus de régénération d’assets 3D, permettant aux professionnels comme aux amateurs de manipuler ou d’animer efficacement des meshes
- Hunyuan3D 2.0 affiche des performances supérieures à celles des modèles open source et propriétaires existants : détails géométriques, alignement conditionnel, qualité des textures, etc.
Hunyuan3D 2.0
Architecture
- Pipeline de génération en deux étapes : génération du mesh puis synthèse de la texture map
- Sépare les difficultés liées à la génération de formes et de textures, et offre un texturing flexible pour les meshes générés ou créés manuellement
Performances
- Hunyuan3D 2.0 affiche des performances supérieures par rapport aux autres méthodes de génération 3D open source et propriétaires
- Dépasse tous les benchmarks en CMMD, FID_CLIP, FID et CLIP-score
Modèles préentraînés
- Hunyuan3D-DiT-v2-0 : 2025-01-21, 2.6B paramètres
- Hunyuan3D-Paint-v2-0 : 2025-01-21, 1.3B paramètres
- Hunyuan3D-Delight-v2-0 : 2025-01-21, 1.3B paramètres
Utilisation de l’API
- Conception d’une API de type diffusers pour utiliser les modèles Hunyuan3D-DiT et Hunyuan3D-Paint
- Génération de mesh possible via Hunyuan3D-DiT
- Synthèse de textures possible via Hunyuan3D-Paint
Application Gradio
- Hébergement possible sur un ordinateur personnel via l’application Gradio
📑 Plan open source
- Inclut le code d’inférence, les checkpoints des modèles, le rapport technique, ComfyUI et une version TensorRT
1 commentaires
Commentaire Hacker News
Dans les questions liées aux modèles de maillage 3D, une discussion porte sur l’existence d’un modèle adapté à la photogrammétrie. Malgré l’utilisation de photos de haute qualité, d’un éclairage cohérent et d’un fond uni, les applications courantes génèrent des maillages à faible nombre de polygones ou comportant de nombreux trous.
Certains estiment que l’IA générative fera tomber à zéro le coût marginal de création de contenus 3D interactifs. Cela pourrait avoir le potentiel de relancer le métavers.
La licence de Tencent Hunyuan 3D 2.0 ne s’applique pas dans l’Union européenne, au Royaume-Uni ni en Corée du Sud.
Bien qu’un schéma indique que le maillage est généré avec l’algorithme marching cubes, certains pensent qu’en réalité il est produit autrement.
Une question est posée sur la possibilité d’exécuter le modèle d’IA chez soi, par exemple sur une carte graphique 4090.
Certains font remarquer que tout ce qui contient le mot « avancé » est une bonne chose.
Les systèmes de contenus générés par les utilisateurs peuvent rencontrer le « problème des pénis ».
Certains avancent qu’il faut faire confiance aux modèles génératifs, mais en vérifiant. Il est important d’essayer soi-même.
Quelqu’un a essayé le modèle lié sur la page Hugging Face, mais n’a pas pu le tester à cause d’une erreur de surutilisation. Les résultats ont néanmoins l’air assez convaincants.
Il semble qu’un long prompt soit nécessaire, ce qui peut susciter des doutes. Quelqu’un a essayé avec des prompts simples pour voir à quel point l’usage réel est difficile.
Le résultat pour le prompt « guitare » montre une guitare un peu épaisse, et le prompt « feuille de monstera » donne une forme un peu étrange.
Le résultat du prompt pour le personnage « Super Mario » paraît douteux. Luigi devrait apparaître différemment de Mario, mais ce n’est pas le cas.
Le résultat pour le prompt « Peach » fait sourire : il s’agit d’une pêche avec un visage mignon.
Le résultat pour le prompt « Toad » ressemble à une sorte de Carapuce déformé.
L’article scientifique est disponible sur arXiv. Les modèles génératifs sont entraînés sur beaucoup de données, et une interface de type base de données pourrait être nécessaire.
On peut imaginer un modèle adapté aux objets fonctionnels pour l’impression 3D.