- La synthèse texte-image existante est rendue possible par des modèles de diffusion entraînés sur des dizaines de milliards de paires image-texte
- Pour appliquer cette approche à la 3D, il faudrait un vaste jeu de données 3D annoté ainsi qu’une architecture de débruitage, mais cela n’existe pas
- La synthèse Text-to-3D est donc réalisée en exploitant un modèle de diffusion 2D Text-to-Image préentraîné
- Le modèle 3D généré à partir du texte peut être visualisé sous tous les angles, avec un éclairage modifiable ou intégré dans d’autres environnements 3D
Aucun commentaire pour le moment.