Stable Video 3D : synthèse de nouvelles vues de haute qualité et génération 3D à partir d’une seule image
- Lancement de Stable Video 3D (SV3D), un modèle génératif basé sur Stable Video Diffusion. La qualité vidéo et la cohérence entre les vues sont fortement améliorées
- Deux variantes sont incluses : SV3D_u et SV3D_p
- SV3D_u génère une vidéo orbitale à partir d’une seule image en entrée, sans condition de caméra
- SV3D_p étend cette capacité pour générer une vidéo 3D le long d’une trajectoire de caméra spécifiée, en prenant en charge à la fois une image unique et des vues orbitales
- Stable Video 3D peut être utilisé à des fins commerciales via l’abonnement Stability AI ; pour un usage non commercial, il est possible de télécharger les poids du modèle sur Hugging Face et de consulter l’article de recherche
Avantages de Video Diffusion
- En appliquant le modèle de diffusion image-to-video Stable Video Diffusion avec l’ajout d’un conditionnement par trajectoire de caméra, Stable Video 3D peut générer des vidéos multi-vues d’un objet
- L’utilisation d’un modèle Video Diffusion apporte des avantages majeurs en matière de généralisation des sorties générées et de cohérence entre les vues, par rapport au modèle de diffusion d’images utilisé dans Stable Zero123
- En outre, en s’appuyant sur les solides capacités de Stable Video 3D, une optimisation 3D améliorée est proposée pour générer des orbites arbitraires autour d’un objet
Génération de nouvelles vues
- SV3D introduit des avancées importantes, en particulier pour la synthèse de nouvelles vues (NVS)
- Alors que les approches existantes se heurtent souvent à des perspectives limitées et à des incohérences dans les résultats, SV3D fournit des vues cohérentes depuis n’importe quel angle donné
- Cette capacité améliore non seulement le contrôle de la pose, mais garantit aussi une apparence cohérente de l’objet sur plusieurs vues, renforçant encore un aspect essentiel d’une génération 3D réaliste et précise
Génération 3D
- SV3D exploite la cohérence multi-vues pour optimiser les représentations 3D de type Neural Radiance Field (NeRF) et maillage, améliorant ainsi la qualité des maillages 3D générés directement à partir de nouvelles vues
- Pour cela, une perte d’échantillonnage par distillation de score masqué a été conçue afin d’améliorer davantage la qualité 3D des zones invisibles dans les vues prédites
- En outre, SV3D utilise un modèle d’éclairage séparé, optimisé conjointement avec la forme 3D et la texture, afin de réduire les problèmes d’éclairage pré-intégré
1 commentaires
Commentaires sur Hacker News