- Modèle de diffusion latent (latent diffusion model) pour la génération de scènes 3D ultra-rapide
- Peut générer une scène 3D haute résolution en moins de 7 secondes à partir d'une ou plusieurs images d'entrée
- Entraîné sur un vaste jeu de données cohérent multi-vues, avec une vitesse jusqu'à 300 fois supérieure à celle des modèles de génération 3D existants
- Alors que les modèles existants nécessitent un processus d'optimisation, Bolt3D permet une génération de scène immédiate via une approche feed-forward
Limites et problèmes des modèles existants
- Les modèles de génération 2D existants peuvent produire des images de haute qualité, mais la génération de scènes 3D reste difficile
- Les modèles 3D existants présentent les problèmes suivants :
- difficulté à traiter des structures de données 3D complexes
- manque de données réelles de scènes 3D de haute qualité
- coût de calcul élevé et vitesse de traitement lente
Principales techniques et architecture de Bolt3D
Méthode de représentation 3D
- Utilise une représentation 3D Gaussian :
- un 3D Gaussian est composé de couleur, position, opacité et matrice de covariance
- rendu du 3D Gaussian via une image alignée sur les pixels appelée Splatter Image
- permet aussi de compléter les zones non visibles
Processus de génération de Bolt3D
- Estimation de la scène 3D à partir de l'image d'entrée via un modèle de diffusion latent (latent diffusion model)
- Encodage des informations géométriques dans l'espace latent via Geometry VAE
- Gaussian Head prédit et corrige les propriétés détaillées du 3D Gaussian (opacité, couleur, etc.)
- Réalisation d'un rendu immédiat de la scène 3D haute résolution
Architecture du modèle
- Le modèle de diffusion latent adopte une architecture dérivée des modèles de génération d'images 2D
- Geometry VAE encode des point maps 3D et des poses de caméra
- Gaussian Head affine les propriétés détaillées de la scène 3D générée
Jeu de données et entraînement
- Construction d'un vaste jeu de données multi-vues :
- inclut CO3D, MVImg, RealEstate10K, DL3DV-7K
- composé d'environ 300 000 scènes multi-vues au total
- utilisation de la méthode MASt3R pour obtenir des données géométriques précises
- Processus d'entraînement :
- Geometry VAE : entraînement de 256×256 → 512×512
- Gaussian Head : correction de la génération de Splatter Image
- Latent Diffusion Model : fine-tuning à partir du modèle CAT3D
Résultats expérimentaux et comparaison des performances
Comparaison avec les modèles existants
- Bolt3D surpasse les modèles Flash3D et DepthSplat existants
- Face à Flash3D, Bolt3D enregistre une performance supérieure d'environ 3,6 points sur l'indicateur PSNR, avec aussi des améliorations sur SSIM et LPIPS
- Face à DepthSplat, Bolt3D obtient de meilleurs résultats sur tous les indicateurs de performance
- Le gain de performance est particulièrement important lorsqu'une seule image d'entrée est fournie
Comparaison avec les modèles basés sur l'optimisation
- Comparé aux modèles basés sur l'optimisation comme CAT3D, Bolt3D offre des performances similaires ou supérieures tout en étant 300 fois plus rapide
- Alors que CAT3D nécessite environ 5 minutes pour générer une scène, Bolt3D peut effectuer la même tâche en 6,25 secondes
- En termes d'indicateurs de performance, CAT3D obtient un score PSNR légèrement supérieur à Bolt3D, mais Bolt3D domine largement sur la vitesse de traitement
Améliorations de l'architecture du modèle
Amélioration de Geometry VAE
- Utilisation d'un VAE dédié aux informations géométriques → précision supérieure à celle d'un VAE d'image classique
- Application d'un scaling non linéaire et d'un depth mapping → amélioration des performances du modèle
Amélioration de Gaussian Head
- Intégration et correction d'informations multi-vues
- Application du Cross-Attention → permet de compléter aussi les zones non visibles
Conclusion et implications
- Bolt3D permet une génération rapide de scènes 3D grâce à l'apprentissage des informations géométriques et à une approche feed-forward
- Les performances et la vitesse sont toutes deux améliorées par rapport aux modèles existants
- Génération immédiate de scènes 3D de haute qualité possible dans divers domaines d'application :
- développement de jeux
- réalité virtuelle (VR) et réalité augmentée (AR)
- visualisation en architecture et design
- Avec une vitesse de traitement 300 fois supérieure, le potentiel de commercialisation et de passage à l'échelle est élevé
Résumé des principaux résultats
- Génération de scènes 3D possible en moins de 7 secondes
- Performances 300 fois plus rapides que les modèles existants
- Niveau élevé de détails et de cohérence en haute résolution
- Excellentes performances en vue unique et multi-vues
- Possibilité de complétion naturelle même dans des scènes complexes et incomplètes
Aucun commentaire pour le moment.