Bolt3D - Modèle de génération de scènes 3D ultra-rapide

Modèle de diffusion latent (latent diffusion model) pour la génération de scènes 3D ultra-rapide
Peut générer une scène 3D haute résolution en moins de 7 secondes à partir d'une ou plusieurs images d'entrée
Entraîné sur un vaste jeu de données cohérent multi-vues, avec une vitesse jusqu'à 300 fois supérieure à celle des modèles de génération 3D existants
Alors que les modèles existants nécessitent un processus d'optimisation, Bolt3D permet une génération de scène immédiate via une approche feed-forward

Limites et problèmes des modèles existants

Les modèles de génération 2D existants peuvent produire des images de haute qualité, mais la génération de scènes 3D reste difficile
Les modèles 3D existants présentent les problèmes suivants :
- difficulté à traiter des structures de données 3D complexes
- manque de données réelles de scènes 3D de haute qualité
- coût de calcul élevé et vitesse de traitement lente

Utilise une représentation 3D Gaussian :
- un 3D Gaussian est composé de couleur, position, opacité et matrice de covariance
- rendu du 3D Gaussian via une image alignée sur les pixels appelée Splatter Image
- permet aussi de compléter les zones non visibles

Estimation de la scène 3D à partir de l'image d'entrée via un modèle de diffusion latent (latent diffusion model)
Encodage des informations géométriques dans l'espace latent via Geometry VAE
Gaussian Head prédit et corrige les propriétés détaillées du 3D Gaussian (opacité, couleur, etc.)
Réalisation d'un rendu immédiat de la scène 3D haute résolution

Le modèle de diffusion latent adopte une architecture dérivée des modèles de génération d'images 2D
Geometry VAE encode des point maps 3D et des poses de caméra
Gaussian Head affine les propriétés détaillées de la scène 3D générée

Construction d'un vaste jeu de données multi-vues :
- inclut CO3D, MVImg, RealEstate10K, DL3DV-7K
- composé d'environ 300 000 scènes multi-vues au total
- utilisation de la méthode MASt3R pour obtenir des données géométriques précises
Processus d'entraînement :
1. Geometry VAE : entraînement de 256×256 → 512×512
2. Gaussian Head : correction de la génération de Splatter Image
3. Latent Diffusion Model : fine-tuning à partir du modèle CAT3D

Bolt3D surpasse les modèles Flash3D et DepthSplat existants
Face à Flash3D, Bolt3D enregistre une performance supérieure d'environ 3,6 points sur l'indicateur PSNR, avec aussi des améliorations sur SSIM et LPIPS
Face à DepthSplat, Bolt3D obtient de meilleurs résultats sur tous les indicateurs de performance
Le gain de performance est particulièrement important lorsqu'une seule image d'entrée est fournie

Comparé aux modèles basés sur l'optimisation comme CAT3D, Bolt3D offre des performances similaires ou supérieures tout en étant 300 fois plus rapide
Alors que CAT3D nécessite environ 5 minutes pour générer une scène, Bolt3D peut effectuer la même tâche en 6,25 secondes
En termes d'indicateurs de performance, CAT3D obtient un score PSNR légèrement supérieur à Bolt3D, mais Bolt3D domine largement sur la vitesse de traitement

Utilisation d'un VAE dédié aux informations géométriques → précision supérieure à celle d'un VAE d'image classique
Application d'un scaling non linéaire et d'un depth mapping → amélioration des performances du modèle

Intégration et correction d'informations multi-vues
Application du Cross-Attention → permet de compléter aussi les zones non visibles

Bolt3D permet une génération rapide de scènes 3D grâce à l'apprentissage des informations géométriques et à une approche feed-forward
Les performances et la vitesse sont toutes deux améliorées par rapport aux modèles existants
Génération immédiate de scènes 3D de haute qualité possible dans divers domaines d'application :
- développement de jeux
- réalité virtuelle (VR) et réalité augmentée (AR)
- visualisation en architecture et design
Avec une vitesse de traitement 300 fois supérieure, le potentiel de commercialisation et de passage à l'échelle est élevé

Génération de scènes 3D possible en moins de 7 secondes
Performances 300 fois plus rapides que les modèles existants
Niveau élevé de détails et de cohérence en haute résolution
Excellentes performances en vue unique et multi-vues
Possibilité de complétion naturelle même dans des scènes complexes et incomplètes