- Voyager est un nouveau framework de diffusion vidéo qui génère des séquences cohérentes de nuages de points 3D à partir d’une image d’entrée et d’un trajet de caméra défini par l’utilisateur
- Il génère simultanément les informations RGB et de profondeur, permettant une reconstruction 3D efficace et directe
- Il introduit un pipeline de génération de jeux de données vidéo à grande échelle, afin d’obtenir des données d’entraînement variées sans annotation 3D manuelle
- Sur le benchmark WorldScore, il affiche des performances supérieures à plusieurs modèles existants sur divers critères, dont la cohérence 3D et l’alignement du contenu
- Il prend en charge une inférence parallèle optimisée sur un seul ou plusieurs GPU et démontre, via une démo en temps réel, un large éventail d’applications possibles
Présentation du projet
- HunyuanWorld-Voyager génère des séquences vidéo de nuages de points cohérentes à l’échelle du monde (3D-Consistent) à partir d’une image d’entrée et d’un trajet de déplacement de caméra défini par l’utilisateur
- Les utilisateurs peuvent définir librement le trajet de la caméra pour créer des vidéos de scènes 3D destinées à l’exploration du monde
- Il génère de manière coordonnée des vidéos RGB et de profondeur (Depth), permettant une reconstruction 3D rapide et fiable
Architecture
- Voyager est conçu autour de deux composants clés
- (1) Architecture de diffusion vidéo cohérente à l’échelle du monde : elle garantit une cohérence globale de la scène et génère simultanément des sorties RGB et profondeur alignées
- (2) Exploration longue portée du monde : elle permet une extension de scène cohérente en contexte grâce au point culling, à l’inférence auto-régressive et à un échantillonnage vidéo fluide
Moteur de données
- Pour l’entraînement de Voyager, un moteur de données extensible basé sur un pipeline de reconstruction vidéo a été conçu séparément
- Pour des vidéos générales arbitraires, il automatise l’estimation de la pose de caméra et la prédiction de profondeur métrique, ce qui permet de générer à grande échelle des jeux de données d’entraînement sans travail manuel
- Il fournit un jeu de données composé de plus de 100 000 clips vidéo, incluant des prises de vue réelles ainsi que des données synthétiques basées sur Unreal Engine
Fonctionnalités principales et démos
- Mise à disposition d’une démo de génération vidéo interactive pilotée par le contrôle du trajet de caméra
- Reconstruction immédiate possible du nuage de points 3D associé à la vidéo générée
- Démonstration de divers cas d’usage, dont la génération de scènes 3D et l’estimation de profondeur vidéo à partir d’une seule image
Comparaison des performances
- Évaluation sur le benchmark WorldScore
- Voyager se classe parmi les meilleurs dans plusieurs catégories (contrôle de caméra, contrôle d’objet, alignement du contenu, cohérence 3D, etc.)
- Il obtient en particulier les meilleurs scores en qualité subjective (Subjective Quality) et en cohérence 3D
Configuration requise
- Pour générer une vidéo en 540p sur un unique GPU de 80 Go, au moins 60 Go de mémoire sont nécessaires
- Il offre des performances optimales sous Linux et avec CUDA 12.4 (80 Go ou plus recommandés)
Performances en inférence parallèle
- Prise en charge de l’inférence parallèle multi-GPU basée sur xDiT
- Avec 8 GPU H20, il génère un résultat en 288 secondes pour 49 images sur 50 étapes (512x768), soit une accélération de 6,69× par rapport à un GPU unique
Interface utilisateur et démo
- Démo en temps réel basée sur Gradio
- Elle permet de générer facilement une vidéo RGB-D en téléversant une image, en choisissant une direction de caméra et en saisissant un prompt textuel
Publication du moteur de données
- Le moteur de génération de données extensible à grande échelle pour l’entraînement de vidéos RGB-D est également proposé en open source
Citation et références
- Article sur arXiv : “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- HunyuanWorld-Voyager a été conçu et implémenté à partir de résultats de recherche fondés sur divers projets open source (VGGT, MoGE, Metric3D, etc.)
Principales valeurs du projet et éléments différenciants
- Par rapport à la majorité des projets existants d’image-vers-vidéo, la force de Voyager est de pouvoir produire, à partir d’une seule image, des vidéos 3D cohérentes à l’échelle du monde (basées sur des nuages de points) selon des trajectoires variées
- En générant à la fois les informations RGB et de profondeur, et en fournissant en parallèle un moteur de données automatisé à grande échelle, il présente un fort potentiel d’usage dans de nombreux secteurs, comme la création de contenus 3D, la production d’environnements virtuels, les jumeaux numériques ou encore les applications AIGC
Aucun commentaire pour le moment.