Voyager – un modèle de génération vidéo interactif prenant en charge la reconstruction 3D en temps réel
(github.com/Tencent-Hunyuan)- Voyager est un nouveau framework de diffusion vidéo qui génère des séquences cohérentes de nuages de points 3D à partir d’une image d’entrée et d’un trajet de caméra défini par l’utilisateur
- Il génère simultanément les informations RGB et de profondeur, permettant une reconstruction 3D efficace et directe
- Il introduit un pipeline de génération de jeux de données vidéo à grande échelle, afin d’obtenir des données d’entraînement variées sans annotation 3D manuelle
- Sur le benchmark WorldScore, il affiche des performances supérieures à plusieurs modèles existants sur divers critères, dont la cohérence 3D et l’alignement du contenu
- Il prend en charge une inférence parallèle optimisée sur un seul ou plusieurs GPU et démontre, via une démo en temps réel, un large éventail d’applications possibles
Présentation du projet
- HunyuanWorld-Voyager génère des séquences vidéo de nuages de points cohérentes à l’échelle du monde (3D-Consistent) à partir d’une image d’entrée et d’un trajet de déplacement de caméra défini par l’utilisateur
- Les utilisateurs peuvent définir librement le trajet de la caméra pour créer des vidéos de scènes 3D destinées à l’exploration du monde
- Il génère de manière coordonnée des vidéos RGB et de profondeur (Depth), permettant une reconstruction 3D rapide et fiable
Architecture
- Voyager est conçu autour de deux composants clés
- (1) Architecture de diffusion vidéo cohérente à l’échelle du monde : elle garantit une cohérence globale de la scène et génère simultanément des sorties RGB et profondeur alignées
- (2) Exploration longue portée du monde : elle permet une extension de scène cohérente en contexte grâce au point culling, à l’inférence auto-régressive et à un échantillonnage vidéo fluide
Moteur de données
- Pour l’entraînement de Voyager, un moteur de données extensible basé sur un pipeline de reconstruction vidéo a été conçu séparément
- Pour des vidéos générales arbitraires, il automatise l’estimation de la pose de caméra et la prédiction de profondeur métrique, ce qui permet de générer à grande échelle des jeux de données d’entraînement sans travail manuel
- Il fournit un jeu de données composé de plus de 100 000 clips vidéo, incluant des prises de vue réelles ainsi que des données synthétiques basées sur Unreal Engine
Fonctionnalités principales et démos
- Mise à disposition d’une démo de génération vidéo interactive pilotée par le contrôle du trajet de caméra
- Reconstruction immédiate possible du nuage de points 3D associé à la vidéo générée
- Démonstration de divers cas d’usage, dont la génération de scènes 3D et l’estimation de profondeur vidéo à partir d’une seule image
Comparaison des performances
- Évaluation sur le benchmark WorldScore
- Voyager se classe parmi les meilleurs dans plusieurs catégories (contrôle de caméra, contrôle d’objet, alignement du contenu, cohérence 3D, etc.)
- Il obtient en particulier les meilleurs scores en qualité subjective (Subjective Quality) et en cohérence 3D
Configuration requise
- Pour générer une vidéo en 540p sur un unique GPU de 80 Go, au moins 60 Go de mémoire sont nécessaires
- Il offre des performances optimales sous Linux et avec CUDA 12.4 (80 Go ou plus recommandés)
Performances en inférence parallèle
- Prise en charge de l’inférence parallèle multi-GPU basée sur xDiT
- Avec 8 GPU H20, il génère un résultat en 288 secondes pour 49 images sur 50 étapes (512x768), soit une accélération de 6,69× par rapport à un GPU unique
Interface utilisateur et démo
- Démo en temps réel basée sur Gradio
- Elle permet de générer facilement une vidéo RGB-D en téléversant une image, en choisissant une direction de caméra et en saisissant un prompt textuel
Publication du moteur de données
- Le moteur de génération de données extensible à grande échelle pour l’entraînement de vidéos RGB-D est également proposé en open source
Citation et références
- Article sur arXiv : “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- HunyuanWorld-Voyager a été conçu et implémenté à partir de résultats de recherche fondés sur divers projets open source (VGGT, MoGE, Metric3D, etc.)
Principales valeurs du projet et éléments différenciants
- Par rapport à la majorité des projets existants d’image-vers-vidéo, la force de Voyager est de pouvoir produire, à partir d’une seule image, des vidéos 3D cohérentes à l’échelle du monde (basées sur des nuages de points) selon des trajectoires variées
- En générant à la fois les informations RGB et de profondeur, et en fournissant en parallèle un moteur de données automatisé à grande échelle, il présente un fort potentiel d’usage dans de nombreux secteurs, comme la création de contenus 3D, la production d’environnements virtuels, les jumeaux numériques ou encore les applications AIGC
1 commentaires
Commentaires Hacker News
Cette licence comporte des conditions assez intéressantes
Je pense que c’est à cause de l’AI Act de l’UE
J’ai essayé directement l’appli de vérification de conformité, et même en cochant petite entreprise/open source/recherche/pas de client, il restait encore l’enregistrement, les déclarations et diverses procédures embrouillées
Le brouillon était confus, cela semblait s’être amélioré, mais c’est toujours flou et bureaucratique
Des régions comme l’UE essaient d’être proactives dans la régulation de l’IA
Le but des bibliothèques open source est d’éviter la responsabilité juridique
Mais comme la question de la responsabilité est complexe dans ces zones, ils ont sans doute décidé d’interdire tout simplement l’usage
La licence recommande « un blog ou un retour d’usage, et l’affichage de “Powered by Tencent Hunyuan” »
Ça ressemble à une nouvelle forme de promotion, un peu comme les youtubeurs qui disent « abonnez-vous et mettez un like »
Je vois ce genre de restriction comme de la compliance malveillante en pratique
En réalité, l’AI Act demande surtout un résumé des données d’entraînement, de la conformité au droit d’auteur et de la manière de gérer les risques
Ce n’est ni extraordinairement complexe ni de la science des fusées
Je me demande quand même s’il est réellement possible de télécharger et d’utiliser cela depuis l’UE
Je ne fais pas attention aux licences, mais j’imagine qu’il faut peut-être créer un compte pour récupérer quoi que ce soit
Techniquement, il est clairement indiqué qu’on ne peut fournir qu’une seule photo en entrée, mais je me demande si le fait d’en fournir plusieurs, pour faire quelque chose comme de la photogrammétrie, n’élargirait pas les possibilités d’expression
Je me posais exactement la même question
Dans mon cas, cela aurait une utilité complètement différente
Pour certaines zones, on n’a pas pu obtenir de données bathymétriques avec le bateau lidar, et il manque des données dans les zones intéressantes
En revanche, on a des vidéos aériennes ici (sur des portions où l’eau est transparente)
Avec suffisamment de points de vue, on pourrait éliminer le bruit comme les reflets à la surface, améliorer l’image du fond, puis tenter une reconstruction par photogrammétrie
Le point important, c’est qu’il faut des données prises sous des angles variés pour une reconstruction précise
La visibilité sous l’eau change selon la lumière et l’angle de la caméra, donc jusqu’ici il fallait répéter les vols à différentes heures de la journée
J’aimerais bien essayer de voir si ce modèle peut produire quelque chose de similaire à partir d’une seule image
Il existe déjà des modèles de photogrammétrie qui font ce genre de travail à partir de plusieurs images
Étendre la fonctionnalité pour accepter quelques photos au lieu d’une seule est certainement quelque chose que quelqu’un peut tenter
Mais vu la tournure de la question, cela donne un peu l’impression que c’est un détail « oublié par erreur »
Il est intéressant de voir que, dans le tableau comparatif des performances, la « meilleure note » est mise en évidence en rouge
C’est exactement le même code que sur les graphiques de la bourse chinoise
En Chine, le rouge signifie la hausse et le vert la baisse
Comme cela a été dit, en Asie de l’Est le rouge a une connotation positive
Mais ce qui me surprend encore plus, c’est que la troisième couleur soit le jaune
Normalement, cela ne suit pas l’ordre du spectre visible
(rouge ~700 nm, vert ~550 nm, jaune ~580 nm)
Je trouve intéressant cet ordre de couleurs qui va à l’encontre de l’intuition commune
La signification des couleurs est un produit culturel
En Chine, le rouge n’a pas le même sens qu’en Occident
Dans un contexte chinois, un tel choix n’a rien d’inhabituel
Même dans la communication occidentale (cinéma, mode), on voit souvent ces couleurs symboliques
Le rouge revient fréquemment comme couleur évoquant la Chine
C’est un phénomène lié aux différences culturelles, et je trouve ça très intéressant
Cela dit, comme ça n’a aucun impact sur mon quotidien, cela reste surtout une observation sociale intéressante
En 1995, j’ai suivi un cours de traitement d’image donné par un professeur indien
À l’époque, j’avais demandé comment on pouvait améliorer l’apparence d’images basse résolution, et on m’avait répondu : « on ne peut pas créer de l’information »
Et pourtant, 30 ans plus tard, on vit dans un monde où l’on peut fabriquer une vidéo à partir d’une seule photo
En réalité, on peut extraire bien plus d’informations d’une image qu’on ne le pense
Et dans une vidéo, c’est encore plus vrai
On appelle cette technique la « super-résolution »
On ne peut pas créer de l’information à partir de rien, mais on peut combler naturellement les manques en s’appuyant sur la connaissance des caractéristiques du sujet
Le progrès technique est considérable, mais en réalité le sens de « information » et de « créer » n’est pas le même ici
Par exemple, si un enfant ajoute au crayon un corps en bâtons à une photo de portrait, on pourrait aussi appeler cela « ajout d’information »
Mais ce n’est pas l’information de l’événement réel qui a effectivement existé
Et selon le contexte de responsabilité, un chercheur ne peut pas inventer des données, pas plus qu’un journaliste ne peut inventer des citations
Est-ce que ce modèle peut vraiment faire une rotation complète à 360° ?
Dans les vidéos publiées, on dirait qu’il se déplace légèrement, ou au mieux qu’il fait juste un petit panoramique
À chaque image, le modèle produit une carte de profondeur, et chaque pixel devient un point 3D
En supposant que toute la scène 3D soit statique, on peut agréger toutes les images sous forme de nuages de points 3D
Ensuite, on peut faire tourner librement le point de vue avec un moteur de rendu 3D classique
Mais si, lors de la génération vidéo réelle, la cohérence entre les images est insuffisante (par exemple des variations de couleur), le nuage de points n’est lui aussi qu’un ensemble de données « erronées de manière cohérente »
Au final, quand on fait tourner la vue, les teintes se mélangent mal et cela paraît flou
Et il devient difficile d’insérer correctement des objets virtuels dans la scène générée
Parce qu’il manque les informations d’éclairage, et que le mélange des couleurs ne s’accorde pas bien avec l’environnement
L’idée est séduisante, mais il reste beaucoup de problèmes à résoudre
J’ai vraiment hâte de pouvoir essayer ce genre de fonctionnalité en VR
Je recommande d’essayer le mode « Immersive Photo » de visionOS 26
Les photos de votre bibliothèque iCloud sont automatiquement converties par un modèle local (probablement sous forme de scène 3D en Gaussian Splat)
On peut faire des panoramiques et tourner autour, et ça donne vraiment de la valeur au Vision Pro
Même avec d’anciennes photos prises avec un Nikon D70, les paysages et les personnes semblent réels
Il ne faut pas être trop pressé
On est encore loin d’une vraie haute résolution en 120 fps, d’une stéréo stable et d’une latence ultra-faible
Je pense que, dans l’état actuel, l’appliquer tel quel risquerait de provoquer énormément de nausées
Le champ de vision de ces vidéos est beaucoup trop chaotique
Je me demande quel est actuellement le meilleur modèle, ou la meilleure combinaison de modèles, pour la conversion text-to-3D-asset (texte → asset 3D)
De préférence sur une base open source
ou même texte + image unique → sprite sheet
En réalité, ce n’est pas de l’open source, mais du « weights-available »
Il n’y a pas non plus les données d’entraînement, et si open source signifie « la forme la plus adaptée à la modification », alors il faudrait aussi les données
Extrait de la licence :
Pour les restrictions UE/Royaume-Uni/Corée du Sud, j’imagine que c’est probablement parce que ces régions pourraient contester l’entraînement non autorisé sur les données ou réclamer une compensation financière
Je suis d’accord avec l’idée que « ce n’est pas de l’open source »
Mais je ne suis pas d’accord avec le fait que « la forme la plus adaptée à la modification » doive forcément être les données d’entraînement ; en pratique, ce sont plutôt les weights
Les données sont un moyen de modifier les weights
Je voudrais souligner que le fine-tuning coûte bien moins cher
À part AI2, je pense qu’en réalité la plupart des modèles d’IA ne sont pas vraiment open source au sens strict (avec journaux d’entraînement et données publiés)
Aujourd’hui, open source est pratiquement utilisé comme synonyme de « weights-available »
« 7. Ne pas créer ni diffuser délibérément de fausses informations dans le but de nuire à autrui ou de manipuler une élection »
« 8. Ne pas créer de fausse activité en ligne, comme de faux avis »
→ N’est-ce pas ironique d’interdire aux autres ce qu’ils font eux-mêmes ?
« 15. Ne pas l’utiliser d’une manière contraire à l’éthique ou à la morale sociale d’un autre pays ou d’une autre région »
etc. : ce sont des clauses qui, en pratique, rendent l’usage difficile partout
Cette politique est excessive
Ce qui m’intéresse, c’est de prendre des photos Panoramax (alternative open à Street View) en entrée pour reconstruire une scène navigable en 3D
J’ai envie de demander : on ne pourrait pas faire tourner la caméra sur 1080° ?!!
Ces vidéos sont <i>beaucoup trop</i> courtes et ne tournent même pas correctement sur 45°
Genie3 ne tourne qu’à 90° lui aussi
Il faut vraiment prêter attention à ce que le modèle ne sait pas faire, et ici c’est bien « ne pas savoir tourner correctement »
S’il ne passe pas le test simple consistant à tourner sur place, je n’ai plus envie d’appeler ça un « world model »
Grrr, ça m’agace