Voyager – un modèle de génération vidéo interactif prenant en charge la reconstruction 3D en temps réel

(github.com/Tencent-Hunyuan)

1 points par GN⁺ 2025-09-05 | 1 commentaires | Partager sur WhatsApp

Voyager est un nouveau framework de diffusion vidéo qui génère des séquences cohérentes de nuages de points 3D à partir d’une image d’entrée et d’un trajet de caméra défini par l’utilisateur
Il génère simultanément les informations RGB et de profondeur, permettant une reconstruction 3D efficace et directe
Il introduit un pipeline de génération de jeux de données vidéo à grande échelle, afin d’obtenir des données d’entraînement variées sans annotation 3D manuelle
Sur le benchmark WorldScore, il affiche des performances supérieures à plusieurs modèles existants sur divers critères, dont la cohérence 3D et l’alignement du contenu
Il prend en charge une inférence parallèle optimisée sur un seul ou plusieurs GPU et démontre, via une démo en temps réel, un large éventail d’applications possibles

Présentation du projet

HunyuanWorld-Voyager génère des séquences vidéo de nuages de points cohérentes à l’échelle du monde (3D-Consistent) à partir d’une image d’entrée et d’un trajet de déplacement de caméra défini par l’utilisateur
Les utilisateurs peuvent définir librement le trajet de la caméra pour créer des vidéos de scènes 3D destinées à l’exploration du monde
Il génère de manière coordonnée des vidéos RGB et de profondeur (Depth), permettant une reconstruction 3D rapide et fiable

Architecture

Voyager est conçu autour de deux composants clés
- (1) Architecture de diffusion vidéo cohérente à l’échelle du monde : elle garantit une cohérence globale de la scène et génère simultanément des sorties RGB et profondeur alignées
- (2) Exploration longue portée du monde : elle permet une extension de scène cohérente en contexte grâce au point culling, à l’inférence auto-régressive et à un échantillonnage vidéo fluide

Moteur de données

Pour l’entraînement de Voyager, un moteur de données extensible basé sur un pipeline de reconstruction vidéo a été conçu séparément
- Pour des vidéos générales arbitraires, il automatise l’estimation de la pose de caméra et la prédiction de profondeur métrique, ce qui permet de générer à grande échelle des jeux de données d’entraînement sans travail manuel
- Il fournit un jeu de données composé de plus de 100 000 clips vidéo, incluant des prises de vue réelles ainsi que des données synthétiques basées sur Unreal Engine

Fonctionnalités principales et démos

Mise à disposition d’une démo de génération vidéo interactive pilotée par le contrôle du trajet de caméra
Reconstruction immédiate possible du nuage de points 3D associé à la vidéo générée
Démonstration de divers cas d’usage, dont la génération de scènes 3D et l’estimation de profondeur vidéo à partir d’une seule image

Comparaison des performances

Évaluation sur le benchmark WorldScore
- Voyager se classe parmi les meilleurs dans plusieurs catégories (contrôle de caméra, contrôle d’objet, alignement du contenu, cohérence 3D, etc.)
- Il obtient en particulier les meilleurs scores en qualité subjective (Subjective Quality) et en cohérence 3D

Configuration requise

Pour générer une vidéo en 540p sur un unique GPU de 80 Go, au moins 60 Go de mémoire sont nécessaires
Il offre des performances optimales sous Linux et avec CUDA 12.4 (80 Go ou plus recommandés)

Performances en inférence parallèle

Prise en charge de l’inférence parallèle multi-GPU basée sur xDiT
- Avec 8 GPU H20, il génère un résultat en 288 secondes pour 49 images sur 50 étapes (512x768), soit une accélération de 6,69× par rapport à un GPU unique

Interface utilisateur et démo

Démo en temps réel basée sur Gradio
- Elle permet de générer facilement une vidéo RGB-D en téléversant une image, en choisissant une direction de caméra et en saisissant un prompt textuel

Publication du moteur de données

Le moteur de génération de données extensible à grande échelle pour l’entraînement de vidéos RGB-D est également proposé en open source

Citation et références

Article sur arXiv : “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
HunyuanWorld-Voyager a été conçu et implémenté à partir de résultats de recherche fondés sur divers projets open source (VGGT, MoGE, Metric3D, etc.)

Principales valeurs du projet et éléments différenciants

Par rapport à la majorité des projets existants d’image-vers-vidéo, la force de Voyager est de pouvoir produire, à partir d’une seule image, des vidéos 3D cohérentes à l’échelle du monde (basées sur des nuages de points) selon des trajectoires variées
En générant à la fois les informations RGB et de profondeur, et en fournissant en parallèle un moteur de données automatisé à grande échelle, il présente un fort potentiel d’usage dans de nombreux secteurs, comme la création de contenus 3D, la production d’environnements virtuels, les jumeaux numériques ou encore les applications AIGC

1 commentaires

GN⁺ 2025-09-05

Commentaires Hacker News

Cette licence comporte des conditions assez intéressantes

Utilisable partout dans le monde, sauf dans l’UE, au Royaume-Uni et en Corée du Sud
Je m’attendais plutôt à voir les États-Unis/le Canada exclus, donc cette combinaison est surprenante
Et aussi,
« publier au moins une fois un billet de blog de présentation technique ou un retour d’expérience, et afficher “Powered by Tencent Hunyuan” sur les nouveaux services »
figure comme recommandation dans la licence
Je me demande ce que cela implique quand ce genre de recommandation est inclus dans une licence
- Je pense que c’est à cause de l’AI Act de l’UE
  J’ai essayé directement l’appli de vérification de conformité, et même en cochant petite entreprise/open source/recherche/pas de client, il restait encore l’enregistrement, les déclarations et diverses procédures embrouillées
  Le brouillon était confus, cela semblait s’être amélioré, mais c’est toujours flou et bureaucratique
- Des régions comme l’UE essaient d’être proactives dans la régulation de l’IA
  Le but des bibliothèques open source est d’éviter la responsabilité juridique
  Mais comme la question de la responsabilité est complexe dans ces zones, ils ont sans doute décidé d’interdire tout simplement l’usage
- La licence recommande « un blog ou un retour d’usage, et l’affichage de “Powered by Tencent Hunyuan” »
  Ça ressemble à une nouvelle forme de promotion, un peu comme les youtubeurs qui disent « abonnez-vous et mettez un like »
- Je vois ce genre de restriction comme de la compliance malveillante en pratique
  En réalité, l’AI Act demande surtout un résumé des données d’entraînement, de la conformité au droit d’auteur et de la manière de gérer les risques
  Ce n’est ni extraordinairement complexe ni de la science des fusées
- Je me demande quand même s’il est réellement possible de télécharger et d’utiliser cela depuis l’UE
  Je ne fais pas attention aux licences, mais j’imagine qu’il faut peut-être créer un compte pour récupérer quoi que ce soit
Techniquement, il est clairement indiqué qu’on ne peut fournir qu’une seule photo en entrée, mais je me demande si le fait d’en fournir plusieurs, pour faire quelque chose comme de la photogrammétrie, n’élargirait pas les possibilités d’expression
- Je me posais exactement la même question
  Dans mon cas, cela aurait une utilité complètement différente
  Pour certaines zones, on n’a pas pu obtenir de données bathymétriques avec le bateau lidar, et il manque des données dans les zones intéressantes
  En revanche, on a des vidéos aériennes ici (sur des portions où l’eau est transparente)
  Avec suffisamment de points de vue, on pourrait éliminer le bruit comme les reflets à la surface, améliorer l’image du fond, puis tenter une reconstruction par photogrammétrie
  Le point important, c’est qu’il faut des données prises sous des angles variés pour une reconstruction précise
  La visibilité sous l’eau change selon la lumière et l’angle de la caméra, donc jusqu’ici il fallait répéter les vols à différentes heures de la journée
  J’aimerais bien essayer de voir si ce modèle peut produire quelque chose de similaire à partir d’une seule image
- Il existe déjà des modèles de photogrammétrie qui font ce genre de travail à partir de plusieurs images
  Étendre la fonctionnalité pour accepter quelques photos au lieu d’une seule est certainement quelque chose que quelqu’un peut tenter
  Mais vu la tournure de la question, cela donne un peu l’impression que c’est un détail « oublié par erreur »
Il est intéressant de voir que, dans le tableau comparatif des performances, la « meilleure note » est mise en évidence en rouge
- C’est exactement le même code que sur les graphiques de la bourse chinoise
  En Chine, le rouge signifie la hausse et le vert la baisse
- Comme cela a été dit, en Asie de l’Est le rouge a une connotation positive
  Mais ce qui me surprend encore plus, c’est que la troisième couleur soit le jaune
  Normalement, cela ne suit pas l’ordre du spectre visible
  (rouge ~700 nm, vert ~550 nm, jaune ~580 nm)
  Je trouve intéressant cet ordre de couleurs qui va à l’encontre de l’intuition commune
- La signification des couleurs est un produit culturel
  En Chine, le rouge n’a pas le même sens qu’en Occident
  Dans un contexte chinois, un tel choix n’a rien d’inhabituel
- Même dans la communication occidentale (cinéma, mode), on voit souvent ces couleurs symboliques
  Le rouge revient fréquemment comme couleur évoquant la Chine
- C’est un phénomène lié aux différences culturelles, et je trouve ça très intéressant
  Cela dit, comme ça n’a aucun impact sur mon quotidien, cela reste surtout une observation sociale intéressante
En 1995, j’ai suivi un cours de traitement d’image donné par un professeur indien
À l’époque, j’avais demandé comment on pouvait améliorer l’apparence d’images basse résolution, et on m’avait répondu : « on ne peut pas créer de l’information »
Et pourtant, 30 ans plus tard, on vit dans un monde où l’on peut fabriquer une vidéo à partir d’une seule photo
- En réalité, on peut extraire bien plus d’informations d’une image qu’on ne le pense
  Et dans une vidéo, c’est encore plus vrai
  On appelle cette technique la « super-résolution »
  On ne peut pas créer de l’information à partir de rien, mais on peut combler naturellement les manques en s’appuyant sur la connaissance des caractéristiques du sujet
- Le progrès technique est considérable, mais en réalité le sens de « information » et de « créer » n’est pas le même ici
  Par exemple, si un enfant ajoute au crayon un corps en bâtons à une photo de portrait, on pourrait aussi appeler cela « ajout d’information »
  Mais ce n’est pas l’information de l’événement réel qui a effectivement existé
  Et selon le contexte de responsabilité, un chercheur ne peut pas inventer des données, pas plus qu’un journaliste ne peut inventer des citations
Est-ce que ce modèle peut vraiment faire une rotation complète à 360° ?
Dans les vidéos publiées, on dirait qu’il se déplace légèrement, ou au mieux qu’il fait juste un petit panoramique
- En théorie, oui
  À chaque image, le modèle produit une carte de profondeur, et chaque pixel devient un point 3D
  En supposant que toute la scène 3D soit statique, on peut agréger toutes les images sous forme de nuages de points 3D
  Ensuite, on peut faire tourner librement le point de vue avec un moteur de rendu 3D classique
  Mais si, lors de la génération vidéo réelle, la cohérence entre les images est insuffisante (par exemple des variations de couleur), le nuage de points n’est lui aussi qu’un ensemble de données « erronées de manière cohérente »
  Au final, quand on fait tourner la vue, les teintes se mélangent mal et cela paraît flou
  Et il devient difficile d’insérer correctement des objets virtuels dans la scène générée
  Parce qu’il manque les informations d’éclairage, et que le mélange des couleurs ne s’accorde pas bien avec l’environnement
  L’idée est séduisante, mais il reste beaucoup de problèmes à résoudre
J’ai vraiment hâte de pouvoir essayer ce genre de fonctionnalité en VR
- Je recommande d’essayer le mode « Immersive Photo » de visionOS 26
  Les photos de votre bibliothèque iCloud sont automatiquement converties par un modèle local (probablement sous forme de scène 3D en Gaussian Splat)
  On peut faire des panoramiques et tourner autour, et ça donne vraiment de la valeur au Vision Pro
  Même avec d’anciennes photos prises avec un Nikon D70, les paysages et les personnes semblent réels
- Il ne faut pas être trop pressé
  On est encore loin d’une vraie haute résolution en 120 fps, d’une stéréo stable et d’une latence ultra-faible
- Je pense que, dans l’état actuel, l’appliquer tel quel risquerait de provoquer énormément de nausées
  Le champ de vision de ces vidéos est beaucoup trop chaotique
Je me demande quel est actuellement le meilleur modèle, ou la meilleure combinaison de modèles, pour la conversion text-to-3D-asset (texte → asset 3D)
De préférence sur une base open source
- J’ajoute tout de suite : je me demande aussi s’il existe quelque chose pour le text-to-sprite-sheet (texte → sprite sheet),
  ou même texte + image unique → sprite sheet
En réalité, ce n’est pas de l’open source, mais du « weights-available »
Il n’y a pas non plus les données d’entraînement, et si open source signifie « la forme la plus adaptée à la modification », alors il faudrait aussi les données
Extrait de la licence :

« Une licence préalable est requise si le MAU du mois précédent dépasse 1 million,
et l’utilisation pour améliorer d’autres modèles d’IA est interdite »
La politique d’usage acceptable est elle aussi assez restrictive dans le détail Voir la licence complète
- Pour les restrictions UE/Royaume-Uni/Corée du Sud, j’imagine que c’est probablement parce que ces régions pourraient contester l’entraînement non autorisé sur les données ou réclamer une compensation financière
- Je suis d’accord avec l’idée que « ce n’est pas de l’open source »
  Mais je ne suis pas d’accord avec le fait que « la forme la plus adaptée à la modification » doive forcément être les données d’entraînement ; en pratique, ce sont plutôt les weights
  Les données sont un moyen de modifier les weights
- Je voudrais souligner que le fine-tuning coûte bien moins cher
- À part AI2, je pense qu’en réalité la plupart des modèles d’IA ne sont pas vraiment open source au sens strict (avec journaux d’entraînement et données publiés)
  Aujourd’hui, open source est pratiquement utilisé comme synonyme de « weights-available »
- « 7. Ne pas créer ni diffuser délibérément de fausses informations dans le but de nuire à autrui ou de manipuler une élection »
  « 8. Ne pas créer de fausse activité en ligne, comme de faux avis »
  → N’est-ce pas ironique d’interdire aux autres ce qu’ils font eux-mêmes ?
  « 15. Ne pas l’utiliser d’une manière contraire à l’éthique ou à la morale sociale d’un autre pays ou d’une autre région »
  etc. : ce sont des clauses qui, en pratique, rendent l’usage difficile partout
  Cette politique est excessive
Ce qui m’intéresse, c’est de prendre des photos Panoramax (alternative open à Street View) en entrée pour reconstruire une scène navigable en 3D
J’ai envie de demander : on ne pourrait pas faire tourner la caméra sur 1080° ?!!
Ces vidéos sont <i>beaucoup trop</i> courtes et ne tournent même pas correctement sur 45°
Genie3 ne tourne qu’à 90° lui aussi
Il faut vraiment prêter attention à ce que le modèle ne sait pas faire, et ici c’est bien « ne pas savoir tourner correctement »
S’il ne passe pas le test simple consistant à tourner sur place, je n’ai plus envie d’appeler ça un « world model »
Grrr, ça m’agace

Voyager – un modèle de génération vidéo interactif prenant en charge la reconstruction 3D en temps réel

Présentation du projet

Architecture

Moteur de données

Fonctionnalités principales et démos

Comparaison des performances

Configuration requise

Performances en inférence parallèle

Interface utilisateur et démo

Publication du moteur de données

Citation et références

Principales valeurs du projet et éléments différenciants

À lire aussi

1 commentaires

Commentaires Hacker News