SANA-WM, un modèle de monde open source de 2,6 milliards de paramètres pour des vidéos 720p d’une minute
(nvlabs.github.io)- Le SANA-WM de NVIDIA prend en entrée une image et une trajectoire de caméra à 6 DoF, puis génère sur un seul GPU des vidéos contrôlables d’une minute en 720p
- Le Hybrid Linear Diffusion Transformer combine un Gated DeltaNet au niveau image et un softmax périodique pour préserver la cohérence sur de longs rollouts
- L’entraînement a nécessité 15 jours sur 64 H100, et une variante distillée débruite un clip 720p de 60 secondes en 34 secondes sur une RTX 5090 avec NVFP4
- En s’appuyant sur environ 213 000 vidéos publiques et une supervision de pose 6 DoF métrique, il permet un suivi précis des trajectoires de caméra
- Sur le benchmark des world models d’une minute, il obtient une meilleure précision de suivi d’action que les références open source existantes et atteint un débit 36 fois supérieur à qualité visuelle comparable
Modèle et ressources publiques
- SANA-WM est un world model open source de 2,6 milliards de paramètres, capable de générer des vidéos contrôlables d’une minute en 720p à partir d’une seule image et d’une trajectoire de caméra
- Les auteurs affiliés à NVIDIA sont Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han et Enze Xie
- Les ressources fournies sont : Paper, Code, Models soon
- Le titre de l’article est
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
Architecture clé et pipeline de génération
-
Architecture hybride pour les longs rollouts
- Le Hybrid Linear Diffusion Transformer combine un Gated DeltaNet au niveau image et un softmax périodique pour maintenir la cohérence du monde sur des rollouts à l’échelle de la minute
- Dans les comparaisons d’efficacité, la variante recurrent scale mieux en mémoire et en latence, tandis que l’approche tout-softmax provoque un OOM lors de la génération sur 60 secondes
-
Contrôle précis de la caméra
- SANA-WM reçoit en entrée une trajectoire de caméra 6 DoF et génère des vidéos suivant un chemin de caméra métrique
- Une branche de pose globale grossière et une branche géométrique d’alignement fin au pixel travaillent ensemble pour améliorer la fidélité du suivi de trajectoire
- Des poses de caméra 6 DoF précises à l’échelle du mètre sont extraites de vidéos publiques afin de produire des labels d’action cohérents dans l’espace et le temps, de haute qualité
-
Amélioration de qualité en deux étapes
- La sortie de l’étape 1 est raffinée par un refiner vidéo long format 17B, ce qui améliore la qualité et la cohérence sur l’ensemble de la séquence
- Le refiner améliore plus nettement les textures, le mouvement et la qualité des parties tardives de la séquence au-dessus du backbone de long rollout
Efficacité d’entraînement et d’inférence
- L’entraînement a pris 15 jours sur 64 H100, avec environ 213 000 clips vidéo publics et une supervision de pose métrique
- En inférence, la génération d’une vidéo 720p d’une minute est possible sur un seul H100
- Le modèle distillé utilise la quantification NVFP4 sur une seule RTX 5090 pour débruiter un clip 720p de 60 secondes en 34 secondes
- SANA-WM améliore l’efficacité tout en affichant une qualité visuelle comparable à celle de grandes références industrielles comme LingBot-World et HY-WorldPlay
- Sur le benchmark des world models d’une minute, il montre une précision de suivi d’action supérieure aux références open source existantes et atteint un débit 36 fois supérieur à qualité visuelle similaire
Caractéristiques visibles dans les démos
-
Démo world d’une minute
- Plusieurs exemples d’une minute conservent un point d’observation fixe à la première personne et génèrent le mouvement de l’environnement lui-même, sans déplacement de caméra ni action de l’observateur
- Video 68 : route enneigée dans les Alpes, falaises, entrée de grotte, stalactites de glace, pins courbés par le vent, randonneur en veste orange ; le modèle génère particules de neige, brume, balancement des branches et flux de poudreuse
- Video 72 : à un carrefour dégagé, il génère une forêt bleutée, une tour en ruine sous des nuages d’orage et un chemin en trois branches menant vers un village ensoleillé
- Video 81 : apparition d’une intersection en T dans un centre de recherche SF souterrain fermé, avec couloir gauche inondé, couloir droit rempli de vapeur et porte métallique circulaire ouverte sur l’obscurité
-
Démo world de 20 secondes
- Video 82 : intérieur d’une cabane abandonnée en montagne, carte dessinée à la main, clé rouillée, lanterne chaude, grotte dorée au-delà d’un chemin forestier enneigé ; fumée d’étincelles, flamme de lanterne et bourrasque dans l’entrebâillement bougent
- Video 85 : porte circulaire scellée dans des ruines de jungle, symboles verts, petit robot explorateur ; les lianes, insectes, papillons, flaques et symboles de la porte pulsent
- Video 92 : passage de pierre d’un temple antique sous-marin, colonnes de corail, fissures verdâtres, petit robot sous-marin sphérique ; poissons, bulles, particules, algues et
causticssont ajoutés
-
Même première image et prompts répétés
- Video 100, Video 101, Video 102 : à partir du même prompt de plaine salée, le modèle conserve la voiture de sport, la croûte de sel rugueuse et la lumière basse, tout en générant poussière saline, déplacement des nuages, mirage thermique et lignes de vent au sol
- Video 103, Video 104, Video 105 : eau peu profonde réfléchissante, pas japonais boueux, forêt violette, vaisseau spatial écrasé à moitié immergé, astronaute en combinaison et petite créature extraterrestre apparaissent comme variations d’un même prompt
- Video 119, Video 120, Video 121 : dans une scène de lever de soleil sur une plage tropicale, les vagues, feuilles de palmier, oiseaux et nuages sont générés depuis un point de vue fixe
Exemples de l’effet du refiner
-
Canyon de jungle
- Video 124 et Video 125 sont des exemples Stage 1 Refined, montrant l’intérieur d’un immense canyon de jungle en vue fixe à la première personne
- On y voit un ancien temple de pierre à peine visible derrière une cascade, un avion en papier plié, des oiseaux multicolores, des feuilles flottantes, des parois rocheuses humides, des lianes entremêlées et des gouttelettes d’eau
- La cascade, la brume, le battement d’ailes des oiseaux, les feuilles mortes, les gouttes scintillantes et l’avion en papier vibrant dans les courants d’air bougent de façon autonome
-
Porte antique gravée dans la falaise
- Video 126 et Video 127 montrent une porte antique dans la falaise située sur les hauteurs de la forêt
- Depuis un chemin moussu jusqu’à une porte entrouverte, un escalier de pierre se prolonge, avec colonnes sculptées, statues gardiennes, murs couverts de lierre, vallée montagneuse à gauche et voyageur en cape près de l’entrée
- La chaude lumière du soleil de fin d’après-midi se mêle à une lueur turquoise s’échappant de la porte, tandis que feuilles, oiseaux, lianes et lumière du portail bougent indépendamment
-
Temple antique submergé
- Video 130 et Video 131 présentent côte à côte les résultats Stage 1 et refined
- Une allée de pierre passe entre des colonnes couvertes de corail, et une vive lumière verte s’échappe de la fissure centrale d’un mur cérémoniel fendu, alignée avec des symboles lumineux au sol
- Un petit robot sous-marin sphérique flotte au premier plan, tandis que poissons, bulles, particules, algues,
causticset symboles verts bougent de manière autonome
Notes sur la production des démos
- Toutes les vidéos de la page ont été générées avec la variante bidirectionnelle de SANA-WM, puis traitées par le refiner vidéo long format en deuxième étape
- Les images du premier frame de toutes les vidéos de démonstration de la galerie ont été générées avec OpenAI GPT Image 2 et Google Nano Banana Pro, puis SANA-WM a animé ces images fixes en vidéos d’une minute
1 commentaires
Avis sur Hacker News
Vu sous l’angle du jeu vidéo, ce type de world model ne me parle pas vraiment
Je ne suis pas développeur de jeux moi-même, mais les jeux que j’aime ont une forte intentionnalité. Par exemple, dans les jeux FromSoftware ou plus récemment Lies of P, en général pas un seul objet n’est placé au hasard, et presque tous les éléments le sont délibérément
À l’inverse, les jeux dépourvus de cette intentionnalité paraissent morts, cassent l’immersion ou nous sortent de l’expérience que les développeurs veulent transmettre
J’ai du mal à imaginer qu’un world model puisse atteindre un niveau où il capte cette intentionnalité. Même les meilleurs LLM échouent souvent en écriture, et aussi en code, alors que la surface d’expérience de ces médias semble plus petite que l’éventail des interactions utilisateur dans un jeu vidéo
Il n’est pas non plus clair comment on pourrait utiliser ce type de world model de façon modulaire quand un humain veut créer une expérience intentionnelle. Les LLM sont modulables dans une certaine mesure, avec du texte généré, corrigé par un humain, puis repris par un autre LLM, mais je ne sais pas si c’est pareil ici avec la sortie vidéo
Au final, le world model en lui-même est impressionnant, mais comme pour les LLM appliqués à l’écriture, on ne sait pas très bien vers quoi on construit. Est-ce qu’on se donne juste les moyens de produire plus vite des expériences moins satisfaisantes et moins humaines, ou bien l’intérêt le plus immédiat est-il que des systèmes robotiques puissent modéliser le monde et simuler les conséquences de leurs actions ?
Globalement, j’ai l’impression qu’on fonce vers un monde où l’intentionnalité derrière tout ce qu’on vit diminue, et où tout devient plus impersonnel et plus bruyant
Une génération procédurale négligée peut produire peu de variété ou des résultats incohérents, tandis qu’un placement manuel négligé peut violer les règles établies par le jeu et créer une expérience inconsistante
Maintenir une cohérence interne via un placement explicite devient plus difficile à mesure que l’échelle augmente. Si cette cohérence interne est un facteur de qualité, alors à partir d’une certaine taille, le contenu généré peut au contraire devenir une meilleure solution
Ensuite, quand on crée du contenu avec l’IA, les mêmes règles sur la négligence s’appliquent. Il existe des outils d’IA générative qui offrent très peu d’options pour structurer ce qu’on veut, mais ce n’est pas une propriété essentielle de l’IA. C’est parfois parce que les gens veulent des interfaces simples, ou parce que les générateurs sont encore récents et qu’on se concentre d’abord sur le fait de leur faire faire quelque chose, au détriment d’un contrôle fin
D’une certaine manière, c’est encore trop nouveau pour qu’on sache bien quels types de contrôle seraient souhaitables, et il est raisonnable de commencer par construire le générateur et observer ce que les gens veulent en faire avant d’ajouter les bons mécanismes de contrôle. Il existe aussi des outils offrant un contrôle poussé du style des sorties, du placement des objets, des mouvements de caméra ou de la composition des scènes, mais bien moins de gens y ont accès
L’IA peut rendre possible des choses qui ne l’auraient pas été autrement, mais pour créer quelque chose de spécial, il faut toujours de la minutie
Les gens peu exigeants ne s’en plaindront pas, mais les autres devront passer de plus en plus de temps à chercher le 1 bon contenu parmi 100, dont 99 ne sont que du bruit
C’est assez comparable à Amazon. Classement cassé, prix unitaires manipulés, déferlement de copies bon marché : tout cela pousse l’utilisateur à abandonner et à acheter ce qui remonte en haut, autrement dit les recommandations ou les copies Amazon
Si on cherche des produits sur le web puis qu’on va dans l’onglet images, il n’est pas rare que 50 à 90 % des résultats soient des liens produits Amazon
Mais grâce à ce volume écrasant, on produira aussi davantage de contenus de haute qualité au total. Autrement dit, la qualité moyenne des jeux va baisser, mais le rythme auquel sortent de vrais jeux « excellents » va augmenter
Dans n’importe quelle tâche de la vie, la qualité du résultat reflète directement l’attention et l’intention investies derrière. En simplifiant, c’est le reflet du soin qu’on y a mis, et cela se voit toujours. C’est tout aussi vrai à l’ère de l’IA
Sauf que le chemin entre effort et résultat est désormais bien plus court, ce qui augmente le volume et dilue l’impression d’ensemble. Comme ces résultats bon marché rendent tout ce qu’ils touchent plus cheap, il faudra au contraire davantage d’efforts pour se démarquer
Il existe aussi beaucoup de bons jeux qui ne reposent pas sur un placement d’objets aussi précis. Par exemple, beaucoup de jeux Bethesda étaient excellents alors que la plupart des objets n’étaient que du décor sans utilité ; quand leurs titres récents ont commencé à donner une fonction à tout ce bric-à-brac, en brisant cette règle, ils sont devenus nettement moins bons
Il existe aussi beaucoup de bons jeux qui ne reposent pas du tout sur cette intentionnalité, et qui sont littéralement un assemblage aléatoire de bonnes idées ou des jeux générés procéduralement
Dire que les poids du modèle arrivent « bientôt », pour l’instant, ça veut dire vaporware. Comment peut-on appeler ça « open source » si les poids ne sont même pas publiés ?
Il est normal que tout le monde soit sceptique face à des résultats pareils avec un modèle 2.8B. Sans les poids, rien ne s’est passé
https://github.com/NVlabs/Sana
On parle de 2.6B, mais juste après il y a cette phrase :
« un refiner vidéo longue durée 17B dédié améliore la netteté des textures, des mouvements et de la qualité des segments tardifs sur une backbone de longs rollouts »
Tout ressemble à un jeu vidéo. Ils ont probablement utilisé Unreal Engine pour générer des données synthétiques d’entraînement
Le fait de faire tourner ça sur GPU est déjà assez impressionnant. Je vois des gens exprimer des plaintes et des inquiétudes, mais on n’en est qu’au début, et c’est probablement dans son pire état actuel ; je suis donc très curieux de l’impact que cela aura sur le jeu vidéo
C’est peut-être une question idiote, mais qu’est-ce qui est « world » ici dans ce qui est généré ? Y a-t-il une représentation abstraite de l’espace physique réel, comme un graphe de scène façon moteur de jeu, ou est-ce que ça veut juste dire « ce générateur vidéo est physiquement plus cohérent que les autres » ?
Cet état du monde peut être n’importe quoi, mais depuis un ou deux ans, le terme est employé dans un sens plus restreint. Il désigne des modèles de génération vidéo qui réagissent naturellement à des manipulations de type jeu, au point de donner l’impression de simuler un jeu vidéo. Cela dit, il n’y a pas d’état supplémentaire derrière les frames vidéo
Le modèle est entraîné à maintenir la cohérence de la scène pendant environ une minute : si un objet sort du champ puis qu’on regarde de nouveau dans cette direction, il réapparaît
Où est le téléchargement ? Je ne le trouve pas sur GitHub, et le bouton de téléchargement sur la page web est désactivé
Et est-ce que ça tournera sur une RTX 4090 avec 24 Go de mémoire ?
Avertissement : en regardant les vidéos en lecture automatique sur cette page, le débit de téléchargement est monté jusqu’à 350 Mbps
J’espère que personne n’a laissé cette page ouverte sur un réseau limité ou facturé au volume
Je suis surpris que GitHub n’ait pas suspendu cette page
Les chercheurs en IA sont-ils tellement habitués à brûler des ressources de calcul et du réseau qu’ils ne s’arrêtent plus pour réfléchir à une page web qui lance automatiquement et en boucle plusieurs vidéos HD ?
Qu’un modèle 2.6B puisse produire une vidéo d’une minute avec ce niveau de qualité et de cohérence, ça paraît incroyablement impressionnant
Dans la première vidéo enneigée où un homme marche dans la montagne, il y a un problème de cohérence à l’entrée de la grotte. Est-ce « attendu » pour une taille de modèle pareille ?
Si les exemples sont représentatifs, l’effet du « Refiner » semble même aller dans le mauvais sens. Dans tous les cas, l’image de l’étape 1 paraît meilleure que l’image « raffinée ». Il y a moins de bazar, c’est plus réaliste, et pour ceux qui connaissent l’expression, il y a moins de « cowbell »