- NVIDIA Cosmos 3 est un modèle de base ouvert unifié pour l’IA physique, qui combine dans un seul modèle le raisonnement physique, la génération de mondes et la génération d’actions
- L’architecture Mixture-of-Transformers sépare une tour Reasoner et une tour Generator afin de relier la compréhension des entrées à la génération de sorties tenant compte de la physique, tout en réduisant la nécessité d’orchestrer plusieurs modèles et pipelines d’inférence
- Cosmos 3 Nano vise l’inférence de niveau station de travail avec 16B paramètres, tandis que Cosmos 3 Super vise les déploiements en datacenter et la génération de données synthétiques de haute qualité avec 64B paramètres
- NVIDIA publie des checkpoints de modèle, des scripts d’entraînement, des outils de déploiement, six jeux de données synthétiques et des microservices NIM afin de prendre en charge l’adaptation à des domaines comme la robotique, la conduite autonome et l’automatisation d’entrepôt
- Sur HUE et plusieurs benchmarks publics, Cosmos 3 est évalué sur le raisonnement en IA physique, la qualité de génération et les performances par domaine, tandis que Super et Nano prennent respectivement la tête des catégories 32B et 8B de VANTAGE-Bench
Les changements clés de Cosmos 3
- NVIDIA Cosmos 3 est un modèle de base de pointe conçu pour permettre à des systèmes d’IA physique comme les robots, les véhicules autonomes et les espaces intelligents de comprendre le monde, de prédire la situation suivante et de générer des actions adaptées à un environnement, une morphologie et une tâche donnés
- Les précédentes versions de Cosmos séparaient la génération de mondes, la compréhension de la physique et la génération contrôlée de scènes en différents modèles et workflows, mais Cosmos 3 les intègre dans un seul modèle
- Cette version fournit des checkpoints de modèle sur Hugging Face, du code sur GitHub, des jeux de données publics, des scripts de post-entraînement et des microservices Cosmos NIM pour le déploiement sur GPU NVIDIA
Une architecture à deux tours
- Cosmos 3 utilise une architecture Mixture-of-Transformers articulée autour de deux tours
- La tour Reasoner est un modèle vision-langage (VLM) qui interprète des observations multimodales telles que des images, des vidéos et du texte ; avec une structure autorégressive, elle interprète les entrées et comprend les mouvements, les interactions entre objets et le contexte physique
- La tour Generator produit, à partir de la compréhension de la tour Reasoner, des vidéos et des sorties d’action tenant compte de la physique via un processus de diffusion
- Le Reasoner peut être invoqué indépendamment, mais le Generator active toujours les deux tours pour une génération guidée
- Cette architecture traite les tâches de raisonnement et de génération dans un modèle unique, réduisant l’orchestration entre plusieurs modèles et pipelines d’inférence
Choix de la taille du modèle
- Cosmos 3 Nano est un modèle compact de 16B paramètres, optimisé pour une inférence efficace
- Nano est conçu pour exécuter du raisonnement robotique en temps réel et des applications d’IA physique sur une puissance de calcul de niveau station de travail, comme avec les GPU NVIDIA RTX PRO 6000
- Cosmos 3 Super est un modèle de 64B paramètres visant la qualité et les capacités maximales
- Super obtient les meilleurs scores sur les benchmarks et cible les déploiements en datacenter sur GPU NVIDIA Hopper et NVIDIA Blackwell
- Super convient à la génération synthétique de données à grande échelle et aux charges de travail avancées en raisonnement physique
Jeux de données publics
- NVIDIA publie, avec la sortie de Cosmos 3, six jeux de données SDG (synthetic data generation) sur Hugging Face
- Ces jeux de données peuvent être utilisés pour le post-entraînement de Cosmos 3 et d’autres modèles, et couvrent la robotique, la simulation physique, le raisonnement spatial, le mouvement humain, la conduite et les environnements d’entrepôt
- Jeux de données publics :
Cadre d’évaluation HUE
- NVIDIA Cosmos Human Evaluation (HUE) évalue la qualité du Generator de Cosmos 3 sur des tâches représentatives par domaine
- Les modèles récents de génération vidéo saturent les anciens leaderboards automatiques, au point que les écarts de score entre versions ne suffisent souvent plus à permettre des comparaisons significatives
- HUE remplace l’évaluation subjective par une vérification factuelle objective, ce qui permet des comparaisons fines entre modèles de tête
- HUE décompose une vidéo générée en questions factuelles uniques yes/no sur quatre dimensions
- alignement sémantique
- lois physiques
- raisonnement géométrique
- intégrité visuelle
- Les questions couvrent sept domaines d’IA physique, dont la robotique, les véhicules autonomes et la physique
- Les questions sont générées via un pipeline VLM puis affinées par des experts humains, avant d’être publiées en open source sur Hugging Face
Résultats des benchmarks
- Cosmos 3 est évalué sur plusieurs familles de benchmarks couvrant le raisonnement en IA physique, la qualité de génération et les performances par domaine
- Sur les benchmarks de raisonnement, Cosmos 3 Super et Cosmos 3 Nano prennent respectivement la tête des catégories 32B et 8B de VANTAGE-Bench
- VANTAGE-Bench est le premier benchmark public évaluant des modèles vision-langage sur de vraies vidéos de caméras fixes dans des contextes d’entrepôt, de trafic et d’espaces intelligents
- Traffic Anomaly Reasoning (TAR) est un nouveau leaderboard pour la détection et le raisonnement sur des événements anormaux dans des vidéos de circulation, et constitue le leaderboard officiel de l’AI City Challenge 2026 Track 3
- Sur les benchmarks de génération, Cosmos 3 est l’open source SOTA selon les leaderboards publics et arrive en tête sur PAI-Bench, R-Bench Physics-IQ et RoboLab
- D’après Artificial Analysis, Cosmos 3 est classé comme meilleur modèle open source sur les leaderboards Text to Image et Image to Video (no audio)
- R-Bench évalue des world models vidéo pour la génération de vidéos robotiques, avec des sous-métriques comme la cohérence structurelle, la plausibilité physique et la complétude de l’exécution
- PAI-Bench évalue la compréhension vidéo et la génération vidéo dans des domaines comme la robotique, les véhicules autonomes et le sens physique commun
- Physics-IQ teste si les modèles de génération vidéo atteignent seulement un réalisme visuel ou comprennent réellement les principes physiques
- RoboLab est un benchmark de simulation évaluant des politiques robotiques à généralisation de tâche
Recettes d’entraînement et adaptation au domaine
- La sortie de Cosmos 3 va au-delà des checkpoints de modèle et publie code, configurations et workflows pour permettre d’adapter le modèle à de nouveaux domaines, morphologies et jeux de données
- Le fine-tuning supervisé (SFT) aide les développeurs à ajuster les modèles Cosmos 3 à leurs propres données
- Les recettes publiées couvrent le post-entraînement de génération visuelle pour des jeux de données vidéo personnalisés ainsi que des recettes centrées sur l’action pour les workflows de robotique et d’IA physique
- Les développeurs peuvent personnaliser Cosmos 3 pour des domaines cibles comme la robotique, la conduite autonome et l’automatisation d’entrepôt
- Le code et les configurations de post-entraînement sont fournis sur GitHub
- Le post-entraînement sur les actions adapte Cosmos 3 à des applications d’IA physique orientées action, comme la forward dynamics, l’inverse dynamics et la policy generation
- En robotique, cela prend en charge des workflows qui génèrent de futures observations conditionnées par les actions du robot, infèrent les actions derrière une démonstration observée et prédisent des séquences d’actions à partir d’observations actuelles et d’un prompt de tâche
Déploiement via microservices NIM
- Les modèles Cosmos 3 sont aussi proposés sous forme de NVIDIA NIM microservices pour des déploiements de production optimisés
- Les microservices NIM empaquettent le modèle et un runtime d’inférence optimisé afin d’offrir de hautes performances sans avoir à ajuster soi-même l’infrastructure de serving
- Pour les workflows d’inférence, les microservices NIM sont plus simples à utiliser que le dépôt GitHub Cosmos 3, tandis que le dépôt GitHub est mieux adapté aux workflows de post-entraînement
- Cosmos 3 Reasoner NIM fournit actuellement les capacités de raisonnement des modèles Cosmos 3
- NIM prend en charge le choix de checkpoints quantifiés en BF16, FP8 et NVFP4
- La quantification NVFP4 réduit la précision numérique du modèle de BF16 vers un format flottant 4 bits afin d’atteindre jusqu’à 2x d’accélération de l’inférence
- La pile de serving Cosmos 3 Reasoner NIM repose sur vLLM, un moteur d’inférence open source pour servir efficacement des LLM grâce à des techniques comme continuous batching, paged attention et tensor parallelism
- Cosmos 3 Nano peut être exécuté avec vLLM-omni et NVIDIA Dynamo
- Efficient Video Sampling (EVS) accélère Cosmos Reason NIM en réduisant le nombre de tokens vidéo fournis au VLM pendant l’inférence
- EVS conserve les segments les plus distinctifs de chaque frame et élague le reste ; les bénéfices de cette technique tendent à être plus marqués sur les petits GPU
Comment l’exécuter
- Une clé API NVIDIA NGC est nécessaire pour récupérer le conteneur et télécharger les modèles Cosmos 3 depuis NGC
- Voici un exemple d’exécution de Cosmos 3 Nano Reasoner NIM
- Pour utiliser Cosmos 3 Super Reasoner NIM, il faut spécifier
NIM_MODEL_SIZE=super
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
- Le mode d’emploi de l’API et des informations complémentaires sont disponibles dans la documentation
Ressources pour démarrer
1 commentaires
Avis sur Hacker News
C’est un modèle open source de pointe pour la génération d’images et de vidéos
Il dépasse les autres modèles, mais avec 64 milliards de paramètres, il est trop volumineux pour tourner sur la plupart des PC personnels
Cela reste impressionnant, surtout compte tenu de l’usage d’un jeu de données d’entraînement généré artificiellement
Il bat Nano Banana 1, mais n’est pas encore au niveau de concurrence de Nano Banana 2, Seedance2 ou Grok Imagine
Les annonces de produits d’entreprise n’arrivent souvent même pas à exposer clairement les faits de base dans les neuf premiers mots
Il y a cependant une nuance manquante : c’est un world model pensé pour être utile à l’entraînement d’IA pour robots et véhicules autonomes
Donc ce n’est pas vraiment un concurrent direct de Nano Banana ou Seedance ; il peut aussi générer des images et des vidéos, mais son cœur est surtout de fournir des données physiques et des harnesses pour des scénarios d’entraînement IA
« Cosmos 3 Nano est une version compacte avec 16 milliards de paramètres, optimisée pour une inférence efficace. Il a été conçu pour exécuter en temps réel de l’inférence robotique et des applications d’IA physique sur des environnements de calcul de niveau station de travail, comme les GPU NVIDIA RTX PRO 6000. »
J’ai hâte au jour où je pourrai tester ça sur un GPU de station de travail à plus de 10 000 dollars, avec la configuration hors de prix qu’il faut pour le faire tourner
Cette version unifie ses fonctions autour d’une architecture Mixture-of-Transformers (MoT) centrée sur deux tours
La tour de raisonnement est un modèle vision-langage (VLM), jouant le rôle de « cerveau » qui raisonne sur le monde avant la génération
La tour de génération produit des observations futures et des séquences d’actions, et, conditionnée par la compréhension de la tour de raisonnement, crée via un processus de diffusion des vidéos et sorties d’actions tenant compte de la physique
Ce type d’approche éveille l’instinct d’ingénieur qui cherche à optimiser les compromis entre architectures de modèles et à combiner les avantages des deux
Mais d’après ma compréhension de la Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html), c’est exactement la mauvaise direction à long terme
Si je lie l’article original de Bitter Lesson, c’est parce que je pense que ce concept est souvent mal compris, ou du moins que je ne suis pas d’accord avec la façon dont il est utilisé dans le débat
L’idée centrale est l’observation historique suivante : les chercheurs en IA ont essayé d’injecter des connaissances dans les agents ; cela aide à court terme et donne un sentiment de satisfaction aux chercheurs, mais à long terme cela stagne et freine les progrès, tandis que l’approche opposée, fondée sur l’extension du calcul par la recherche et l’apprentissage, finit par produire les percées
Cette architecture me donne l’impression d’être une manière d’injecter dans l’agent des connaissances utiles à court terme, et qu’elle risque donc fort de stagner sur le long terme
Bien sûr, il peut en sortir des apprentissages ou résultats intéressants, mais je ne pense pas qu’il y ait beaucoup à extraire de ce type d’approche
L’architecture MoT ressemble justement à l’idéal suggéré par la Bitter Lesson. Elle consiste à mettre dans un espace latent partagé tous les formats de données — audio, image, texte, action, vidéo — et à laisser le modèle s’organiser tout seul
En pratique, elle ne garde qu’un minimum de structure pour traiter des exigences et formats de sortie différents, par exemple en utilisant un traitement autorégressif pour la modélisation/prédiction de séquences et un traitement par diffusion pour la génération
Le but est d’extraire, depuis une représentation compressée interne, des données sous une forme exploitable par l’humain
Techniquement, on peut aussi raisonner au niveau des pixels ou des caractères, mais c’est en général bien plus coûteux
On peut voir l’ensemble de la technique comme une manière de faire tourner les ordinateurs plus vite
On retrouve cela dans Qwen talker ou dans la plupart des projecteurs multimodaux
Il accepte aussi des entrées vidéo, donc son spectre est plus large que celui des anciens modèles omni
L’architecture est particulière, mais elle ne me semble pas plus extrême en matière de tuning que les modèles open publiés chaque jour
L’exemple vidéo sur la sécurité en entrepôt est vraiment drôle. Les gens ne réagissent pas du tout
La grande ombre du lampadaire projetée sur l’intersection n’a absolument aucun sens non plus
La conception Mixture-of-Transformers à deux tours, c’est-à-dire un raisonneur autorégressif qui alimente un générateur par diffusion, est un pari architectural intéressant
J’ai du mal à comprendre ce que ça fait exactement
Dire que cela « génère des observations futures et des séquences d’actions », est-ce juste une manière compliquée de parler de génération vidéo ?
Ce world model peut par exemple être conditionné par des actions robotiques, ce qui permet deux choses qu’une simple génération vidéo ne peut pas faire
Il peut prédire les images futures qui suivront une action donnée, et à partir de la même image initiale, des actions différentes produiront des futurs différents
Il peut aussi fonctionner à l’envers, inférer les actions derrière des images observées ou produire les actions nécessaires pour atteindre un objectif
Dans ce cas, la sortie n’est pas une image vidéo, mais des commandes moteur
Un des exemples hébergés effectue uniquement de l’analyse vidéo classique, tandis qu’un autre prédit une vidéo à partir d’une image statique, donc fait bien de la génération vidéo
En même temps, contrairement aux simulations d’ingénierie par éléments finis, cela doit tourner bien plus vite que le temps réel, et ce modèle semble viser cette demande
On peut simuler le monde en vue à la première personne pour créer des données d’entraînement sans avoir à envoyer un robot chez les gens
La plupart des exemples choisis n’ont pas l’air très convaincants
On dirait un mélange étrange de mauvais moteur de jeu et de bric-à-brac IA
J’ai du mal à imaginer que cela fasse de bonnes données d’entraînement pour des applications réelles
Et le fait que ce type de technologie, ou des technologies proches, soit utilisé à grande échelle par tous les constructeurs de véhicules autonomes de premier plan est objectivement vrai ; par induction, on peut donc considérer que c’est largement suffisant pour ces usages
Je ne travaille pas sur Cosmos, mais je travaille actuellement chez Nvidia sur des technologies privées en apparence similaires, utilisées par beaucoup d’acteurs de premier plan
À mon avis, la qualité est comparable
Voici quelques travaux publics liés au sujet
https://github.com/nv-tlabs/3dgrut/
https://github.com/NVIDIA/harmonizer
https://github.com/NVIDIA/instant-nurec
https://github.com/nvidia/ncore
Nvidia intègre aussi Gsplat dans au moins une partie de ce sur quoi je travaille et contribue également à l’upstream
https://github.com/nerfstudio-project/gsplat
C’est drôle de voir qu’après tous ces progrès technologiques, le site a toujours du mal à encaisser une forte charge