Nvidia Cosmos 3

(developer.nvidia.com)

1 points par GN⁺ 2026-06-02 | 1 commentaires | Partager sur WhatsApp

NVIDIA Cosmos 3 est un modèle de base ouvert unifié pour l’IA physique, qui combine dans un seul modèle le raisonnement physique, la génération de mondes et la génération d’actions
L’architecture Mixture-of-Transformers sépare une tour Reasoner et une tour Generator afin de relier la compréhension des entrées à la génération de sorties tenant compte de la physique, tout en réduisant la nécessité d’orchestrer plusieurs modèles et pipelines d’inférence
Cosmos 3 Nano vise l’inférence de niveau station de travail avec 16B paramètres, tandis que Cosmos 3 Super vise les déploiements en datacenter et la génération de données synthétiques de haute qualité avec 64B paramètres
NVIDIA publie des checkpoints de modèle, des scripts d’entraînement, des outils de déploiement, six jeux de données synthétiques et des microservices NIM afin de prendre en charge l’adaptation à des domaines comme la robotique, la conduite autonome et l’automatisation d’entrepôt
Sur HUE et plusieurs benchmarks publics, Cosmos 3 est évalué sur le raisonnement en IA physique, la qualité de génération et les performances par domaine, tandis que Super et Nano prennent respectivement la tête des catégories 32B et 8B de VANTAGE-Bench

Les changements clés de Cosmos 3

NVIDIA Cosmos 3 est un modèle de base de pointe conçu pour permettre à des systèmes d’IA physique comme les robots, les véhicules autonomes et les espaces intelligents de comprendre le monde, de prédire la situation suivante et de générer des actions adaptées à un environnement, une morphologie et une tâche donnés
Les précédentes versions de Cosmos séparaient la génération de mondes, la compréhension de la physique et la génération contrôlée de scènes en différents modèles et workflows, mais Cosmos 3 les intègre dans un seul modèle
Cette version fournit des checkpoints de modèle sur Hugging Face, du code sur GitHub, des jeux de données publics, des scripts de post-entraînement et des microservices Cosmos NIM pour le déploiement sur GPU NVIDIA

Une architecture à deux tours

Cosmos 3 utilise une architecture Mixture-of-Transformers articulée autour de deux tours
La tour Reasoner est un modèle vision-langage (VLM) qui interprète des observations multimodales telles que des images, des vidéos et du texte ; avec une structure autorégressive, elle interprète les entrées et comprend les mouvements, les interactions entre objets et le contexte physique
La tour Generator produit, à partir de la compréhension de la tour Reasoner, des vidéos et des sorties d’action tenant compte de la physique via un processus de diffusion
Le Reasoner peut être invoqué indépendamment, mais le Generator active toujours les deux tours pour une génération guidée
Cette architecture traite les tâches de raisonnement et de génération dans un modèle unique, réduisant l’orchestration entre plusieurs modèles et pipelines d’inférence

Choix de la taille du modèle

Cosmos 3 Nano est un modèle compact de 16B paramètres, optimisé pour une inférence efficace
Nano est conçu pour exécuter du raisonnement robotique en temps réel et des applications d’IA physique sur une puissance de calcul de niveau station de travail, comme avec les GPU NVIDIA RTX PRO 6000
Cosmos 3 Super est un modèle de 64B paramètres visant la qualité et les capacités maximales
Super obtient les meilleurs scores sur les benchmarks et cible les déploiements en datacenter sur GPU NVIDIA Hopper et NVIDIA Blackwell
Super convient à la génération synthétique de données à grande échelle et aux charges de travail avancées en raisonnement physique

Jeux de données publics

NVIDIA publie, avec la sortie de Cosmos 3, six jeux de données SDG (synthetic data generation) sur Hugging Face
Ces jeux de données peuvent être utilisés pour le post-entraînement de Cosmos 3 et d’autres modèles, et couvrent la robotique, la simulation physique, le raisonnement spatial, le mouvement humain, la conduite et les environnements d’entrepôt
Jeux de données publics :

Cadre d’évaluation HUE

NVIDIA Cosmos Human Evaluation (HUE) évalue la qualité du Generator de Cosmos 3 sur des tâches représentatives par domaine
Les modèles récents de génération vidéo saturent les anciens leaderboards automatiques, au point que les écarts de score entre versions ne suffisent souvent plus à permettre des comparaisons significatives
HUE remplace l’évaluation subjective par une vérification factuelle objective, ce qui permet des comparaisons fines entre modèles de tête
HUE décompose une vidéo générée en questions factuelles uniques yes/no sur quatre dimensions
- alignement sémantique
- lois physiques
- raisonnement géométrique
- intégrité visuelle
Les questions couvrent sept domaines d’IA physique, dont la robotique, les véhicules autonomes et la physique
Les questions sont générées via un pipeline VLM puis affinées par des experts humains, avant d’être publiées en open source sur Hugging Face

Résultats des benchmarks

Cosmos 3 est évalué sur plusieurs familles de benchmarks couvrant le raisonnement en IA physique, la qualité de génération et les performances par domaine
Sur les benchmarks de raisonnement, Cosmos 3 Super et Cosmos 3 Nano prennent respectivement la tête des catégories 32B et 8B de VANTAGE-Bench
VANTAGE-Bench est le premier benchmark public évaluant des modèles vision-langage sur de vraies vidéos de caméras fixes dans des contextes d’entrepôt, de trafic et d’espaces intelligents
Traffic Anomaly Reasoning (TAR) est un nouveau leaderboard pour la détection et le raisonnement sur des événements anormaux dans des vidéos de circulation, et constitue le leaderboard officiel de l’AI City Challenge 2026 Track 3
Sur les benchmarks de génération, Cosmos 3 est l’open source SOTA selon les leaderboards publics et arrive en tête sur PAI-Bench, R-Bench Physics-IQ et RoboLab
D’après Artificial Analysis, Cosmos 3 est classé comme meilleur modèle open source sur les leaderboards Text to Image et Image to Video (no audio)
R-Bench évalue des world models vidéo pour la génération de vidéos robotiques, avec des sous-métriques comme la cohérence structurelle, la plausibilité physique et la complétude de l’exécution
PAI-Bench évalue la compréhension vidéo et la génération vidéo dans des domaines comme la robotique, les véhicules autonomes et le sens physique commun
Physics-IQ teste si les modèles de génération vidéo atteignent seulement un réalisme visuel ou comprennent réellement les principes physiques
RoboLab est un benchmark de simulation évaluant des politiques robotiques à généralisation de tâche

Recettes d’entraînement et adaptation au domaine

La sortie de Cosmos 3 va au-delà des checkpoints de modèle et publie code, configurations et workflows pour permettre d’adapter le modèle à de nouveaux domaines, morphologies et jeux de données
Le fine-tuning supervisé (SFT) aide les développeurs à ajuster les modèles Cosmos 3 à leurs propres données
Les recettes publiées couvrent le post-entraînement de génération visuelle pour des jeux de données vidéo personnalisés ainsi que des recettes centrées sur l’action pour les workflows de robotique et d’IA physique
Les développeurs peuvent personnaliser Cosmos 3 pour des domaines cibles comme la robotique, la conduite autonome et l’automatisation d’entrepôt
Le code et les configurations de post-entraînement sont fournis sur GitHub
Le post-entraînement sur les actions adapte Cosmos 3 à des applications d’IA physique orientées action, comme la forward dynamics, l’inverse dynamics et la policy generation
En robotique, cela prend en charge des workflows qui génèrent de futures observations conditionnées par les actions du robot, infèrent les actions derrière une démonstration observée et prédisent des séquences d’actions à partir d’observations actuelles et d’un prompt de tâche

Déploiement via microservices NIM

Les modèles Cosmos 3 sont aussi proposés sous forme de NVIDIA NIM microservices pour des déploiements de production optimisés
Les microservices NIM empaquettent le modèle et un runtime d’inférence optimisé afin d’offrir de hautes performances sans avoir à ajuster soi-même l’infrastructure de serving
Pour les workflows d’inférence, les microservices NIM sont plus simples à utiliser que le dépôt GitHub Cosmos 3, tandis que le dépôt GitHub est mieux adapté aux workflows de post-entraînement
Cosmos 3 Reasoner NIM fournit actuellement les capacités de raisonnement des modèles Cosmos 3
NIM prend en charge le choix de checkpoints quantifiés en BF16, FP8 et NVFP4
La quantification NVFP4 réduit la précision numérique du modèle de BF16 vers un format flottant 4 bits afin d’atteindre jusqu’à 2x d’accélération de l’inférence
La pile de serving Cosmos 3 Reasoner NIM repose sur vLLM, un moteur d’inférence open source pour servir efficacement des LLM grâce à des techniques comme continuous batching, paged attention et tensor parallelism
Cosmos 3 Nano peut être exécuté avec vLLM-omni et NVIDIA Dynamo
Efficient Video Sampling (EVS) accélère Cosmos Reason NIM en réduisant le nombre de tokens vidéo fournis au VLM pendant l’inférence
EVS conserve les segments les plus distinctifs de chaque frame et élague le reste ; les bénéfices de cette technique tendent à être plus marqués sur les petits GPU

Comment l’exécuter

Une clé API NVIDIA NGC est nécessaire pour récupérer le conteneur et télécharger les modèles Cosmos 3 depuis NGC
Voici un exemple d’exécution de Cosmos 3 Nano Reasoner NIM
Pour utiliser Cosmos 3 Super Reasoner NIM, il faut spécifier NIM_MODEL_SIZE=super

docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest

Le mode d’emploi de l’API et des informations complémentaires sont disponibles dans la documentation

Ressources pour démarrer

Les checkpoints Cosmos 3 Nano et Super peuvent être téléchargés sur Hugging Face
Exemples et code sont disponibles sur le GitHub de Cosmos 3
Il est possible d’essayer Cosmos 3 Nano Reasoner model experience et Cosmos 3 Nano model experience
Il est possible de rejoindre l’écosystème Cosmos, d’ouvrir des issues et de contribuer via GitHub et Discord

1 commentaires

GN⁺ 2026-06-02

Avis sur Hacker News

C’est un modèle open source de pointe pour la génération d’images et de vidéos
Il dépasse les autres modèles, mais avec 64 milliards de paramètres, il est trop volumineux pour tourner sur la plupart des PC personnels
Cela reste impressionnant, surtout compte tenu de l’usage d’un jeu de données d’entraînement généré artificiellement
Il bat Nano Banana 1, mais n’est pas encore au niveau de concurrence de Nano Banana 2, Seedance2 ou Grok Imagine
- C’est une ironie un peu triste qu’avec les annonces produits de grands groupes, on finisse par ne même plus cliquer et aller directement aux commentaires
  Les annonces de produits d’entreprise n’arrivent souvent même pas à exposer clairement les faits de base dans les neuf premiers mots
  Il y a cependant une nuance manquante : c’est un world model pensé pour être utile à l’entraînement d’IA pour robots et véhicules autonomes
  Donc ce n’est pas vraiment un concurrent direct de Nano Banana ou Seedance ; il peut aussi générer des images et des vidéos, mais son cœur est surtout de fournir des données physiques et des harnesses pour des scénarios d’entraînement IA
- Les modèles de génération d’images et de vidéos sont plus faciles à comprendre comme repère de réalité pour estimer à quel point les modèles locaux se rapprochent des modèles de frontière
« Cosmos 3 Nano est une version compacte avec 16 milliards de paramètres, optimisée pour une inférence efficace. Il a été conçu pour exécuter en temps réel de l’inférence robotique et des applications d’IA physique sur des environnements de calcul de niveau station de travail, comme les GPU NVIDIA RTX PRO 6000. »
J’ai hâte au jour où je pourrai tester ça sur un GPU de station de travail à plus de 10 000 dollars, avec la configuration hors de prix qu’il faut pour le faire tourner
- J’ai le GPU, mais pas le robot. De quel niveau de robot minimal fonctionnel a-t-on besoin pour jouer avec ça ?
- La bonne nouvelle, c’est que Nvidia sera ravie de vous vendre un nouveau portable RTX Spark capable de faire tourner ça
Cette version unifie ses fonctions autour d’une architecture Mixture-of-Transformers (MoT) centrée sur deux tours
La tour de raisonnement est un modèle vision-langage (VLM), jouant le rôle de « cerveau » qui raisonne sur le monde avant la génération
La tour de génération produit des observations futures et des séquences d’actions, et, conditionnée par la compréhension de la tour de raisonnement, crée via un processus de diffusion des vidéos et sorties d’actions tenant compte de la physique
Ce type d’approche éveille l’instinct d’ingénieur qui cherche à optimiser les compromis entre architectures de modèles et à combiner les avantages des deux
Mais d’après ma compréhension de la Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html), c’est exactement la mauvaise direction à long terme
Si je lie l’article original de Bitter Lesson, c’est parce que je pense que ce concept est souvent mal compris, ou du moins que je ne suis pas d’accord avec la façon dont il est utilisé dans le débat
L’idée centrale est l’observation historique suivante : les chercheurs en IA ont essayé d’injecter des connaissances dans les agents ; cela aide à court terme et donne un sentiment de satisfaction aux chercheurs, mais à long terme cela stagne et freine les progrès, tandis que l’approche opposée, fondée sur l’extension du calcul par la recherche et l’apprentissage, finit par produire les percées
Cette architecture me donne l’impression d’être une manière d’injecter dans l’agent des connaissances utiles à court terme, et qu’elle risque donc fort de stagner sur le long terme
Bien sûr, il peut en sortir des apprentissages ou résultats intéressants, mais je ne pense pas qu’il y ait beaucoup à extraire de ce type d’approche
- Moi, j’ai plutôt l’impression inverse
  L’architecture MoT ressemble justement à l’idéal suggéré par la Bitter Lesson. Elle consiste à mettre dans un espace latent partagé tous les formats de données — audio, image, texte, action, vidéo — et à laisser le modèle s’organiser tout seul
  En pratique, elle ne garde qu’un minimum de structure pour traiter des exigences et formats de sortie différents, par exemple en utilisant un traitement autorégressif pour la modélisation/prédiction de séquences et un traitement par diffusion pour la génération
- Cela ressemble surtout à de la décompression, et c’est aujourd’hui une méthode assez standard
  Le but est d’extraire, depuis une représentation compressée interne, des données sous une forme exploitable par l’humain
  Techniquement, on peut aussi raisonner au niveau des pixels ou des caractères, mais c’est en général bien plus coûteux
  On peut voir l’ensemble de la technique comme une manière de faire tourner les ordinateurs plus vite
  On retrouve cela dans Qwen talker ou dans la plupart des projecteurs multimodaux
- Cela dit, ce modèle a une portée de domaine plus large qu’un LLM textuel
  Il accepte aussi des entrées vidéo, donc son spectre est plus large que celui des anciens modèles omni
  L’architecture est particulière, mais elle ne me semble pas plus extrême en matière de tuning que les modèles open publiés chaque jour
L’exemple vidéo sur la sécurité en entrepôt est vraiment drôle. Les gens ne réagissent pas du tout
- La vidéo de voiture est aussi bizarre. Le van qui croise la scène grille clairement le feu rouge
  La grande ombre du lampadaire projetée sur l’intersection n’a absolument aucun sens non plus
La conception Mixture-of-Transformers à deux tours, c’est-à-dire un raisonneur autorégressif qui alimente un générateur par diffusion, est un pari architectural intéressant
J’ai du mal à comprendre ce que ça fait exactement
Dire que cela « génère des observations futures et des séquences d’actions », est-ce juste une manière compliquée de parler de génération vidéo ?
- Non. La différence tient à la partie actions
  Ce world model peut par exemple être conditionné par des actions robotiques, ce qui permet deux choses qu’une simple génération vidéo ne peut pas faire
  Il peut prédire les images futures qui suivront une action donnée, et à partir de la même image initiale, des actions différentes produiront des futurs différents
  Il peut aussi fonctionner à l’envers, inférer les actions derrière des images observées ou produire les actions nécessaires pour atteindre un objectif
  Dans ce cas, la sortie n’est pas une image vidéo, mais des commandes moteur
- Si j’ai bien compris, cela désigne à la fois de la vision par ordinateur et de la génération vidéo, reliées ensemble sous la forme d’un world model assez robuste
  Un des exemples hébergés effectue uniquement de l’analyse vidéo classique, tandis qu’un autre prédit une vidéo à partir d’une image statique, donc fait bien de la génération vidéo
- Si on imagine ce que c’est et pourquoi c’est formulé ainsi, le domaine de la robotique IA a besoin d’un moteur de jeu hyperréaliste avec une physique meilleure que la physique rigide non déformable de type Unity ou Unreal
  En même temps, contrairement aux simulations d’ingénierie par éléments finis, cela doit tourner bien plus vite que le temps réel, et ce modèle semble viser cette demande
- Il suffit de regarder le tableau des formats pris en charge. Il peut prendre en entrée image, vidéo, texte et action, et produire en sortie image, vidéo, texte et action
- Cela peut servir à générer des données synthétiques pour entraîner une IA physique comme des robots, des voitures ou des drones
  On peut simuler le monde en vue à la première personne pour créer des données d’entraînement sans avoir à envoyer un robot chez les gens
La plupart des exemples choisis n’ont pas l’air très convaincants
On dirait un mélange étrange de mauvais moteur de jeu et de bric-à-brac IA
J’ai du mal à imaginer que cela fasse de bonnes données d’entraînement pour des applications réelles
- Honnêtement, ces démos ont l’air plutôt bonnes
  Et le fait que ce type de technologie, ou des technologies proches, soit utilisé à grande échelle par tous les constructeurs de véhicules autonomes de premier plan est objectivement vrai ; par induction, on peut donc considérer que c’est largement suffisant pour ces usages
  Je ne travaille pas sur Cosmos, mais je travaille actuellement chez Nvidia sur des technologies privées en apparence similaires, utilisées par beaucoup d’acteurs de premier plan
  À mon avis, la qualité est comparable
  Voici quelques travaux publics liés au sujet
  https://github.com/nv-tlabs/3dgrut/
  https://github.com/NVIDIA/harmonizer
  https://github.com/NVIDIA/instant-nurec
  https://github.com/nvidia/ncore
  Nvidia intègre aussi Gsplat dans au moins une partie de ce sur quoi je travaille et contribue également à l’upstream
  https://github.com/nerfstudio-project/gsplat
C’est drôle de voir qu’après tous ces progrès technologiques, le site a toujours du mal à encaisser une forte charge

Nvidia Cosmos 3

Les changements clés de Cosmos 3

Une architecture à deux tours

Choix de la taille du modèle

Jeux de données publics

Cadre d’évaluation HUE

Résultats des benchmarks

Recettes d’entraînement et adaptation au domaine

Déploiement via microservices NIM

Comment l’exécuter

Ressources pour démarrer

À lire aussi

1 commentaires

Avis sur Hacker News