Jensen Huang : l’avenir de Nvidia, l’IA physique et l’essor des agents [YouTube]

(youtube.com)

6 points par GN⁺ 2026-03-20 | 5 commentaires | Partager sur WhatsApp

Jensen Huang, CEO de Nvidia, est apparu dans le podcast All-In pour une interview couvrant un large éventail de sujets : l’acquisition de Groq, l’explosion de l’inférence, l’IA physique, l’informatique agentique, la crise de relations publiques de l’industrie de l’IA, etc.
Nvidia a évolué d’une entreprise de GPU vers une entreprise d’usines d’IA, en ajoutant à son architecture de calcul hétérogène pour le traitement des agents les LPU de Groq, BlueField, des CPU et des processeurs réseau
Il présente Open Claw comme le plan directeur du système d’exploitation du calcul IA moderne, et le définit comme le premier ordinateur IA personnel doté d’un système mémoire, de compétences, d’ordonnancement et d’un sous-système d’E/S
L’IA physique est un marché de 50 000 milliards de dollars que l’industrie technologique aborde pour la première fois, et l’activité, aujourd’hui proche de 10 milliards de dollars par an, croît de façon exponentielle
À propos de la crise de relations publiques de l’industrie de l’IA, il avertit des effets négatifs des déclarations extrêmes et apocalyptiques de certains leaders technologiques sur les décideurs publics et le grand public, et souligne la nécessité d’une communication plus mesurée et équilibrée

Acquisition de Groq et explosion de l’inférence

La technologie clé de Dynamo, le système d’exploitation d’usine d’IA présenté il y a deux ans et demi, est l’inférence désagrégée (disaggregated inference), une approche qui divise le pipeline d’inférence pour l’exécuter sur différents GPU
Ce concept de calcul désagrégé a conduit à l’acquisition de Mellanox, et aujourd’hui le calcul Nvidia est distribué entre GPU, CPU, switches, switches scale-up/scale-out et processeurs réseau
- Groq s’y ajoute pour placer la bonne charge de travail sur la bonne puce
Avec le passage à l’ère du traitement agentique, les besoins en mémoire de travail, mémoire long terme, usage d’outils et stockage explosent
- Différents types de modèles coexistent désormais dans le datacenter : grands modèles, petits modèles, modèles de diffusion, modèles autorégressifs, etc.
Vera Rubin est un système conçu pour exécuter cette diversité extrême de charges de travail
- À la configuration historique d’un rack s’ajoutent désormais quatre racks supplémentaires, ce qui augmente le TAM de Nvidia d’environ 33 à 50 %
- Cet ajout se compose de processeurs de stockage (BlueField), de processeurs Groq, de CPU et de processeurs réseau
Il ne faut pas assimiler le prix d’un datacenter au coût du token
- Une usine à 50 milliards de dollars peut produire les tokens au coût le plus bas, grâce à une efficacité de débit 10 fois supérieure
- Sur ces 50 milliards, 20 milliards correspondent de toute façon au terrain, à l’électricité et au shell ; stockage, réseau, CPU, serveurs et refroidissement restent nécessaires quoi qu’il arrive
- La différence entre un GPU à 1x ou à 0,5x représente plutôt 50 contre 40 milliards, ce qui reste limité face à un débit multiplié par 10
L’an dernier, il disait que l’inférence augmenterait de 1 000 fois ; désormais, elle ira selon lui vers 1 million voire 1 milliard de fois
- À l’époque, le monde se concentrait sur le pré-scaling et l’entraînement ; aujourd’hui, l’inférence explose et nous sommes dans une situation de contrainte par l’inférence (inference constrained)

La prise de décision de l’entreprise la plus valorisée au monde

Le rôle du CEO est de définir une vision et une stratégie, en s’appuyant sur les informations fournies par d’excellents informaticiens et ingénieurs pour façonner l’avenir
Critères clés : est-ce follement difficile, est-ce quelque chose qui n’a jamais été fait auparavant, et cela correspond-il au super-pouvoir unique de Nvidia ?
- Si c’est facile, il y aura trop de concurrents, donc il faut l’éviter
- Les choses extrêmement difficiles impliquent de la souffrance ; il faut donc pouvoir apprécier le processus

Le marché à 50 000 milliards de dollars de l’IA physique et Open Claw

L’IA physique représente pour l’industrie technologique la première occasion d’aborder une industrie de 50 000 milliards de dollars
- Le mouvement a commencé il y a dix ans, et l’activité connaît aujourd’hui une croissance exponentielle, proche de 10 milliards de dollars par an
Trois catégories de systèmes de calcul
- Première : les ordinateurs pour entraîner et développer les modèles d’IA
- Deuxième : les ordinateurs d’évaluation — pour évaluer robots et voitures dans des environnements virtuels obéissant aux lois de la physique (Omniverse)
- Troisième : les ordinateurs de robotique edge — voitures autonomes, robots, ours en peluche, etc.
Des travaux sont en cours pour transformer les stations de base télécoms en partie de l’infrastructure IA
- L’industrie télécom, qui pèse 2 000 milliards de dollars, deviendra une extension de l’infrastructure IA
La biologie numérique est proche de son moment ChatGPT
- Il deviendra possible d’ici 2 à 5 ans de comprendre l’expression et la dynamique des gènes, des protéines et des cellules
- Dans les cinq prochaines années, la biologie numérique atteindra un point d’inflexion dans l’industrie de la santé
Open Claw constitue le troisième des trois points d’inflexion des deux dernières années
- Premier : ChatGPT — qui a fait entrer l’IA générative dans la conscience du grand public
- Deuxième : o1/o3 — le raisonnement (reasoning) et l’information fondée sur des preuves comme point d’inflexion du modèle économique
- Troisième : Claude Code — premier système d’agents réellement utile, mais limité à l’entreprise ; Open Claw ancre l’idée des agents IA dans la conscience du grand public
La structure du modèle de calcul d’Open Claw
- Système mémoire : scratchpad (mémoire court terme), système de fichiers
- Compétences : exécution de plusieurs types d’applications via API
- Gestion des ressources et ordonnancement : cron jobs, lancement d’agents, décomposition des tâches
- Sous-système d’E/S : entrées/sorties, connexion à WhatsApp, etc.
- Ces quatre éléments définissent fondamentalement un ordinateur → premier ordinateur IA personnel open source
Contribution à la gouvernance et à la sécurité des logiciels agentiques
- Politique consistant à ne pas autoriser simultanément les trois éléments suivants : accès à des informations sensibles, exécution de code et communication externe
- Peter Steinberger et des ingénieurs de Nvidia ont contribué au renforcement de la sécurité

La crise de relations publiques de l’IA et le problème de communication d’Anthropic

L’IA est un logiciel informatique, pas un être biologique, pas un extraterrestre et pas une entité consciente
Dire que « nous ne la comprenons pas du tout » n’est pas exact ; nous comprenons déjà beaucoup de choses sur cette technologie
Il faut continuer à informer les décideurs publics et éviter que l’apocalyptisme et l’extrémisme n’influencent les décisions politiques
- En même temps, la technologie avance très vite, donc la politique ne doit pas prendre trop d’avance sur la technologie
La plus grande inquiétude de sécurité nationale pour les États-Unis : que les autres pays adoptent l’IA pendant que les États-Unis deviennent en colère, craintifs ou paranoïaques face à l’IA et ne l’adoptent pas
À propos d’Anthropic : la technologie est excellente, et sa focalisation sur la sécurité et la sûreté est admirable
- Mais alerter sur les risques de la technologie est une bonne chose ; faire peur l’est moins
- Des déclarations extrêmes et catastrophistes sans preuve peuvent être plus nuisibles qu’on ne le pense
- En tant que leaders technologiques, ils doivent reconnaître le poids de leurs paroles et être plus mesurés, modérés, équilibrés et réfléchis
La popularité de l’IA aux États-Unis n’est que de 17 %, avec le risque de reproduire la trajectoire d’arrêt qu’a connue le nucléaire
- Alors que 100 réacteurs à fission sont en construction en Chine, les États-Unis en ont 0
- On parle même de moratoires sur les datacenters

Capacité de revenus, allocation de tokens aux employés et avenir des agents

Classement d’usage des modèles d’IA : OpenAI n°1, open source n°2 (avec un très grand écart), Anthropic n°3
Hausse de la demande en calcul
- Génératif → raisonnement : environ x100
- Raisonnement → agents : environ x100
- En deux ans, le calcul a augmenté de 10 000 fois
Les gens paient pour l’information, mais ils paient davantage pour le travail
- Les systèmes d’agents accomplissent du travail → la consommation a déjà augmenté d’environ 100 fois, sans même que le scaling ait vraiment commencé
Sur les 43 000 employés de Nvidia, environ 38 000 sont ingénieurs
- Si un ingénieur payé 500 000 dollars par an ne dépense que 5 000 dollars en tokens par an, c’est un gros problème
- L’attente minimale serait plutôt de 250 000 dollars ou plus de consommation en tokens
- C’est comme si un concepteur de puces disait : « je n’utiliserai que du papier et un crayon, je n’ai pas besoin d’outils de CAO »
Cas d’Auto Research
- Une recherche effectuée en 30 minutes sur un desktop atteint généralement le niveau d’une thèse de doctorat demandant sept ans
- Téléchargé depuis GitHub et exécuté en local, l’outil produit des résultats de niveau revue scientifique
- Un outil publié le week-end avec 600 lignes de code
La manière de travailler à l’avenir : au lieu d’écrire directement du code, on écrira des idées, une architecture, des spécifications, on organisera une équipe et on définira des critères d’évaluation
- Chaque ingénieur disposera de 100 agents

L’avenir du logiciel d’entreprise

Réponse à l’idée selon laquelle l’industrie des logiciels d’IT d’entreprise serait vouée à être détruite
- Le logiciel d’entreprise a longtemps été limité par les effectifs et les sièges (butts and seats)
- Bientôt, 100 fois plus d’agents utiliseront SQL, des bases de données vectorielles, Blender, Photoshop et d’autres outils existants
- Ces outils existants accomplissent bien le travail et servent de canal pour présenter le résultat final sous une forme contrôlable par l’utilisateur

Open source, diffusion mondiale, Iran/chaîne d’approvisionnement de Taïwan

Les modèles sont une technologie, pas un produit, et une technologie, pas un service
- Les modèles propriétaires et les modèles open source sont tous deux fondamentalement nécessaires (pas A ou B, mais A et B)
- Le grand public préfère une intelligence généraliste de couche horizontale comme ChatGPT, Claude ou Gemini
- L’expertise sectorielle et la spécialisation par industrie ne sont possibles qu’avec des modèles ouverts
Les modèles open source sont proches de la frontière, et même une fois cette frontière atteinte, les modèles fournis sous forme de service continueront à prospérer
État de la diffusion mondiale
- Les règles de diffusion de l’ère Biden constituaient une politique de diffusion anti-américaine de l’IA
- Le président Trump veut que l’industrie technologique américaine reste leader mondial et diffuse sa technologie
- Nvidia a abandonné 95 % de part de marché sur le deuxième marché mondial, la Chine, et se retrouve actuellement à 0 %
- L’entreprise a obtenu une licence approuvée par le secrétaire Lutnik, reçoit des bons de commande d’entreprises chinoises et relance sa chaîne d’approvisionnement
Du point de vue de la sécurité nationale
- Si l’on ne contrôle pas les petits moteurs, les minerais de terres rares, les réseaux télécoms et l’énergie durable, la sécurité nationale s’affaiblit
- L’industrie de l’IA ne doit pas devenir comme le solaire, les terres rares, les aimants, les moteurs ou les télécoms
- Il est souhaitable que la stack technologique américaine (de la puce au système de calcul en passant par la plateforme) représente 90 % du monde
Taïwan : il faut pousser la réindustrialisation américaine aussi vite que possible, tout en sécurisant le partenariat stratégique et l’amitié de la chaîne d’approvisionnement taïwanaise, afin de produire rapidement en Arizona, au Texas et en Californie
- Il faut aussi diversifier la chaîne d’approvisionnement vers la Corée, le Japon et l’Europe
- Pendant cette phase de diversification et de renforcement de la résilience, il faut faire preuve de patience et de retenue
Hélium : cela pourrait devenir un problème, mais il existe probablement suffisamment de tampon dans la chaîne d’approvisionnement

Plateforme de conduite autonome et concurrence

« Tout ce qui bouge finira un jour par être totalement ou partiellement autonome »
Nvidia ne fabrique pas directement de voitures autonomes ; l’entreprise permet à tous les constructeurs automobiles d’en fabriquer
- Elle construit les trois briques : ordinateur d’entraînement, ordinateur de simulation/évaluation et ordinateur embarqué
- La première voiture autonome fondée sur l’inférence au monde — le système Alpommyo, qui explore des scénarios complexes en les décomposant en scénarios simples
Tesla n’achète que l’ordinateur d’entraînement, tandis que d’autres entreprises utilisent la stack complète : modèle de coopération flexible
Cas où les clients deviennent concurrents, comme Google TPU ou Amazon Inferentia/Tranium
- La confiance de Nvidia : tant qu’elle reste la meilleure technologiquement et avance vite, acheter chez Nvidia demeure l’option la plus économique
- La seule architecture présente dans tous les clouds — du cloud à l’on-premise, jusqu’aux véhicules, à n’importe quelle région et même à l’espace
- Environ 40 % de l’activité ne peut être exploitée par les clients sans stack complète capable de construire toute l’usine d’IA
Pourquoi la part de marché augmente
- Anthropic migre vers Nvidia, Meta aussi, les modèles ouverts se développent — tous sur une base Nvidia
- Croissance des entreprises, de l’industrie et de l’edge en dehors du cloud
- AWS a annoncé l’achat de 1 million de puces dans les années à venir
À propos des prévisions de ralentissement de la croissance des analystes (30 % l’an prochain, puis 20 %, puis 7 % en 2029)
- Ils ne comprennent pas l’échelle ni l’étendue de l’IA
- La plupart pensent que l’IA se limite aux cinq principaux hyperscalers, alors qu’en réalité elle est bien plus vaste

Datacenters spatiaux, santé IA, robotique

Datacenters spatiaux
- Nvidia est déjà présente dans l’espace — des versions CUDA durcies contre les radiations effectuent déjà de l’imagerie et du traitement d’images par IA sur des satellites dans le monde entier
- Plutôt que d’envoyer toutes les données sur Terre, il est logique de traiter directement l’imagerie dans l’espace
- L’espace offre une énergie abondante, mais le refroidissement par conduction ou convection y est impossible → seule la radiation est possible, ce qui exige de très grandes surfaces
- Explorer l’architecture des datacenters spatiaux devrait prendre plusieurs années
Trois domaines de la santé par l’IA
- Biologie IA : représenter et prédire les comportements biologiques avec l’IA → découverte de médicaments
- Agents IA : aide au diagnostic, etc. — exemples d’Open Evidence et Hypocratic
- IA physique : une IA qui comprend les lois de la physique → chirurgie robotisée, etc.
- À l’avenir, tous les équipements de l’hôpital, de l’échographie au scanner CT, deviendront agentiques — une version sûre d’Open Claw sera intégrée à chaque appareil
Robotique
- Les États-Unis ont en grande partie inventé cette industrie, mais ils se sont épuisés environ cinq ans avant l’arrivée de la technologie clé (le cerveau = l’IA)
- Entre une preuve d’existence très fonctionnelle et un produit raisonnable, la technologie ne prend généralement pas plus de 2 à 3 cycles (3 à 5 ans)
- La Chine est la meilleure au monde dans les microélectroniques, moteurs, terres rares et aimants → l’industrie robotique mondiale dépend fortement de l’écosystème et de la chaîne d’approvisionnement chinois
- Les robots permettront de faire ce qu’une personne ne peut pas accomplir seule, devenant le plus grand facteur de déverrouillage de la mobilité économique et de la prospérité
- Les États-Unis font actuellement face à une pénurie de main-d’œuvre de plusieurs millions de personnes, d’où un besoin urgent de robotique
- La présence virtuelle via les robots, le déplacement à la vitesse de la lumière et la colonisation de la Lune et de Mars en seront des applications clés

Potentiel de revenus d’OpenAI/Anthropic et moat de l’IA

Dario Amodei prévoit des centaines de milliards de dollars de revenus IA hors infrastructure d’ici 2027-2028, et 1 000 milliards de dollars d’ici 2030
- Jensen juge cette estimation très conservatrice et s’attend à ce qu’Anthropic fasse bien mieux
- Ce qui n’est pas encore pris en compte : toutes les entreprises de logiciels d’entreprise deviendront des revendeurs à valeur ajoutée de tokens Anthropic et OpenAI
- Le go-to-market devrait s’étendre de manière logarithmique
Le moat à l’ère de l’IA, c’est la spécialisation profonde (deep specialization)
- Les modèles généralistes seront reliés à des systèmes d’agents, et beaucoup de modèles seront des sous-agents spécialisés entraînés par les entreprises elles-mêmes
- Message aux entrepreneurs : connaître votre verticale plus profondément que quiconque, puis injecter ce savoir à mesure que les outils progressent
- Plus vite vous connectez les agents aux clients, plus le flywheel s’enclenche et plus les agents s’améliorent
- À l’inverse des plateformes horizontales actuelles et des modèles de simple personnalisation, les entreprises de plateforme ont là l’occasion de devenir des experts et spécialistes de domaines verticaux

Conseils aux jeunes à l’ère de l’IA

Recommandation : sciences approfondies, mathématiques approfondies et maîtrise du langage
- Puisque le langage est le langage de programmation de l’IA, un diplômé de littérature anglaise pourrait être parmi les plus performants
Quelle que soit la formation suivie, il faut devenir un expert approfondi de l’usage de l’IA
- Ne pas trop prescrire (overprescribe) et guider l’IA vers le résultat voulu tout en lui laissant de l’espace pour innover et créer relève de l’art
Cas des radiologues
- Il y a dix ans, on prédisait que la vision par ordinateur remplacerait totalement la radiologie → aujourd’hui, la vision par ordinateur est intégrée à 100 %
- Pourtant, le nombre de radiologues a augmenté, car la demande a explosé
- Les scans étant plus rapides, il y en a davantage → plus de patients traités → hausse des revenus des hôpitaux
- Les tâches d’un métier changent, mais sa finalité demeure
Si la productivité augmente, le pays deviendra plus riche, pourra mettre plus d’enseignants dans les classes et offrir à chaque élève un programme personnalisé
Les transitions d’emploi sont inévitables, mais la conduite autonome transformera 10 à 15 millions d’emplois de conducteurs
- Les chauffeurs pourraient évoluer en assistants de mobilité — accomplissant diverses tâches pour les passagers pendant que la voiture se conduit elle-même
- Comme le pilote automatique dans l’aviation a conduit à davantage de pilotes, un schéma similaire pourrait se reproduire

5 commentaires

xguru 2026-03-20

C’est à partir de 24:28 que ça devient marquant.

Faisons une petite expérience de pensée.

Supposons qu’il y ait un ingénieur logiciel ou un chercheur en IA payé 500 000 dollars par an. Chez nous, c’est quelque chose de courant.

À la fin de l’année, je demanderais à cet ingénieur payé 500 000 dollars :
« Combien avez-vous dépensé en tokens cette année ? »
Et si cette personne répondait : « J’ai dépensé 5 000 dollars », j’en serais vraiment abasourdi.

Si cet ingénieur à 500 000 dollars de salaire n’avait même pas utilisé pour au moins 250 000 dollars de tokens, je le prendrais très au sérieux.

Ce ne serait pas différent d’un de nos concepteurs de puces disant :
« Je vais juste utiliser du papier et un crayon. Je ne pense pas avoir besoin d’outils de CAO. »

Cela veut dire que notre manière même de considérer les meilleurs talents est en train de changer complètement.

C’est similaire à ce que nous avons appris quand, en NBA, LeBron James a commencé à dépenser 1 million de dollars par an pour entretenir son corps et maintenir sa condition.

Pourquoi ne pas donner des capacités surhumaines à des travailleurs du savoir aussi exceptionnels ?

Alors, si l’on se projette dans 2 ou 3 ans,
à quel point le meilleur talent de Nvidia travaillera-t-il efficacement ?
Et jusqu’où pourra-t-il aller, au juste ?

D’abord, l’idée que « wow, c’est trop difficile » va disparaître.
L’idée que « ça prend trop de temps » va disparaître aussi.
L’idée qu’« il faut beaucoup de monde » va disparaître elle aussi.

Trop grand, trop lourd, trop long.
Toutes ces idées vont disparaître.
Au final, il ne restera que la créativité.
Il ne restera plus que ce que vous êtes capable d’imaginer.

Alors la question devient celle-ci :
comment travailler avec ces agents ?

Au fond, c’est une nouvelle manière de programmer les ordinateurs.
Avant, nous écrivions directement le code.
À l’avenir, nous écrirons des idées, des architectures et des spécifications.

Nous organiserons des équipes,
nous définirons comment évaluer les bons et les mauvais résultats,
nous déterminerons ce qu’est un excellent résultat,
comment itérer ensemble,
et comment faire du brainstorming.

C’est vraiment cela qui compte.

Et à mon avis,
à l’avenir, chaque ingénieur dirigera une centaine d’agents.

aliveornot 2026-03-21

Je vois bien ce que ça veut dire, mais évaluer les ingénieurs au nombre de lignes de code a toujours été idiot. J’ai l’impression qu’il est vraiment difficile de trouver de bons indicateurs.

aer0700 2026-03-21

Au lieu de demander à un ingénieur payé 50000 dollars par an : « Combien de tokens avez-vous utilisés ? »,
ne devrait-on pas plutôt lui demander : « Qu’avez-vous développé cette année, et comment cela a-t-il contribué au bénéfice d’exploitation de l’entreprise ? »

kirkyoon 2026-04-23

La question n’est pas de savoir combien de tokens ont été consommés, mais si on les utilise efficacement.
On peut considérer que 5a0000 dollars, c’est un montant bien trop faible.
« Moi, je vais juste utiliser du papier et un crayon. Je n’aurai probablement pas besoin d’un outil de CAO. »
Cela revient exactement au même.