- Jalapeño est un accélérateur spécialisé pour l’inférence des LLM et le premier résultat d’une plateforme de calcul multigénérationnelle développée avec Broadcom
- Seulement 9 mois entre le lancement de la conception et le tape-out de fabrication, ce qui en ferait le cycle de développement ASIC le plus rapide jamais vu dans les semi-conducteurs avancés haute performance
- Lors des premiers tests, environ 50 % de réduction des coûts par rapport aux GPU IA généralistes, avec en plus une performance par watt nettement supérieure à l’état de l’art actuel
- Cela s’inscrit dans une stratégie full stack où tout est conçu en interne, de l’architecture de la puce aux kernels, à la mémoire et au réseau, avec pour objectif de réduire la dépendance aux GPU Nvidia et d’aller au-delà d’un éditeur logiciel pour devenir un opérateur d’infrastructure IA
- Déploiement prévu à partir de fin 2026 dans des datacenters à l’échelle du gigawatt avec des partenaires comme Microsoft, ce qui prend un relief particulier alors qu’OpenAI doit démontrer sa rentabilité avant une IPO potentielle de 1 000 milliards de dollars
Présentation de la puce Jalapeño
- Mercredi, OpenAI et Broadcom (NASDAQ: AVGO) ont dévoilé Jalapeño, le premier processeur d’intelligence d’OpenAI
- Il s’agit d’un accélérateur conçu pour l’avenir de l’inférence des LLM, et du premier accélérateur IA de la plateforme de calcul multigénérationnelle que les deux entreprises développent ensemble
- Le président-directeur général de Broadcom Hock Tan et son président Charlie Kawwas ont remis en main propre des échantillons de la puce au CEO d’OpenAI Sam Altman et à son président Greg Brockman
- Une étape importante dans la stratégie d’OpenAI, qui veut dépasser les produits grand public pour devenir un opérateur d’infrastructure IA
Structure et performances de la puce
- Jalapeño n’est pas une puce généraliste adaptée à partir d’un accélérateur pour charges de travail IA existant, mais une conception from scratch destinée à l’inférence des LLM modernes
- Il s’agit d’un ASIC pouvant être conçu pour des tâches IA spécifiques, moins flexible qu’un GPU Nvidia mais moins coûteux
-
Performances et efficacité
- Lors des premiers tests, environ 50 % de réduction des coûts par rapport à un GPU IA généraliste (interview de Hock Tan)
- Les performances finales sont encore en cours de mesure, mais la performance par watt apparaît déjà en nette progression par rapport à l’état de l’art actuel
- En réduisant les mouvements de données et en équilibrant calcul, mémoire et ressources réseau, la puce permet d’approcher dans la pratique le maximum théorique de performance
- L’image de la puce publiée montre 8 emplacements HBM et un die de calcul central
-
Validation du fonctionnement
- Des échantillons d’ingénierie exécutent déjà des charges ML à la fréquence et à la puissance visées pour la production, notamment GPT‑5.3‑Codex‑Spark
- Un rapport technique détaillé doit être publié dans les prochains mois
- L’implémentation silicium de Broadcom et son silicium réseau Tomahawk doivent soutenir la production à grande échelle
Tape-out en 9 mois, accéléré par les modèles d’OpenAI
- Le développement conjoint n’a pris que 9 mois entre la conception initiale et le tape-out de fabrication, ce qui pourrait constituer le cycle de développement ASIC le plus rapide jamais observé dans les semi-conducteurs avancés haute performance
- OpenAI a utilisé en partie ses propres modèles dans le processus de conception et d’optimisation, et Brockman a déclaré que le degré d’accélération apporté par les modèles était « stupéfiant »
- Les mêmes modèles proposés aux utilisateurs contribueront à l’avenir à améliorer l’infrastructure qui les exécute
- Si l’IA aide les ingénieurs à concevoir des puces plus rapidement, cela pourrait réduire les coûts de calcul à l’échelle du secteur et élargir l’accès à l’IA avancée
Plateforme multigénérationnelle et partenaires
- Jalapeño constitue la première étape d’une plateforme de calcul multigénérationnelle appelée à s’étendre sur plusieurs années, avec un premier déploiement visé pour fin 2026
-
Structure de la collaboration
- OpenAI — conception de l’accélérateur, fondée sur une compréhension approfondie des bases des LLM
- Broadcom — implémentation de la puce, technologies réseau et d’interconnexion
- Celestica — expertise en cartes, racks et intégration système
- L’an dernier, OpenAI et Broadcom avaient annoncé un plan de développement de puces sur mesure pour une capacité de calcul de 10 gigawatts ; cette puce en est aujourd’hui la première concrétisation
-
Une demande explosive
- Le CEO de Broadcom Hock Tan a indiqué qu’à partir de 2026, cette puce permettra des déploiements dans des datacenters à l’échelle du gigawatt avec des partenaires comme Microsoft, avec un petit prototype fin 2026 avant montée en puissance
- Brockman a déclaré que « nous n’arrivons pas à obtenir assez de calcul assez vite », tandis que Tan a affirmé que la demande de six clients était « tout simplement impossible à satisfaire » et qu’elle resterait identique ou plus forte encore en 2027 et 2028
- Le responsable du programme matériel d’OpenAI, Richard Ho, a expliqué que l’architecture avait été optimisée autour des kernels, des mouvements mémoire, du réseau et des schémas de serving les plus critiques pour les modèles d’IA de pointe
Stratégie full stack et paysage concurrentiel
- OpenAI ne se contente plus de développer des modèles de pointe et des produits : l’entreprise conçoit désormais directement l’infrastructure sous-jacente — y compris l’architecture des puces, les kernels, le système mémoire, le réseau, l’ordonnancement, les systèmes de déploiement et l’expérience produit
- Elle rejoint ainsi les acteurs IA full stack dotés de leur propre silicium, comme Google (TPU), Amazon (Trainium) et Microsoft (Azure Maia 100)
-
Réduction de la dépendance à Nvidia
- « Personne ne veut être dépendant de Nvidia » (Ben Barringer, directeur de la recherche technologique chez Quilter Cheviot), dans une dynamique de diversification des sources d’approvisionnement en puces
- OpenAI est l’un des plus gros clients de Nvidia, tout en ayant aussi signé des accords d’approvisionnement avec AMD (série Instinct MI450), Cerebras et d’autres
-
Enjeux business
- Alors que Nvidia est devenue l’entreprise la mieux valorisée au monde grâce à sa fourniture de composants clés pour les datacenters IA, le potentiel de rentabilité du marché de l’infrastructure IA apparaît de plus en plus clairement
- Pour OpenAI, dont une IPO à une valorisation évoquée de 1 000 milliards de dollars est régulièrement mentionnée, la baisse du coût de l’inférence est cruciale pour amortir ses énormes dépenses d’entraînement et démontrer sa rentabilité
- L’action Broadcom progresse depuis le début de 2026 et vaut environ sept fois plus qu’à la fin 2022, reflet des bénéfices attendus de cette collaboration
Démocratiser l’IA avancée
- L’inférence est le point de contact entre l’IA et l’humain : améliorer les coûts, la vitesse et la fiabilité se traduit directement par des réponses ChatGPT plus rapides, des tâches Codex sans attente, des produits API moins chers et un accès plus stable lors des pics de demande
- Rendre les modèles avancés disponibles, stables et abordables au point que davantage de personnes puissent les utiliser chaque jour est au cœur de la démocratisation de l’IA
- Cela contribuera à transformer l’infrastructure en intelligence utile pour les étudiants, développeurs, petits entrepreneurs, chercheurs, entreprises et tous ceux qui veulent apprendre, créer et résoudre des problèmes difficiles
1 commentaires
Avis sur Hacker News
J’aimerais voir plus de détails sur le passage disant qu’« ils ont accéléré la conception et l’optimisation avec des modèles OpenAI »
En l’état, cela ressemble à une formule marketing, un peu comme dire que le développement a été plus rapide grâce à Microsoft Office ou à un moniteur LG Ultrafine 5K de 40 pouces
Si c’était vraiment aussi important que ce que cela laisse entendre, OpenAI l’aurait probablement beaucoup plus mis en avant
On ne sait pas clairement si « conception » signifie conception terminée, ni si « production » signifie démarrage de la production, c’est-à-dire le tape-out
Si l’on parle de 9 mois entre le gel du RTL et le tape-out, c’est plutôt banal pour une grosse puce 3 nm complexe, et même à peine impressionnant si l’on tient compte des problèmes imprévus
En revanche, si l’on parle du passage de la phase de concept — autrement dit avec seulement un schéma d’architecture sans RTL — jusqu’au tape-out, alors là ce serait remarquable, et la réalité se situe probablement quelque part entre les deux
Une annonce plus précise devrait utiliser de vrais jalons et gates techniques
Il n’est pas forcément nécessaire d’avoir un modèle spécialisé distinct pour utiliser des grands modèles de langage dans le flux de travail de conception de puces
La vérification de conception implique elle aussi beaucoup de programmation traditionnelle, donc les grands modèles de langage peuvent aussi y aider
Ce n’est pas du tout dénué de sens, et aujourd’hui, si l’on télécharge un logiciel open source de conception de puces, un grand modèle de langage peut même aider à démarrer directement sur une petite puce
Les parties difficiles de cette puce d’inférence ont probablement déjà été conçues par Broadcom, et OpenAI s’est sans doute contenté de transmettre à Broadcom les spécifications souhaitées
Cela ressemble probablement aussi beaucoup à un Google TPU
Ils disent que « l’accélérateur de première génération augmentera sensiblement les performances par watt par rapport à l’état de l’art actuel », et je me demande ce que signifie exactement « sensiblement »
Vera Rubin doit être expédié en volume d’ici la fin de l’année, et on s’attend à ce qu’il soit 10 fois plus efficace énergétiquement en inférence que Blackwell[0]
Même si le tape-out a déjà eu lieu, il faudra probablement au moins 12 mois, voire plus, pour corriger les bugs, fabriquer les puces, obtenir l’allocation HBM, concevoir les racks, l’interconnexion et le déploiement en datacenter
Au moment où cette puce sera déployée en volume dans les datacenters, elle pourrait bien se retrouver à concurrencer Vera Rubin Ultra ou Feynman
Personnellement, je pense qu’OpenAI n’aurait pas dû investir dans ce projet
C’est encore trop tôt, et ils auraient dû faire comme Anthropic : se concentrer sur les modèles, gagner d’abord, puis se lancer dans ce type de projet une fois la rentabilité atteinte
Dans l’IA, l’énergie constitue un plafond dur, ce qui rend cela risqué pour OpenAI
Si vous disposez de 1 GW, il faut installer les meilleures puces possibles, et si les puces Nvidia sont meilleures, alors ce projet revient à gaspiller des milliards de dollars
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
Le problème, c’est que la phrase peut ne vouloir dire que la seconde chose tout en étant formulée pour sonner comme la première, ce qui la rend difficile à croire
Cela n’a pas besoin d’être révolutionnaire : une conception assistée par IA a peut-être simplement été suffisamment efficace pour justifier la création d’un ASIC sur mesure
Même si ce n’était pas mentionné dans le billet d’OpenAI, il semble presque certain que la puce sera fabriquée par TSMC [1]
Je n’étais pas certain qu’Intel s’en chargeait
Broadcom a gagné énormément d’argent en devenant le partenaire matériel TPU de Google et en partageant avec Google la capacité de production de TSMC, et il semble maintenant faire la même chose avec OpenAI
C’est une manière vraiment intelligente de profiter de la ruée vers l’or de l’IA
J’espère simplement qu’ils n’utiliseront pas cet argent pour pressurer l’industrie du logiciel comme ils l’ont fait avec VMWare et Bitnami
J’aimerais voir une puce d’inférence où les poids seraient intégrés dans une partie de la ROM de la puce
un multiplicateur par poids, et comme ce sont des constantes, l’ensemble se transforme en simple grappe d’additionneurs, avec un débit entièrement pipeliné qui pourrait atteindre un token par cycle d’horloge
On pourrait alors servir des millions d’utilisateurs simultanément avec un seul morceau de silicium, et potentiellement sortir 500 millions de tokens par seconde sur le bus de sortie
L’inconvénient, c’est que la puce deviendrait énorme, au point d’occuper un wafer entier
Les défauts au niveau wafer ne seraient peut-être pas un si gros problème. Les réseaux neuronaux tolèrent plutôt bien l’absence ou l’erreur d’une partie des poids
Vu la vitesse du secteur, on pourrait probablement aller très vite des poids du modèle à la fabrication, produire 50 wafers, les utiliser un an puis les jeter quand le modèle devient obsolète
une technique où les données — ici les valeurs de multiplication — deviennent une partie du processeur, ici une partie du circuit de multiplication
Cela contourne totalement, au niveau architectural, le problème du « charger puis traiter »
Comme les données sont là où le calcul a lieu, elles ne se déplacent pas et il n’y a pas de latence
Cette approche semble mieux convenir aux petits modèles qu’aux modèles frontier. Les modèles de pointe changent trop vite
Ils ne sont pas allés aussi loin que ce qui est décrit ici : il y a énormément de cœurs et de RAM, mais les poids doivent toujours être chargés par logiciel et, pour les gros modèles, ils doivent être streamés dans la puce
Cela reste malgré tout une puce wafer-scale
Pour beaucoup de tâches, ça pourrait très bien marcher d’avoir les poids en ROM
En revanche, je ne suis pas sûr qu’avoir un multiplicateur par poids soit une bonne idée
Avec une quantification autour de 2 bits, ce serait peut-être faisable, sinon il vaudrait peut-être mieux mettre une petite ROM près de chaque multiplicateur ou de chaque ligne pour traiter N opérations matricielles différentes sans déplacer les données depuis loin
Une autre idée amusante serait d’ajouter une rangée d’unités MAC à la DRAM et d’utiliser les lignes DRAM comme vecteurs
Avec une taille de ligne de 64 Kbit, cela ferait 8K poids en 8 bits, et on pourrait garder à la fois les poids et le calcul sur la même puce
Je ne sais pas en revanche si on peut mettre suffisamment de multiplicateurs sur une seule puce
Les réseaux systoliques peuvent en avoir des dizaines voire des centaines de milliers, chacun effectuant une opération par cycle d’horloge
C’est passionnant parce qu’il semble rester énormément de gains d’efficacité possibles au niveau de la puce
Je suis curieux de savoir comment voir Taalas
Ils disent graver réellement le modèle LLM dans le silicium, avec un peu de mémoire embarquée pour le fine-tuning
Ils revendiquent de gros gains sur le coût et la latence
On peut voir une démo très rapide sur https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
C’est pour ça que Google a commencé à développer les TPU il y a plus de dix ans
Je me souviens de la controverse autour du licenciement de Timnit Gebru par Google, notamment à cause d’un article qui calculait l’impact environnemental des LLM en prenant les GPU comme référence et en ignorant l’efficacité des TPU
Vu l’ampleur de cet écart d’efficacité, Jeff Dean semblait très en colère
Dans ce cas, cela devient extrêmement difficile à vendre
L’idée d’embarquer dans la puce un modèle unique qui ne changera jamais ne me plaît pas
Je me demande de combien le silicium deviendrait plus cher si on utilisait une ROM réinscriptible pour les poids
Cela permettrait de faire du fine-tuning du modèle ciblé par la conception et atténuerait la crainte de l’obsolescence du modèle
Pour un agent de code, c’est une amélioration significative, et pour la robotique, ce serait une révolution totale
Un modèle 8B n’est pas utile en usage général, mais il peut offrir une intelligence énorme dans des cas d’usage spécifiques
Le concurrent de Tesla/Waymo chez Nvidia repose sur un LLM 7B et un modèle de diffusion 2B ; si on pouvait faire tourner cela à cette vitesse, le coût pourrait tomber à un seul chiffre par rapport aux solutions existantes
On peut même soutenir qu’on est déjà proche de ce moment
Les hyperscalers comme AWS sauront bien exploiter ce type de puce pour servir des modèles qui resteront pertinents pendant plusieurs années
Mais pour l’instant, surtout avec les modèles à poids ouverts comme Deepseek/Kimi/GLM, la qualité des modèles fait encore de grands bonds tous les quelques mois
D’ici là, il est difficile de voir comment cette approche pourrait être plus rentable que du matériel généraliste
Et il est aussi probable qu’une version réduite de ce type de matériel arrive dans les appareils mobiles pour fournir des LLM on-device très rapides et très efficaces
Un mouvement assez important
Google et les TPU semblent en être à peu près à la 7e génération, et si l’on pense aussi aux tentatives dérivées comme les LPU ou le Wafer Scale Engine de Cerebras, cela donne l’impression qu’ils ont eu bien plus de clairvoyance
Cela dit, à première vue, cette puce semble viser non pas l’entraînement mais l’inférence, et c’est aussi un choix intéressant
À l’inverse, l’inférence est un coût récurrent et, avec le temps, elle consomme bien plus de ressources ; se concentrer sur une amélioration beaucoup plus forte de son efficacité est donc plus avantageux à long terme
Nvidia est le roi des puces généralistes pour l’entraînement, mais l’inférence peut être spécialisée
La fenêtre de contexte est petite et le modèle est ancien
Cela dit, ce serait bien si ça s’améliorait au point de permettre de profiter de GPT 5.5 à 1000 tokens par seconde
La formulation reste vague, mais les TPU avancent des affirmations similaires
Je pense que la note de Google « we have no moat » reste pertinente. Si vous ne connaissez pas, voir https://newsletter.semianalysis.com/p/google-we-have-no-moat...
La dynamique actuelle ressemble davantage à la course au hardware que se livraient IBM, DEC, Cray et Sun dans les années 60 à 90
L’histoire ne se répète pas, mais elle rime, et ces efforts semblent suivre une trajectoire similaire
Vu la vitesse des progrès de l’IA et le fait que l’IA aide à créer une IA plus rapide et meilleure, je continue à me demander si ce type de hardware deviendra obsolète avant d’avoir un retour sur investissement significatif
On peut déjà faire tourner d’énormes modèles d’IA avec moins de ressources grâce à la quantification et à l’offloading, mais ce n’est qu’un début
Un jour, peut-être pas si lointain, il pourrait y avoir une percée permettant de faire tourner correctement un très grand LLM de classe 200B sur un desktop Dell vieux de 5 ans
Cela peut sembler délirant, mais regardez la taille des premiers disques durs
L’IBM 350 stockait 3,5 Mb sur un disque composé de 50 plateaux de 24 pouces de diamètre, et il était loué 35 000 dollars en valeur actuelle
https://www.computerhistory.org/storageengine/first-commerci...
Comparez cela à un SSD de plusieurs téraoctets, puis appliquez la même amélioration aux architectures LLM actuelles et à leur mode d’exécution
Avec en plus l’aide de l’IA, une rupture pourrait survenir d’ici peu, et des datacenters entiers remplis de cartes Nvidia à l’état de l’art pourraient devenir dépassés presque du jour au lendemain
L’IBM 350 a été commercialisé il y a 70 ans, et il a fallu 70 ans pour qu’on puisse aujourd’hui le comparer à un SSD de plusieurs To
De plus, rien ne garantit que la loi de Moore s’appliquera forcément aux LLM pendant les prochaines décennies
Si les modèles plus grands sont toujours meilleurs, comme cela semble effectivement être le cas, on aura toujours besoin de hardware performant
Il existe bien les TPU, mais ils sont surtout destinés aux datacenters, et les GPU sont à l’origine des adaptations de puces conçues pour les applications graphiques
Si la demande des datacenters se tasse, l’innovation pourrait vraiment s’accélérer
Il y a un point dont on parle peu ici
Lors d’une interview, le CEO de Broadcom, Hock Tan, a déclaré que cet accélérateur affichait jusqu’à présent environ 50 % de réduction des coûts par rapport aux processeurs graphiques IA génériques actuels [0]
Le paysage évolue tellement vite et il reste encore tant de fruits à portée de main qu’il semble assez peu utile de débattre de quel fournisseur possède un moat ou peut rentabiliser son investissement
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
Cela peut très bien désigner des puces bien plus anciennes que celles que Nvidia vend actuellement
Si l’objectif est un « déploiement initial d’ici fin 2026, puis une montée en charge sur les années suivantes », cela ressemble à quelque chose qui figurera en très bonne place dans les documents commerciaux de l’IPO comme promesse d’avenir après l’IPO
Je regarde avec scepticisme toute annonce faite avant une IPO
Je ne serais même pas surpris si c’était une arnaque
Broadcom et Google sont évidemment déjà cotées
Microsoft, Google et Amazon font aussi ce genre de choses, mais eux disposent également de l’infrastructure de datacenter hyperscale pour héberger ces puces
Concevoir une puce et aller jusqu’au tape-out, puis gérer le packaging, le refroidissement, le déploiement, l’alimentation électrique et la gestion de flotte, ce sont des couches complètement différentes
Je me demande d’où viendra cette partie
Mise à jour : quelqu’un sur Twitter a dit que l’hébergement serait assuré à 50:50 par Microsoft et Oracle
J’avais déjà demandé à Opus 4.5 de concevoir un moteur d’inférence LLM en Verilog, avec firmware et vérification automatique : https://github.com/cpldcpu/smollm.c
Bien sûr, on est loin d’un résultat optimal, mais cela m’a confirmé qu’une approche consistant à descendre à un niveau d’abstraction plus bas pour aller jusqu’à l’implémentation est extrêmement puissante
Il me reste un Tang Nano 9k, mais je n’ai pas confiance au point de demander à Claude de me bricoler une solution en mode vibe coding sans compréhension, et j’aimerais au moins avoir les bases minimales