OpenAI dévoile Jalapeño, sa première puce de raisonnement conçue avec Broadcom

(techcrunch.com)

3 points par GN⁺ 3 시간 전 | 1 commentaires | Partager sur WhatsApp

Jalapeño est un accélérateur spécialisé pour l’inférence des LLM et le premier résultat d’une plateforme de calcul multigénérationnelle développée avec Broadcom
Seulement 9 mois entre le lancement de la conception et le tape-out de fabrication, ce qui en ferait le cycle de développement ASIC le plus rapide jamais vu dans les semi-conducteurs avancés haute performance
Lors des premiers tests, environ 50 % de réduction des coûts par rapport aux GPU IA généralistes, avec en plus une performance par watt nettement supérieure à l’état de l’art actuel
Cela s’inscrit dans une stratégie full stack où tout est conçu en interne, de l’architecture de la puce aux kernels, à la mémoire et au réseau, avec pour objectif de réduire la dépendance aux GPU Nvidia et d’aller au-delà d’un éditeur logiciel pour devenir un opérateur d’infrastructure IA
Déploiement prévu à partir de fin 2026 dans des datacenters à l’échelle du gigawatt avec des partenaires comme Microsoft, ce qui prend un relief particulier alors qu’OpenAI doit démontrer sa rentabilité avant une IPO potentielle de 1 000 milliards de dollars

Présentation de la puce Jalapeño

Mercredi, OpenAI et Broadcom (NASDAQ: AVGO) ont dévoilé Jalapeño, le premier processeur d’intelligence d’OpenAI
Il s’agit d’un accélérateur conçu pour l’avenir de l’inférence des LLM, et du premier accélérateur IA de la plateforme de calcul multigénérationnelle que les deux entreprises développent ensemble
Le président-directeur général de Broadcom Hock Tan et son président Charlie Kawwas ont remis en main propre des échantillons de la puce au CEO d’OpenAI Sam Altman et à son président Greg Brockman
Une étape importante dans la stratégie d’OpenAI, qui veut dépasser les produits grand public pour devenir un opérateur d’infrastructure IA

Structure et performances de la puce

Jalapeño n’est pas une puce généraliste adaptée à partir d’un accélérateur pour charges de travail IA existant, mais une conception from scratch destinée à l’inférence des LLM modernes
Il s’agit d’un ASIC pouvant être conçu pour des tâches IA spécifiques, moins flexible qu’un GPU Nvidia mais moins coûteux
Performances et efficacité
- Lors des premiers tests, environ 50 % de réduction des coûts par rapport à un GPU IA généraliste (interview de Hock Tan)
- Les performances finales sont encore en cours de mesure, mais la performance par watt apparaît déjà en nette progression par rapport à l’état de l’art actuel
- En réduisant les mouvements de données et en équilibrant calcul, mémoire et ressources réseau, la puce permet d’approcher dans la pratique le maximum théorique de performance
- L’image de la puce publiée montre 8 emplacements HBM et un die de calcul central
Validation du fonctionnement
- Des échantillons d’ingénierie exécutent déjà des charges ML à la fréquence et à la puissance visées pour la production, notamment GPT‑5.3‑Codex‑Spark
- Un rapport technique détaillé doit être publié dans les prochains mois
- L’implémentation silicium de Broadcom et son silicium réseau Tomahawk doivent soutenir la production à grande échelle

Tape-out en 9 mois, accéléré par les modèles d’OpenAI

Le développement conjoint n’a pris que 9 mois entre la conception initiale et le tape-out de fabrication, ce qui pourrait constituer le cycle de développement ASIC le plus rapide jamais observé dans les semi-conducteurs avancés haute performance
OpenAI a utilisé en partie ses propres modèles dans le processus de conception et d’optimisation, et Brockman a déclaré que le degré d’accélération apporté par les modèles était « stupéfiant »
Les mêmes modèles proposés aux utilisateurs contribueront à l’avenir à améliorer l’infrastructure qui les exécute
Si l’IA aide les ingénieurs à concevoir des puces plus rapidement, cela pourrait réduire les coûts de calcul à l’échelle du secteur et élargir l’accès à l’IA avancée

Plateforme multigénérationnelle et partenaires

Jalapeño constitue la première étape d’une plateforme de calcul multigénérationnelle appelée à s’étendre sur plusieurs années, avec un premier déploiement visé pour fin 2026
Structure de la collaboration
- OpenAI — conception de l’accélérateur, fondée sur une compréhension approfondie des bases des LLM
- Broadcom — implémentation de la puce, technologies réseau et d’interconnexion
- Celestica — expertise en cartes, racks et intégration système
L’an dernier, OpenAI et Broadcom avaient annoncé un plan de développement de puces sur mesure pour une capacité de calcul de 10 gigawatts ; cette puce en est aujourd’hui la première concrétisation
Une demande explosive
- Le CEO de Broadcom Hock Tan a indiqué qu’à partir de 2026, cette puce permettra des déploiements dans des datacenters à l’échelle du gigawatt avec des partenaires comme Microsoft, avec un petit prototype fin 2026 avant montée en puissance
- Brockman a déclaré que « nous n’arrivons pas à obtenir assez de calcul assez vite », tandis que Tan a affirmé que la demande de six clients était « tout simplement impossible à satisfaire » et qu’elle resterait identique ou plus forte encore en 2027 et 2028
- Le responsable du programme matériel d’OpenAI, Richard Ho, a expliqué que l’architecture avait été optimisée autour des kernels, des mouvements mémoire, du réseau et des schémas de serving les plus critiques pour les modèles d’IA de pointe

Stratégie full stack et paysage concurrentiel

OpenAI ne se contente plus de développer des modèles de pointe et des produits : l’entreprise conçoit désormais directement l’infrastructure sous-jacente — y compris l’architecture des puces, les kernels, le système mémoire, le réseau, l’ordonnancement, les systèmes de déploiement et l’expérience produit
Elle rejoint ainsi les acteurs IA full stack dotés de leur propre silicium, comme Google (TPU), Amazon (Trainium) et Microsoft (Azure Maia 100)
Réduction de la dépendance à Nvidia
- « Personne ne veut être dépendant de Nvidia » (Ben Barringer, directeur de la recherche technologique chez Quilter Cheviot), dans une dynamique de diversification des sources d’approvisionnement en puces
- OpenAI est l’un des plus gros clients de Nvidia, tout en ayant aussi signé des accords d’approvisionnement avec AMD (série Instinct MI450), Cerebras et d’autres
Enjeux business
- Alors que Nvidia est devenue l’entreprise la mieux valorisée au monde grâce à sa fourniture de composants clés pour les datacenters IA, le potentiel de rentabilité du marché de l’infrastructure IA apparaît de plus en plus clairement
- Pour OpenAI, dont une IPO à une valorisation évoquée de 1 000 milliards de dollars est régulièrement mentionnée, la baisse du coût de l’inférence est cruciale pour amortir ses énormes dépenses d’entraînement et démontrer sa rentabilité
- L’action Broadcom progresse depuis le début de 2026 et vaut environ sept fois plus qu’à la fin 2022, reflet des bénéfices attendus de cette collaboration

Démocratiser l’IA avancée

L’inférence est le point de contact entre l’IA et l’humain : améliorer les coûts, la vitesse et la fiabilité se traduit directement par des réponses ChatGPT plus rapides, des tâches Codex sans attente, des produits API moins chers et un accès plus stable lors des pics de demande
Rendre les modèles avancés disponibles, stables et abordables au point que davantage de personnes puissent les utiliser chaque jour est au cœur de la démocratisation de l’IA
Cela contribuera à transformer l’infrastructure en intelligence utile pour les étudiants, développeurs, petits entrepreneurs, chercheurs, entreprises et tous ceux qui veulent apprendre, créer et résoudre des problèmes difficiles

1 commentaires

GN⁺ 3 시간 전

Avis sur Hacker News

J’aimerais voir plus de détails sur le passage disant qu’« ils ont accéléré la conception et l’optimisation avec des modèles OpenAI »
En l’état, cela ressemble à une formule marketing, un peu comme dire que le développement a été plus rapide grâce à Microsoft Office ou à un moniteur LG Ultrafine 5K de 40 pouces
Si c’était vraiment aussi important que ce que cela laisse entendre, OpenAI l’aurait probablement beaucoup plus mis en avant
- Du point de vue d’un CEO de société de puces, tout dépend entièrement de ce que signifient ici « conception » et « production »
  On ne sait pas clairement si « conception » signifie conception terminée, ni si « production » signifie démarrage de la production, c’est-à-dire le tape-out
  Si l’on parle de 9 mois entre le gel du RTL et le tape-out, c’est plutôt banal pour une grosse puce 3 nm complexe, et même à peine impressionnant si l’on tient compte des problèmes imprévus
  En revanche, si l’on parle du passage de la phase de concept — autrement dit avec seulement un schéma d’architecture sans RTL — jusqu’au tape-out, alors là ce serait remarquable, et la réalité se situe probablement quelque part entre les deux
  Une annonce plus précise devrait utiliser de vrais jalons et gates techniques
- Les langages de description matérielle (HDL) utilisés pour développer des puces ressemblent à des langages de programmation, et les modèles existants les comprennent déjà assez bien pour accomplir pas mal de choses
  Il n’est pas forcément nécessaire d’avoir un modèle spécialisé distinct pour utiliser des grands modèles de langage dans le flux de travail de conception de puces
  La vérification de conception implique elle aussi beaucoup de programmation traditionnelle, donc les grands modèles de langage peuvent aussi y aider
  Ce n’est pas du tout dénué de sens, et aujourd’hui, si l’on télécharge un logiciel open source de conception de puces, un grand modèle de langage peut même aider à démarrer directement sur une petite puce
- Broadcom possède déjà beaucoup d’IP pour les SoC IA
  Les parties difficiles de cette puce d’inférence ont probablement déjà été conçues par Broadcom, et OpenAI s’est sans doute contenté de transmettre à Broadcom les spécifications souhaitées
  Cela ressemble probablement aussi beaucoup à un Google TPU
  Ils disent que « l’accélérateur de première génération augmentera sensiblement les performances par watt par rapport à l’état de l’art actuel », et je me demande ce que signifie exactement « sensiblement »
  Vera Rubin doit être expédié en volume d’ici la fin de l’année, et on s’attend à ce qu’il soit 10 fois plus efficace énergétiquement en inférence que Blackwell[0]
  Même si le tape-out a déjà eu lieu, il faudra probablement au moins 12 mois, voire plus, pour corriger les bugs, fabriquer les puces, obtenir l’allocation HBM, concevoir les racks, l’interconnexion et le déploiement en datacenter
  Au moment où cette puce sera déployée en volume dans les datacenters, elle pourrait bien se retrouver à concurrencer Vera Rubin Ultra ou Feynman
  Personnellement, je pense qu’OpenAI n’aurait pas dû investir dans ce projet
  C’est encore trop tôt, et ils auraient dû faire comme Anthropic : se concentrer sur les modèles, gagner d’abord, puis se lancer dans ce type de projet une fois la rentabilité atteinte
  Dans l’IA, l’énergie constitue un plafond dur, ce qui rend cela risqué pour OpenAI
  Si vous disposez de 1 GW, il faut installer les meilleures puces possibles, et si les puces Nvidia sont meilleures, alors ce projet revient à gaspiller des milliards de dollars
  [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
- Il y a essentiellement deux interprétations possibles, plus la blague entre les deux
  1. OpenAI dispose réellement de techniques d’IA capables d’améliorer la conception de puces — une affirmation audacieuse et peu probable, qui exige des preuves
  2. OpenAI conçoit les modèles et kernels de test et de validation qui serviront à mesurer les performances sur le matériel de simulation
    Le problème, c’est que la phrase peut ne vouloir dire que la seconde chose tout en étant formulée pour sonner comme la première, ce qui la rend difficile à croire
- Verilog est déjà largement public, donc il est tout à fait possible qu’ils aient conçu la puce en écrivant davantage de Verilog avec l’aide de l’IA
  Cela n’a pas besoin d’être révolutionnaire : une conception assistée par IA a peut-être simplement été suffisamment efficace pour justifier la création d’un ASIC sur mesure
Même si ce n’était pas mentionné dans le billet d’OpenAI, il semble presque certain que la puce sera fabriquée par TSMC [1]
Je n’étais pas certain qu’Intel s’en chargeait
1. https://www.investing.com/news/stock-market-news/openai-unve...
- D’après une affirmation vue sur Twitter, si des entreprises comme Google, Amazon et OpenAI passent par Broadcom, ce n’est pas seulement pour ses capacités de conception, mais aussi parce que Broadcom dispose d’accords d’allocation avec TSMC et les fabricants de mémoire
- Le puzzle ne s’est assemblé que récemment
  Broadcom a gagné énormément d’argent en devenant le partenaire matériel TPU de Google et en partageant avec Google la capacité de production de TSMC, et il semble maintenant faire la même chose avec OpenAI
  C’est une manière vraiment intelligente de profiter de la ruée vers l’or de l’IA
  J’espère simplement qu’ils n’utiliseront pas cet argent pour pressurer l’industrie du logiciel comme ils l’ont fait avec VMWare et Bitnami
J’aimerais voir une puce d’inférence où les poids seraient intégrés dans une partie de la ROM de la puce
un multiplicateur par poids, et comme ce sont des constantes, l’ensemble se transforme en simple grappe d’additionneurs, avec un débit entièrement pipeliné qui pourrait atteindre un token par cycle d’horloge
On pourrait alors servir des millions d’utilisateurs simultanément avec un seul morceau de silicium, et potentiellement sortir 500 millions de tokens par seconde sur le bus de sortie
L’inconvénient, c’est que la puce deviendrait énorme, au point d’occuper un wafer entier
Les défauts au niveau wafer ne seraient peut-être pas un si gros problème. Les réseaux neuronaux tolèrent plutôt bien l’absence ou l’erreur d’une partie des poids
Vu la vitesse du secteur, on pourrait probablement aller très vite des poids du modèle à la fabrication, produire 50 wafers, les utiliser un an puis les jeter quand le modèle devient obsolète
- Plus précisément, cela renvoie moins à l’idée de mettre les poids en ROM qu’au calcul en mémoire (CIM)
  une technique où les données — ici les valeurs de multiplication — deviennent une partie du processeur, ici une partie du circuit de multiplication
  Cela contourne totalement, au niveau architectural, le problème du « charger puis traiter »
  Comme les données sont là où le calcul a lieu, elles ne se déplacent pas et il n’y a pas de latence
- Il y a déjà eu https://taalas.com/ il y a quelque temps, et il doit y avoir d’autres acteurs qui réfléchissent dans la même direction
  Cette approche semble mieux convenir aux petits modèles qu’aux modèles frontier. Les modèles de pointe changent trop vite
- Je me demande si vous avez regardé Cerebras
  Ils ne sont pas allés aussi loin que ce qui est décrit ici : il y a énormément de cœurs et de RAM, mais les poids doivent toujours être chargés par logiciel et, pour les gros modèles, ils doivent être streamés dans la puce
  Cela reste malgré tout une puce wafer-scale
- L’idée de mettre les poids en ROM me trotte dans la tête depuis un moment
  Pour beaucoup de tâches, ça pourrait très bien marcher d’avoir les poids en ROM
  En revanche, je ne suis pas sûr qu’avoir un multiplicateur par poids soit une bonne idée
  Avec une quantification autour de 2 bits, ce serait peut-être faisable, sinon il vaudrait peut-être mieux mettre une petite ROM près de chaque multiplicateur ou de chaque ligne pour traiter N opérations matricielles différentes sans déplacer les données depuis loin
  Une autre idée amusante serait d’ajouter une rangée d’unités MAC à la DRAM et d’utiliser les lignes DRAM comme vecteurs
  Avec une taille de ligne de 64 Kbit, cela ferait 8K poids en 8 bits, et on pourrait garder à la fois les poids et le calcul sur la même puce
  Je ne sais pas en revanche si on peut mettre suffisamment de multiplicateurs sur une seule puce
  Les réseaux systoliques peuvent en avoir des dizaines voire des centaines de milliers, chacun effectuant une opération par cycle d’horloge
- On dit souvent que les memristors seraient idéaux pour cet usage et qu’ils seraient reprogrammables, mais les memristors ressemblent aux nanotubes de carbone du monde du calcul
C’est passionnant parce qu’il semble rester énormément de gains d’efficacité possibles au niveau de la puce
Je suis curieux de savoir comment voir Taalas
Ils disent graver réellement le modèle LLM dans le silicium, avec un peu de mémoire embarquée pour le fine-tuning
Ils revendiquent de gros gains sur le coût et la latence
On peut voir une démo très rapide sur https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
- Si on s’en tient exclusivement à des GPU généralistes, on passe forcément à côté de beaucoup d’efficacité
  C’est pour ça que Google a commencé à développer les TPU il y a plus de dix ans
  Je me souviens de la controverse autour du licenciement de Timnit Gebru par Google, notamment à cause d’un article qui calculait l’impact environnemental des LLM en prenant les GPU comme référence et en ignorant l’efficacité des TPU
  Vu l’ampleur de cet écart d’efficacité, Jeff Dean semblait très en colère
- Ce serait formidable de voir davantage de choses de ce type, mais la capacité à se mettre à jour vers un modèle entièrement nouveau à chaque sortie me paraît limitée
  Dans ce cas, cela devient extrêmement difficile à vendre
- C’est techniquement intéressant, mais il semble manquer beaucoup trop de détails
  L’idée d’embarquer dans la puce un modèle unique qui ne changera jamais ne me plaît pas
  Je me demande de combien le silicium deviendrait plus cher si on utilisait une ROM réinscriptible pour les poids
  Cela permettrait de faire du fine-tuning du modèle ciblé par la conception et atténuerait la crainte de l’obsolescence du modèle
- 17k tokens/s dans un chatbot, c’est impressionnant, mais c’est une démo presque inutile
  Pour un agent de code, c’est une amélioration significative, et pour la robotique, ce serait une révolution totale
  Un modèle 8B n’est pas utile en usage général, mais il peut offrir une intelligence énorme dans des cas d’usage spécifiques
  Le concurrent de Tesla/Waymo chez Nvidia repose sur un LLM 7B et un modèle de diffusion 2B ; si on pouvait faire tourner cela à cette vitesse, le coût pourrait tomber à un seul chiffre par rapport aux solutions existantes
- Quand on arrivera à un point où les progrès des modèles ralentiront fortement, ce genre de matériel deviendra probablement l’avenir des fournisseurs de LLM
  On peut même soutenir qu’on est déjà proche de ce moment
  Les hyperscalers comme AWS sauront bien exploiter ce type de puce pour servir des modèles qui resteront pertinents pendant plusieurs années
  Mais pour l’instant, surtout avec les modèles à poids ouverts comme Deepseek/Kimi/GLM, la qualité des modèles fait encore de grands bonds tous les quelques mois
  D’ici là, il est difficile de voir comment cette approche pourrait être plus rentable que du matériel généraliste
  Et il est aussi probable qu’une version réduite de ce type de matériel arrive dans les appareils mobiles pour fournir des LLM on-device très rapides et très efficaces
Un mouvement assez important
Google et les TPU semblent en être à peu près à la 7e génération, et si l’on pense aussi aux tentatives dérivées comme les LPU ou le Wafer Scale Engine de Cerebras, cela donne l’impression qu’ils ont eu bien plus de clairvoyance
Cela dit, à première vue, cette puce semble viser non pas l’entraînement mais l’inférence, et c’est aussi un choix intéressant
- L’entraînement est presque un coût ponctuel, et son efficacité baisse déjà grâce aux améliorations d’architecture
  À l’inverse, l’inférence est un coût récurrent et, avec le temps, elle consomme bien plus de ressources ; se concentrer sur une amélioration beaucoup plus forte de son efficacité est donc plus avantageux à long terme
- J’estime désormais que le coût de l’inférence dépasse celui de l’entraînement
  Nvidia est le roi des puces généralistes pour l’entraînement, mais l’inférence peut être spécialisée
- Le Codex Spark 5.3 de Cerebras a été un gros échec
  La fenêtre de contexte est petite et le modèle est ancien
  Cela dit, ce serait bien si ça s’améliorait au point de permettre de profiter de GPT 5.5 à 1000 tokens par seconde
- Ils disent que « lors des premiers tests, Jalapeño augmentera nettement les performances par watt par rapport à l’état de l’art actuel », et on commence à voir ici ce qui compte vraiment
  La formulation reste vague, mais les TPU avancent des affirmations similaires
  Je pense que la note de Google « we have no moat » reste pertinente. Si vous ne connaissez pas, voir https://newsletter.semianalysis.com/p/google-we-have-no-moat...
  La dynamique actuelle ressemble davantage à la course au hardware que se livraient IBM, DEC, Cray et Sun dans les années 60 à 90
  L’histoire ne se répète pas, mais elle rime, et ces efforts semblent suivre une trajectoire similaire
Vu la vitesse des progrès de l’IA et le fait que l’IA aide à créer une IA plus rapide et meilleure, je continue à me demander si ce type de hardware deviendra obsolète avant d’avoir un retour sur investissement significatif
On peut déjà faire tourner d’énormes modèles d’IA avec moins de ressources grâce à la quantification et à l’offloading, mais ce n’est qu’un début
Un jour, peut-être pas si lointain, il pourrait y avoir une percée permettant de faire tourner correctement un très grand LLM de classe 200B sur un desktop Dell vieux de 5 ans
Cela peut sembler délirant, mais regardez la taille des premiers disques durs
L’IBM 350 stockait 3,5 Mb sur un disque composé de 50 plateaux de 24 pouces de diamètre, et il était loué 35 000 dollars en valeur actuelle
https://www.computerhistory.org/storageengine/first-commerci...
Comparez cela à un SSD de plusieurs téraoctets, puis appliquez la même amélioration aux architectures LLM actuelles et à leur mode d’exécution
Avec en plus l’aide de l’IA, une rupture pourrait survenir d’ici peu, et des datacenters entiers remplis de cartes Nvidia à l’état de l’art pourraient devenir dépassés presque du jour au lendemain
- S’il existe une telle percée, on pourrait aussi faire tourner un modèle 200T dans les datacenters actuels de la même manière, non ?
- C’est une idée intéressante, mais la comparaison avec les disques durs n’est probablement pas équitable
  L’IBM 350 a été commercialisé il y a 70 ans, et il a fallu 70 ans pour qu’on puisse aujourd’hui le comparer à un SSD de plusieurs To
  De plus, rien ne garantit que la loi de Moore s’appliquera forcément aux LLM pendant les prochaines décennies
- À cause du paradoxe de Jevons et des lois de scaling, je ne pense pas que ce soit le cas
  Si les modèles plus grands sont toujours meilleurs, comme cela semble effectivement être le cas, on aura toujours besoin de hardware performant
- Les percées en informatique augmentent généralement l’usage de l’informatique au lieu de le réduire
- J’ai l’impression qu’un jour il y aura du hardware dédié aux LLM en dehors des GPU
  Il existe bien les TPU, mais ils sont surtout destinés aux datacenters, et les GPU sont à l’origine des adaptations de puces conçues pour les applications graphiques
  Si la demande des datacenters se tasse, l’innovation pourrait vraiment s’accélérer
Il y a un point dont on parle peu ici
Lors d’une interview, le CEO de Broadcom, Hock Tan, a déclaré que cet accélérateur affichait jusqu’à présent environ 50 % de réduction des coûts par rapport aux processeurs graphiques IA génériques actuels [0]
Le paysage évolue tellement vite et il reste encore tant de fruits à portée de main qu’il semble assez peu utile de débattre de quel fournisseur possède un moat ou peut rentabiliser son investissement
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
- Si la marge des GPU est de 75 %, ce n’est pas étonnant que ce soit 50 % moins cher
- Le mot « génériques » fait beaucoup de travail ici
  Cela peut très bien désigner des puces bien plus anciennes que celles que Nvidia vend actuellement
Si l’objectif est un « déploiement initial d’ici fin 2026, puis une montée en charge sur les années suivantes », cela ressemble à quelque chose qui figurera en très bonne place dans les documents commerciaux de l’IPO comme promesse d’avenir après l’IPO
Je regarde avec scepticisme toute annonce faite avant une IPO
- La narration donne l’impression d’une mise en scène pré-IPO, et l’objet ressemble à un couvercle de panier à linge
  Je ne serais même pas surpris si c’était une arnaque
- Je ne sais pas de quelle IPO il s’agit
  Broadcom et Google sont évidemment déjà cotées
Microsoft, Google et Amazon font aussi ce genre de choses, mais eux disposent également de l’infrastructure de datacenter hyperscale pour héberger ces puces
Concevoir une puce et aller jusqu’au tape-out, puis gérer le packaging, le refroidissement, le déploiement, l’alimentation électrique et la gestion de flotte, ce sont des couches complètement différentes
Je me demande d’où viendra cette partie
- Il ne faut pas oublier Stargate
  Mise à jour : quelqu’un sur Twitter a dit que l’hébergement serait assuré à 50:50 par Microsoft et Oracle
J’avais déjà demandé à Opus 4.5 de concevoir un moteur d’inférence LLM en Verilog, avec firmware et vérification automatique : https://github.com/cpldcpu/smollm.c
Bien sûr, on est loin d’un résultat optimal, mais cela m’a confirmé qu’une approche consistant à descendre à un niveau d’abstraction plus bas pour aller jusqu’à l’implémentation est extrêmement puissante
- Je me demande si quelqu’un peut recommander un tutoriel intéressant pour apprendre Verilog et les FPGA de manière générale
  Il me reste un Tang Nano 9k, mais je n’ai pas confiance au point de demander à Claude de me bricoler une solution en mode vibe coding sans compréhension, et j’aimerais au moins avoir les bases minimales

OpenAI dévoile Jalapeño, sa première puce de raisonnement conçue avec Broadcom

Présentation de la puce Jalapeño

Structure et performances de la puce

Performances et efficacité

Validation du fonctionnement

Tape-out en 9 mois, accéléré par les modèles d’OpenAI

Plateforme multigénérationnelle et partenaires

Structure de la collaboration

Une demande explosive

Stratégie full stack et paysage concurrentiel

Réduction de la dépendance à Nvidia

Enjeux business

Démocratiser l’IA avancée

À lire aussi

1 commentaires

Avis sur Hacker News