3 points par GN⁺ 3 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Jalapeño est un accélérateur spécialisé pour l’inférence des LLM et le premier résultat d’une plateforme de calcul multigénérationnelle développée avec Broadcom
  • Seulement 9 mois entre le lancement de la conception et le tape-out de fabrication, ce qui en ferait le cycle de développement ASIC le plus rapide jamais vu dans les semi-conducteurs avancés haute performance
  • Lors des premiers tests, environ 50 % de réduction des coûts par rapport aux GPU IA généralistes, avec en plus une performance par watt nettement supérieure à l’état de l’art actuel
  • Cela s’inscrit dans une stratégie full stack où tout est conçu en interne, de l’architecture de la puce aux kernels, à la mémoire et au réseau, avec pour objectif de réduire la dépendance aux GPU Nvidia et d’aller au-delà d’un éditeur logiciel pour devenir un opérateur d’infrastructure IA
  • Déploiement prévu à partir de fin 2026 dans des datacenters à l’échelle du gigawatt avec des partenaires comme Microsoft, ce qui prend un relief particulier alors qu’OpenAI doit démontrer sa rentabilité avant une IPO potentielle de 1 000 milliards de dollars

Présentation de la puce Jalapeño

  • Mercredi, OpenAI et Broadcom (NASDAQ: AVGO) ont dévoilé Jalapeño, le premier processeur d’intelligence d’OpenAI
  • Il s’agit d’un accélérateur conçu pour l’avenir de l’inférence des LLM, et du premier accélérateur IA de la plateforme de calcul multigénérationnelle que les deux entreprises développent ensemble
  • Le président-directeur général de Broadcom Hock Tan et son président Charlie Kawwas ont remis en main propre des échantillons de la puce au CEO d’OpenAI Sam Altman et à son président Greg Brockman
  • Une étape importante dans la stratégie d’OpenAI, qui veut dépasser les produits grand public pour devenir un opérateur d’infrastructure IA

Structure et performances de la puce

  • Jalapeño n’est pas une puce généraliste adaptée à partir d’un accélérateur pour charges de travail IA existant, mais une conception from scratch destinée à l’inférence des LLM modernes
  • Il s’agit d’un ASIC pouvant être conçu pour des tâches IA spécifiques, moins flexible qu’un GPU Nvidia mais moins coûteux
  • Performances et efficacité

    • Lors des premiers tests, environ 50 % de réduction des coûts par rapport à un GPU IA généraliste (interview de Hock Tan)
    • Les performances finales sont encore en cours de mesure, mais la performance par watt apparaît déjà en nette progression par rapport à l’état de l’art actuel
    • En réduisant les mouvements de données et en équilibrant calcul, mémoire et ressources réseau, la puce permet d’approcher dans la pratique le maximum théorique de performance
    • L’image de la puce publiée montre 8 emplacements HBM et un die de calcul central
  • Validation du fonctionnement

    • Des échantillons d’ingénierie exécutent déjà des charges ML à la fréquence et à la puissance visées pour la production, notamment GPT‑5.3‑Codex‑Spark
    • Un rapport technique détaillé doit être publié dans les prochains mois
    • L’implémentation silicium de Broadcom et son silicium réseau Tomahawk doivent soutenir la production à grande échelle

Tape-out en 9 mois, accéléré par les modèles d’OpenAI

  • Le développement conjoint n’a pris que 9 mois entre la conception initiale et le tape-out de fabrication, ce qui pourrait constituer le cycle de développement ASIC le plus rapide jamais observé dans les semi-conducteurs avancés haute performance
  • OpenAI a utilisé en partie ses propres modèles dans le processus de conception et d’optimisation, et Brockman a déclaré que le degré d’accélération apporté par les modèles était « stupéfiant »
  • Les mêmes modèles proposés aux utilisateurs contribueront à l’avenir à améliorer l’infrastructure qui les exécute
  • Si l’IA aide les ingénieurs à concevoir des puces plus rapidement, cela pourrait réduire les coûts de calcul à l’échelle du secteur et élargir l’accès à l’IA avancée

Plateforme multigénérationnelle et partenaires

  • Jalapeño constitue la première étape d’une plateforme de calcul multigénérationnelle appelée à s’étendre sur plusieurs années, avec un premier déploiement visé pour fin 2026
  • Structure de la collaboration

    • OpenAI — conception de l’accélérateur, fondée sur une compréhension approfondie des bases des LLM
    • Broadcom — implémentation de la puce, technologies réseau et d’interconnexion
    • Celestica — expertise en cartes, racks et intégration système
  • L’an dernier, OpenAI et Broadcom avaient annoncé un plan de développement de puces sur mesure pour une capacité de calcul de 10 gigawatts ; cette puce en est aujourd’hui la première concrétisation
  • Une demande explosive

    • Le CEO de Broadcom Hock Tan a indiqué qu’à partir de 2026, cette puce permettra des déploiements dans des datacenters à l’échelle du gigawatt avec des partenaires comme Microsoft, avec un petit prototype fin 2026 avant montée en puissance
    • Brockman a déclaré que « nous n’arrivons pas à obtenir assez de calcul assez vite », tandis que Tan a affirmé que la demande de six clients était « tout simplement impossible à satisfaire » et qu’elle resterait identique ou plus forte encore en 2027 et 2028
    • Le responsable du programme matériel d’OpenAI, Richard Ho, a expliqué que l’architecture avait été optimisée autour des kernels, des mouvements mémoire, du réseau et des schémas de serving les plus critiques pour les modèles d’IA de pointe

Stratégie full stack et paysage concurrentiel

  • OpenAI ne se contente plus de développer des modèles de pointe et des produits : l’entreprise conçoit désormais directement l’infrastructure sous-jacente — y compris l’architecture des puces, les kernels, le système mémoire, le réseau, l’ordonnancement, les systèmes de déploiement et l’expérience produit
  • Elle rejoint ainsi les acteurs IA full stack dotés de leur propre silicium, comme Google (TPU), Amazon (Trainium) et Microsoft (Azure Maia 100)
  • Réduction de la dépendance à Nvidia

    • « Personne ne veut être dépendant de Nvidia » (Ben Barringer, directeur de la recherche technologique chez Quilter Cheviot), dans une dynamique de diversification des sources d’approvisionnement en puces
    • OpenAI est l’un des plus gros clients de Nvidia, tout en ayant aussi signé des accords d’approvisionnement avec AMD (série Instinct MI450), Cerebras et d’autres
  • Enjeux business

    • Alors que Nvidia est devenue l’entreprise la mieux valorisée au monde grâce à sa fourniture de composants clés pour les datacenters IA, le potentiel de rentabilité du marché de l’infrastructure IA apparaît de plus en plus clairement
    • Pour OpenAI, dont une IPO à une valorisation évoquée de 1 000 milliards de dollars est régulièrement mentionnée, la baisse du coût de l’inférence est cruciale pour amortir ses énormes dépenses d’entraînement et démontrer sa rentabilité
    • L’action Broadcom progresse depuis le début de 2026 et vaut environ sept fois plus qu’à la fin 2022, reflet des bénéfices attendus de cette collaboration

Démocratiser l’IA avancée

  • L’inférence est le point de contact entre l’IA et l’humain : améliorer les coûts, la vitesse et la fiabilité se traduit directement par des réponses ChatGPT plus rapides, des tâches Codex sans attente, des produits API moins chers et un accès plus stable lors des pics de demande
  • Rendre les modèles avancés disponibles, stables et abordables au point que davantage de personnes puissent les utiliser chaque jour est au cœur de la démocratisation de l’IA
  • Cela contribuera à transformer l’infrastructure en intelligence utile pour les étudiants, développeurs, petits entrepreneurs, chercheurs, entreprises et tous ceux qui veulent apprendre, créer et résoudre des problèmes difficiles

1 commentaires

 
GN⁺ 3 시간 전
Avis sur Hacker News
  • J’aimerais voir plus de détails sur le passage disant qu’« ils ont accéléré la conception et l’optimisation avec des modèles OpenAI »
    En l’état, cela ressemble à une formule marketing, un peu comme dire que le développement a été plus rapide grâce à Microsoft Office ou à un moniteur LG Ultrafine 5K de 40 pouces
    Si c’était vraiment aussi important que ce que cela laisse entendre, OpenAI l’aurait probablement beaucoup plus mis en avant

    • Du point de vue d’un CEO de société de puces, tout dépend entièrement de ce que signifient ici « conception » et « production »
      On ne sait pas clairement si « conception » signifie conception terminée, ni si « production » signifie démarrage de la production, c’est-à-dire le tape-out
      Si l’on parle de 9 mois entre le gel du RTL et le tape-out, c’est plutôt banal pour une grosse puce 3 nm complexe, et même à peine impressionnant si l’on tient compte des problèmes imprévus
      En revanche, si l’on parle du passage de la phase de concept — autrement dit avec seulement un schéma d’architecture sans RTL — jusqu’au tape-out, alors là ce serait remarquable, et la réalité se situe probablement quelque part entre les deux
      Une annonce plus précise devrait utiliser de vrais jalons et gates techniques
    • Les langages de description matérielle (HDL) utilisés pour développer des puces ressemblent à des langages de programmation, et les modèles existants les comprennent déjà assez bien pour accomplir pas mal de choses
      Il n’est pas forcément nécessaire d’avoir un modèle spécialisé distinct pour utiliser des grands modèles de langage dans le flux de travail de conception de puces
      La vérification de conception implique elle aussi beaucoup de programmation traditionnelle, donc les grands modèles de langage peuvent aussi y aider
      Ce n’est pas du tout dénué de sens, et aujourd’hui, si l’on télécharge un logiciel open source de conception de puces, un grand modèle de langage peut même aider à démarrer directement sur une petite puce
    • Broadcom possède déjà beaucoup d’IP pour les SoC IA
      Les parties difficiles de cette puce d’inférence ont probablement déjà été conçues par Broadcom, et OpenAI s’est sans doute contenté de transmettre à Broadcom les spécifications souhaitées
      Cela ressemble probablement aussi beaucoup à un Google TPU
      Ils disent que « l’accélérateur de première génération augmentera sensiblement les performances par watt par rapport à l’état de l’art actuel », et je me demande ce que signifie exactement « sensiblement »
      Vera Rubin doit être expédié en volume d’ici la fin de l’année, et on s’attend à ce qu’il soit 10 fois plus efficace énergétiquement en inférence que Blackwell[0]
      Même si le tape-out a déjà eu lieu, il faudra probablement au moins 12 mois, voire plus, pour corriger les bugs, fabriquer les puces, obtenir l’allocation HBM, concevoir les racks, l’interconnexion et le déploiement en datacenter
      Au moment où cette puce sera déployée en volume dans les datacenters, elle pourrait bien se retrouver à concurrencer Vera Rubin Ultra ou Feynman
      Personnellement, je pense qu’OpenAI n’aurait pas dû investir dans ce projet
      C’est encore trop tôt, et ils auraient dû faire comme Anthropic : se concentrer sur les modèles, gagner d’abord, puis se lancer dans ce type de projet une fois la rentabilité atteinte
      Dans l’IA, l’énergie constitue un plafond dur, ce qui rend cela risqué pour OpenAI
      Si vous disposez de 1 GW, il faut installer les meilleures puces possibles, et si les puces Nvidia sont meilleures, alors ce projet revient à gaspiller des milliards de dollars
      [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
    • Il y a essentiellement deux interprétations possibles, plus la blague entre les deux
      1. OpenAI dispose réellement de techniques d’IA capables d’améliorer la conception de puces — une affirmation audacieuse et peu probable, qui exige des preuves
      2. OpenAI conçoit les modèles et kernels de test et de validation qui serviront à mesurer les performances sur le matériel de simulation
        Le problème, c’est que la phrase peut ne vouloir dire que la seconde chose tout en étant formulée pour sonner comme la première, ce qui la rend difficile à croire
    • Verilog est déjà largement public, donc il est tout à fait possible qu’ils aient conçu la puce en écrivant davantage de Verilog avec l’aide de l’IA
      Cela n’a pas besoin d’être révolutionnaire : une conception assistée par IA a peut-être simplement été suffisamment efficace pour justifier la création d’un ASIC sur mesure
  • Même si ce n’était pas mentionné dans le billet d’OpenAI, il semble presque certain que la puce sera fabriquée par TSMC [1]
    Je n’étais pas certain qu’Intel s’en chargeait

    1. https://www.investing.com/news/stock-market-news/openai-unve...
    • D’après une affirmation vue sur Twitter, si des entreprises comme Google, Amazon et OpenAI passent par Broadcom, ce n’est pas seulement pour ses capacités de conception, mais aussi parce que Broadcom dispose d’accords d’allocation avec TSMC et les fabricants de mémoire
    • Le puzzle ne s’est assemblé que récemment
      Broadcom a gagné énormément d’argent en devenant le partenaire matériel TPU de Google et en partageant avec Google la capacité de production de TSMC, et il semble maintenant faire la même chose avec OpenAI
      C’est une manière vraiment intelligente de profiter de la ruée vers l’or de l’IA
      J’espère simplement qu’ils n’utiliseront pas cet argent pour pressurer l’industrie du logiciel comme ils l’ont fait avec VMWare et Bitnami
  • J’aimerais voir une puce d’inférence où les poids seraient intégrés dans une partie de la ROM de la puce
    un multiplicateur par poids, et comme ce sont des constantes, l’ensemble se transforme en simple grappe d’additionneurs, avec un débit entièrement pipeliné qui pourrait atteindre un token par cycle d’horloge
    On pourrait alors servir des millions d’utilisateurs simultanément avec un seul morceau de silicium, et potentiellement sortir 500 millions de tokens par seconde sur le bus de sortie
    L’inconvénient, c’est que la puce deviendrait énorme, au point d’occuper un wafer entier
    Les défauts au niveau wafer ne seraient peut-être pas un si gros problème. Les réseaux neuronaux tolèrent plutôt bien l’absence ou l’erreur d’une partie des poids
    Vu la vitesse du secteur, on pourrait probablement aller très vite des poids du modèle à la fabrication, produire 50 wafers, les utiliser un an puis les jeter quand le modèle devient obsolète

    • Plus précisément, cela renvoie moins à l’idée de mettre les poids en ROM qu’au calcul en mémoire (CIM)
      une technique où les données — ici les valeurs de multiplication — deviennent une partie du processeur, ici une partie du circuit de multiplication
      Cela contourne totalement, au niveau architectural, le problème du « charger puis traiter »
      Comme les données sont là où le calcul a lieu, elles ne se déplacent pas et il n’y a pas de latence
    • Il y a déjà eu https://taalas.com/ il y a quelque temps, et il doit y avoir d’autres acteurs qui réfléchissent dans la même direction
      Cette approche semble mieux convenir aux petits modèles qu’aux modèles frontier. Les modèles de pointe changent trop vite
    • Je me demande si vous avez regardé Cerebras
      Ils ne sont pas allés aussi loin que ce qui est décrit ici : il y a énormément de cœurs et de RAM, mais les poids doivent toujours être chargés par logiciel et, pour les gros modèles, ils doivent être streamés dans la puce
      Cela reste malgré tout une puce wafer-scale
    • L’idée de mettre les poids en ROM me trotte dans la tête depuis un moment
      Pour beaucoup de tâches, ça pourrait très bien marcher d’avoir les poids en ROM
      En revanche, je ne suis pas sûr qu’avoir un multiplicateur par poids soit une bonne idée
      Avec une quantification autour de 2 bits, ce serait peut-être faisable, sinon il vaudrait peut-être mieux mettre une petite ROM près de chaque multiplicateur ou de chaque ligne pour traiter N opérations matricielles différentes sans déplacer les données depuis loin
      Une autre idée amusante serait d’ajouter une rangée d’unités MAC à la DRAM et d’utiliser les lignes DRAM comme vecteurs
      Avec une taille de ligne de 64 Kbit, cela ferait 8K poids en 8 bits, et on pourrait garder à la fois les poids et le calcul sur la même puce
      Je ne sais pas en revanche si on peut mettre suffisamment de multiplicateurs sur une seule puce
      Les réseaux systoliques peuvent en avoir des dizaines voire des centaines de milliers, chacun effectuant une opération par cycle d’horloge
    • On dit souvent que les memristors seraient idéaux pour cet usage et qu’ils seraient reprogrammables, mais les memristors ressemblent aux nanotubes de carbone du monde du calcul
  • C’est passionnant parce qu’il semble rester énormément de gains d’efficacité possibles au niveau de la puce
    Je suis curieux de savoir comment voir Taalas
    Ils disent graver réellement le modèle LLM dans le silicium, avec un peu de mémoire embarquée pour le fine-tuning
    Ils revendiquent de gros gains sur le coût et la latence
    On peut voir une démo très rapide sur https://chatjimmy.ai/
    https://taalas.com/
    https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...

    • Si on s’en tient exclusivement à des GPU généralistes, on passe forcément à côté de beaucoup d’efficacité
      C’est pour ça que Google a commencé à développer les TPU il y a plus de dix ans
      Je me souviens de la controverse autour du licenciement de Timnit Gebru par Google, notamment à cause d’un article qui calculait l’impact environnemental des LLM en prenant les GPU comme référence et en ignorant l’efficacité des TPU
      Vu l’ampleur de cet écart d’efficacité, Jeff Dean semblait très en colère
    • Ce serait formidable de voir davantage de choses de ce type, mais la capacité à se mettre à jour vers un modèle entièrement nouveau à chaque sortie me paraît limitée
      Dans ce cas, cela devient extrêmement difficile à vendre
    • C’est techniquement intéressant, mais il semble manquer beaucoup trop de détails
      L’idée d’embarquer dans la puce un modèle unique qui ne changera jamais ne me plaît pas
      Je me demande de combien le silicium deviendrait plus cher si on utilisait une ROM réinscriptible pour les poids
      Cela permettrait de faire du fine-tuning du modèle ciblé par la conception et atténuerait la crainte de l’obsolescence du modèle
    • 17k tokens/s dans un chatbot, c’est impressionnant, mais c’est une démo presque inutile
      Pour un agent de code, c’est une amélioration significative, et pour la robotique, ce serait une révolution totale
      Un modèle 8B n’est pas utile en usage général, mais il peut offrir une intelligence énorme dans des cas d’usage spécifiques
      Le concurrent de Tesla/Waymo chez Nvidia repose sur un LLM 7B et un modèle de diffusion 2B ; si on pouvait faire tourner cela à cette vitesse, le coût pourrait tomber à un seul chiffre par rapport aux solutions existantes
    • Quand on arrivera à un point où les progrès des modèles ralentiront fortement, ce genre de matériel deviendra probablement l’avenir des fournisseurs de LLM
      On peut même soutenir qu’on est déjà proche de ce moment
      Les hyperscalers comme AWS sauront bien exploiter ce type de puce pour servir des modèles qui resteront pertinents pendant plusieurs années
      Mais pour l’instant, surtout avec les modèles à poids ouverts comme Deepseek/Kimi/GLM, la qualité des modèles fait encore de grands bonds tous les quelques mois
      D’ici là, il est difficile de voir comment cette approche pourrait être plus rentable que du matériel généraliste
      Et il est aussi probable qu’une version réduite de ce type de matériel arrive dans les appareils mobiles pour fournir des LLM on-device très rapides et très efficaces
  • Un mouvement assez important
    Google et les TPU semblent en être à peu près à la 7e génération, et si l’on pense aussi aux tentatives dérivées comme les LPU ou le Wafer Scale Engine de Cerebras, cela donne l’impression qu’ils ont eu bien plus de clairvoyance
    Cela dit, à première vue, cette puce semble viser non pas l’entraînement mais l’inférence, et c’est aussi un choix intéressant

    • L’entraînement est presque un coût ponctuel, et son efficacité baisse déjà grâce aux améliorations d’architecture
      À l’inverse, l’inférence est un coût récurrent et, avec le temps, elle consomme bien plus de ressources ; se concentrer sur une amélioration beaucoup plus forte de son efficacité est donc plus avantageux à long terme
    • J’estime désormais que le coût de l’inférence dépasse celui de l’entraînement
      Nvidia est le roi des puces généralistes pour l’entraînement, mais l’inférence peut être spécialisée
    • Le Codex Spark 5.3 de Cerebras a été un gros échec
      La fenêtre de contexte est petite et le modèle est ancien
      Cela dit, ce serait bien si ça s’améliorait au point de permettre de profiter de GPT 5.5 à 1000 tokens par seconde
    • Ils disent que « lors des premiers tests, Jalapeño augmentera nettement les performances par watt par rapport à l’état de l’art actuel », et on commence à voir ici ce qui compte vraiment
      La formulation reste vague, mais les TPU avancent des affirmations similaires
      Je pense que la note de Google « we have no moat » reste pertinente. Si vous ne connaissez pas, voir https://newsletter.semianalysis.com/p/google-we-have-no-moat...
      La dynamique actuelle ressemble davantage à la course au hardware que se livraient IBM, DEC, Cray et Sun dans les années 60 à 90
      L’histoire ne se répète pas, mais elle rime, et ces efforts semblent suivre une trajectoire similaire
  • Vu la vitesse des progrès de l’IA et le fait que l’IA aide à créer une IA plus rapide et meilleure, je continue à me demander si ce type de hardware deviendra obsolète avant d’avoir un retour sur investissement significatif
    On peut déjà faire tourner d’énormes modèles d’IA avec moins de ressources grâce à la quantification et à l’offloading, mais ce n’est qu’un début
    Un jour, peut-être pas si lointain, il pourrait y avoir une percée permettant de faire tourner correctement un très grand LLM de classe 200B sur un desktop Dell vieux de 5 ans
    Cela peut sembler délirant, mais regardez la taille des premiers disques durs
    L’IBM 350 stockait 3,5 Mb sur un disque composé de 50 plateaux de 24 pouces de diamètre, et il était loué 35 000 dollars en valeur actuelle
    https://www.computerhistory.org/storageengine/first-commerci...
    Comparez cela à un SSD de plusieurs téraoctets, puis appliquez la même amélioration aux architectures LLM actuelles et à leur mode d’exécution
    Avec en plus l’aide de l’IA, une rupture pourrait survenir d’ici peu, et des datacenters entiers remplis de cartes Nvidia à l’état de l’art pourraient devenir dépassés presque du jour au lendemain

    • S’il existe une telle percée, on pourrait aussi faire tourner un modèle 200T dans les datacenters actuels de la même manière, non ?
    • C’est une idée intéressante, mais la comparaison avec les disques durs n’est probablement pas équitable
      L’IBM 350 a été commercialisé il y a 70 ans, et il a fallu 70 ans pour qu’on puisse aujourd’hui le comparer à un SSD de plusieurs To
      De plus, rien ne garantit que la loi de Moore s’appliquera forcément aux LLM pendant les prochaines décennies
    • À cause du paradoxe de Jevons et des lois de scaling, je ne pense pas que ce soit le cas
      Si les modèles plus grands sont toujours meilleurs, comme cela semble effectivement être le cas, on aura toujours besoin de hardware performant
    • Les percées en informatique augmentent généralement l’usage de l’informatique au lieu de le réduire
    • J’ai l’impression qu’un jour il y aura du hardware dédié aux LLM en dehors des GPU
      Il existe bien les TPU, mais ils sont surtout destinés aux datacenters, et les GPU sont à l’origine des adaptations de puces conçues pour les applications graphiques
      Si la demande des datacenters se tasse, l’innovation pourrait vraiment s’accélérer
  • Il y a un point dont on parle peu ici
    Lors d’une interview, le CEO de Broadcom, Hock Tan, a déclaré que cet accélérateur affichait jusqu’à présent environ 50 % de réduction des coûts par rapport aux processeurs graphiques IA génériques actuels [0]
    Le paysage évolue tellement vite et il reste encore tant de fruits à portée de main qu’il semble assez peu utile de débattre de quel fournisseur possède un moat ou peut rentabiliser son investissement
    [0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...

    • Si la marge des GPU est de 75 %, ce n’est pas étonnant que ce soit 50 % moins cher
    • Le mot « génériques » fait beaucoup de travail ici
      Cela peut très bien désigner des puces bien plus anciennes que celles que Nvidia vend actuellement
  • Si l’objectif est un « déploiement initial d’ici fin 2026, puis une montée en charge sur les années suivantes », cela ressemble à quelque chose qui figurera en très bonne place dans les documents commerciaux de l’IPO comme promesse d’avenir après l’IPO
    Je regarde avec scepticisme toute annonce faite avant une IPO

    • La narration donne l’impression d’une mise en scène pré-IPO, et l’objet ressemble à un couvercle de panier à linge
      Je ne serais même pas surpris si c’était une arnaque
    • Je ne sais pas de quelle IPO il s’agit
      Broadcom et Google sont évidemment déjà cotées
  • Microsoft, Google et Amazon font aussi ce genre de choses, mais eux disposent également de l’infrastructure de datacenter hyperscale pour héberger ces puces
    Concevoir une puce et aller jusqu’au tape-out, puis gérer le packaging, le refroidissement, le déploiement, l’alimentation électrique et la gestion de flotte, ce sont des couches complètement différentes
    Je me demande d’où viendra cette partie

    • Il ne faut pas oublier Stargate
      Mise à jour : quelqu’un sur Twitter a dit que l’hébergement serait assuré à 50:50 par Microsoft et Oracle
  • J’avais déjà demandé à Opus 4.5 de concevoir un moteur d’inférence LLM en Verilog, avec firmware et vérification automatique : https://github.com/cpldcpu/smollm.c
    Bien sûr, on est loin d’un résultat optimal, mais cela m’a confirmé qu’une approche consistant à descendre à un niveau d’abstraction plus bas pour aller jusqu’à l’implémentation est extrêmement puissante

    • Je me demande si quelqu’un peut recommander un tutoriel intéressant pour apprendre Verilog et les FPGA de manière générale
      Il me reste un Tang Nano 9k, mais je n’ai pas confiance au point de demander à Claude de me bricoler une solution en mode vibe coding sans compréhension, et j’aimerais au moins avoir les bases minimales