26 points par GN⁺ 2025-12-15 | 3 commentaires | Partager sur WhatsApp
  • Le TPU est un accélérateur spécialisé conçu par Google qui ne conserve que les calculs indispensables au deep learning et élimine résolument le reste
  • Lancé en 2013 à la suite des limites rencontrées dans l’extension des datacenters, il a évolué en 12 ans jusqu’à sa 7e génération, « Ironwood »
  • Alors que l’époque où les performances des semi-conducteurs augmentaient automatiquement est terminée, la stratégie consistant à concevoir soi-même au lieu d’attendre est devenue un choix clé
  • Le TPU n’est pas une simple puce, mais un système co-conçu associant matériel, compilateur, réseau et logiciel d’exploitation
  • Au fil des générations, le centre de gravité de la conception s’est déplacé de la seule compétition de performance vers l’énergie, le déploiement et le coût d’exploitation (TCO)
  • La compétitivité du TPU ne repose pas sur une technologie unique, mais sur l’accumulation de plus de dix ans d’expérience en conception et en exploitation

Something New

  • Le TPU n’est pas une arme secrète, mais le résultat affiné au fil du temps par la recherche ouverte et des itérations internes
  • Plutôt que de continuer à agrandir ses datacenters, Google a choisi de changer fondamentalement la manière de calculer
  • Vers 2013, la pression pour doubler la capacité des datacenters et les contraintes de temps ont conduit à la naissance du TPU en 15 mois
  • En avril 2025, lors de Google Cloud Next, Google a présenté le TPU Ironwood de 7e génération, avec 9 216 puces par pod, 42,5 Exaflops et une consommation de 10 MW
  • Le GPU n’avait pas été conçu à l’origine pour le deep learning, alors que le TPU a été pensé dès le départ pour les calculs de réseaux neuronaux
  • Ce choix lui a donné un avantage structurel non seulement en puissance de calcul, mais aussi en efficacité énergétique et en stabilité opérationnelle
  • Le résultat n’est pas dû au « hasard », mais à l’accumulation d’itérations autour des contraintes, des trade-offs et de la co-conception

Slowing Down

  • Avec l’affaiblissement de la loi de Moore et du Dennard Scaling, il suffisait autrefois d’attendre un nouveau CPU pour accélérer un programme, mais cette hypothèse ne tient plus
  • Le nombre de transistors continue d’augmenter, mais les limites de puissance et de dissipation thermique freinent les gains de performance
  • Dans le même temps, les réseaux neuronaux exigent des jeux de données plus vastes et des modèles plus grands, ce qui fait exploser la demande de calcul
  • Il faut donc, plutôt qu’une « puce capable de tout faire un peu bien », une « puce capable de faire une seule chose extrêmement bien »
  • Le fait que le cœur du calcul des réseaux neuronaux repose sur des opérations répétées centrées sur la multiplication de matrices rend cette spécialisation possible
Publicité

The Inference Chip

  • Le premier TPU se concentrait non pas sur l’entraînement, mais sur l’inférence (Inference), c’est-à-dire l’exécution de modèles déjà entraînés
  • TPUv1 supprime le cache, la prédiction de branchement et le multithreading afin de réduire au minimum les coûts de contrôle
  • À la place, toutes les ressources sont concentrées sur le Systolic Array (MXU), capable de traiter en continu de grandes multiplications de matrices
  • Il ne prend pas de décisions à l’exécution et suit simplement l’ordre d’exécution fixé à la compilation
  • Résultat : à puissance égale, il traite bien plus d’inférences qu’un GPU ou un CPU

The Training Chip

  • L’entraînement demande bien plus de calcul que l’inférence ainsi qu’une plage de représentation numérique plus large
  • À partir de TPUv2, l’architecture ne se limite plus à l’inférence et gagne en souplesse pour l’entraînement
  • Le changement clé est la séparation des rôles entre matrice (MXU), vecteur (VPU) et contrôle (Scalar Unit)
  • Le flux d’exécution est calculé et décidé à l’avance par le compilateur XLA, puis exécuté tel quel par la puce
  • Un interconnect rapide dédié (ICI) est également conçu pour que plusieurs TPU fonctionnent comme un seul appareil

Scaling Up

  • À mesure que le système grandit, la question passe de « à quelle vitesse ? » à « combien de temps peut-on le faire tourner, et à quel coût ? »
  • Pour cela, une grande mémoire on-chip (CMEM) est placée près des unités de calcul afin de réduire les accès à la DRAM, plus lente
  • Des unités spécialisées comme SparseCore sont aussi introduites pour les charges riches en données creuses, comme les systèmes de recommandation
  • En séparant la communication à l’intérieur des puces et celle entre les puces, on réduit structurellement la complexité du câblage et les goulets d’étranglement
  • L’efficacité opérationnelle finit par peser davantage sur la conception globale que les chiffres bruts de performance

Island Hopping

  • Dans un environnement qui utilise des milliers de TPU, les pannes ne sont pas l’exception mais une hypothèse de départ
  • L’objectif est un système qui ne s’arrête pas, autrement dit une architecture capable d’absorber les défaillances partielles
  • Les tâches sont réparties sur plusieurs TPU, tout en étant gérées de façon à apparaître comme un seul programme
  • En cas de problème, on préfère réallouer et redémarrer rapidement plutôt que tout arrêter
  • L’essentiel de ce processus complexe est automatisé par le logiciel d’exploitation
Publicité

Extension du réseau de datacenter

  • Lorsqu’un seul groupe de TPU ne suffit plus, il faut relier plusieurs groupes entre eux
  • Les réseaux classiques atteignant leurs limites, un switching optique (OCS) est introduit
  • Cela permet de configurer l’ensemble du datacenter comme une seule ressource de calcul géante
  • Une approche qui étend le modèle d’exécution existant coexiste avec un modèle d’exécution asynchrone entièrement nouveau (Pathways)
  • Il devient ainsi possible de prendre en charge des modèles plus grands et des schémas de communication plus complexes

Ceci n’est pas une TPU

  • Les TPU récents sont impressionnants sur le plan des chiffres, mais les principes fondamentaux restent les mêmes qu’au départ
  • La direction reste la même : se concentrer sur les calculs nécessaires et éliminer la complexité inutile
  • Il est impossible de reproduire ce système à partir des seules spécifications matérielles
  • Le compilateur (XLA), l’interconnect dédié (ICI), le switching optique (OCS) et l’ordonnanceur d’exploitation doivent fonctionner ensemble
  • Le TPU n’est pas le fruit d’une invention unique, mais le résultat cumulé de centaines de choix ordinaires

Quelques technologies clés à retenir

  • Systolic Array (MXU) : le cœur du TPU, pour exécuter efficacement les multiplications de matrices
  • Compilateur XLA : calcule à l’avance l’ordre d’exécution pour supprimer les coûts de contrôle
  • BF16 : format numérique qui conserve la plage nécessaire à l’entraînement tout en réduisant le coût matériel
  • ICI / OCS : architecture de communication dédiée qui relie puces, racks et datacenters en un seul ensemble
  • Conception centrée sur le TCO : une manière de penser qui optimise les coûts d’exploitation à long terme plutôt que la performance instantanée

3 commentaires

 
GN⁺ 2025-12-15
Commentaires sur Hacker News
  • Le manuel Scaling ML contient aussi une excellente section sur les TPU : How to Think About TPUs
    • J’ai moi aussi lu cet article avec intérêt, ainsi que l’analyse approfondie des TPU de Henry Ko. Ce que font XLA et l’ordonnanceur est vraiment impressionnant. C’est une architecture bien plus complexe qu’Itanium, et pourtant le fait que le logiciel puisse réellement exploiter cette puce monstrueuse est étonnant. J’aimerais que XLA soit plus largement adopté. C’est de l’open source, et c’est dommage qu’il suscite si peu d’intérêt dans l’industrie. On dirait que Nvidia ne commence que maintenant à suivre une direction similaire avec Tiles. En revanche, il me semble que XLA n’est toujours pas très utile pour l’ordonnancement entre plusieurs machines
  • J’ai apprécié l’explication structurelle de cet article. La plupart des textes sur les TPU passent sur l’aspect pratique, mais celui-ci relie vraiment les concepts au concret, ce qui rend la compréhension beaucoup plus claire
  • Le degré d’optimisation de l’architecture TPU pour son usage ne se limite pas à une seule génération de design. Ironwood est le TPU de 7e génération, et son évolution est un élément très important
  • Je pense toujours que la loi de Moore n’est pas morte. Si l’on considère qu’entre 1965 et 2025, sur 60 ans, on a eu un doublement tous les deux ans, cela fait 30 doublements. En théorie, on arriverait à environ 107 milliards de transistors en 2025, et en pratique l’Apple M1 Ultra en a 114 milliards
    • Certaines personnes interprètent la loi de Moore au sens fort, comme une « vitesse de doublement constante », et cela, c’est terminé depuis longtemps. Mais si on considère cette vitesse comme une constante qui évolue lentement, elle reste valable. Le problème, c’est qu’en ne regardant que les valeurs aux bornes pour en tirer une moyenne, on ne reflète pas la tendance récente des évolutions
  • Il est étonnant que l’idée selon laquelle la Chine pourrait produire des TPU à grande échelle d’ici quelques années n’ait pas fait davantage la une. Cela pourrait porter un coup dur à Google, NVIDIA et d’autres. Il y a aussi eu l’affaire de fuite de documents TPUv4 et v6 par un ressortissant chinois en 2022~2023. Et déjà, une startup chinoise a construit son propre cluster de TPU et génère du chiffre d’affaires
    • Mais la fabrication elle-même est la partie la plus difficile. La Chine dispose de suffisamment de savoir-faire en conception, mais manque de capacité pour fabriquer réellement les puces. La fabrication des semi-conducteurs exige la « magie technologique » que possède TSMC. Intel et Samsung en sont aussi capables dans une certaine mesure, mais l’écart reste important
    • La moitié de l’article portait sur les dépendances logicielles entre les TPU, Borb, lilpunet, le réseau de commutation optique, etc. Ce type de système complexe est difficile à reproduire avec la seule technologie de fabrication
    • Google utilise les TPU pour ses propres services, donc même si d’autres entreprises fabriquaient des puces similaires, l’impact serait limité. Il est plus réaliste d’imaginer la fin du quasi-monopole de NVIDIA sur le marché. Les unités FMA/MAC ont une conception simple, si bien qu’Apple, Qualcomm, AMD, Amazon, Huawei et presque toutes les entreprises intègrent déjà leur propre « TPU ». Même si les États-Unis formaient 600 000 étudiants chinois, le vrai cœur du sujet reste la fabrication et les procédés industriels
    • Je ne comprends pas l’histoire des « bases nucléaires et de la main-d’œuvre ». Je ne vois pas le rapport entre les bases nucléaires et la fabrication de semi-conducteurs. Et les 600 000 étudiants n’apprennent évidemment pas tous la conception de puces
    • Dire qu’on a peur que les TPU deviennent moins chers sonne presque comme une forme de satire
  • Je me demande si, sur GCP, on est toujours lié à cet étrange système de buckets Google quand on utilise des TPU. À l’époque, c’était vraiment pénible
 
crawler 2025-12-15

J’ai un souhait personnel :
J’espère vraiment que les TPU se généraliseront suffisamment pour que les entreprises n’utilisent plus de GPU.
Et qu’ainsi Nvidia se remette à se concentrer sur les GPU grand public.....

 
xguru 2025-12-15

L’article original est très technique, donc un résumé fidèle ne serait qu’une succession de termes techniques ; je l’ai donc réorganisé pour rendre l’évolution plus facile à comprendre. Si vous souhaitez connaître les détails techniques, consultez l’article original, qui les explique avec des images.