26 points par GN⁺ 2025-12-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Le TPU est un accélérateur spécialisé conçu par Google qui ne conserve que les calculs indispensables au deep learning et élimine résolument le reste
  • Lancé en 2013 à la suite des limites rencontrées dans l’extension des datacenters, il a évolué en 12 ans jusqu’à sa 7e génération, « Ironwood »
  • Alors que l’époque où les performances des semi-conducteurs augmentaient automatiquement est terminée, la stratégie consistant à concevoir soi-même au lieu d’attendre est devenue un choix clé
  • Le TPU n’est pas une simple puce, mais un système co-conçu associant matériel, compilateur, réseau et logiciel d’exploitation
  • Au fil des générations, le centre de gravité de la conception s’est déplacé de la seule compétition de performance vers l’énergie, le déploiement et le coût d’exploitation (TCO)
  • La compétitivité du TPU ne repose pas sur une technologie unique, mais sur l’accumulation de plus de dix ans d’expérience en conception et en exploitation

Something New

  • Le TPU n’est pas une arme secrète, mais le résultat affiné au fil du temps par la recherche ouverte et des itérations internes
  • Plutôt que de continuer à agrandir ses datacenters, Google a choisi de changer fondamentalement la manière de calculer
  • Vers 2013, la pression pour doubler la capacité des datacenters et les contraintes de temps ont conduit à la naissance du TPU en 15 mois
  • En avril 2025, lors de Google Cloud Next, Google a présenté le TPU Ironwood de 7e génération, avec 9 216 puces par pod, 42,5 Exaflops et une consommation de 10 MW
  • Le GPU n’avait pas été conçu à l’origine pour le deep learning, alors que le TPU a été pensé dès le départ pour les calculs de réseaux neuronaux
  • Ce choix lui a donné un avantage structurel non seulement en puissance de calcul, mais aussi en efficacité énergétique et en stabilité opérationnelle
  • Le résultat n’est pas dû au « hasard », mais à l’accumulation d’itérations autour des contraintes, des trade-offs et de la co-conception

Slowing Down

  • Avec l’affaiblissement de la loi de Moore et du Dennard Scaling, il suffisait autrefois d’attendre un nouveau CPU pour accélérer un programme, mais cette hypothèse ne tient plus
  • Le nombre de transistors continue d’augmenter, mais les limites de puissance et de dissipation thermique freinent les gains de performance
  • Dans le même temps, les réseaux neuronaux exigent des jeux de données plus vastes et des modèles plus grands, ce qui fait exploser la demande de calcul
  • Il faut donc, plutôt qu’une « puce capable de tout faire un peu bien », une « puce capable de faire une seule chose extrêmement bien »
  • Le fait que le cœur du calcul des réseaux neuronaux repose sur des opérations répétées centrées sur la multiplication de matrices rend cette spécialisation possible

The Inference Chip

  • Le premier TPU se concentrait non pas sur l’entraînement, mais sur l’inférence (Inference), c’est-à-dire l’exécution de modèles déjà entraînés
  • TPUv1 supprime le cache, la prédiction de branchement et le multithreading afin de réduire au minimum les coûts de contrôle
  • À la place, toutes les ressources sont concentrées sur le Systolic Array (MXU), capable de traiter en continu de grandes multiplications de matrices
  • Il ne prend pas de décisions à l’exécution et suit simplement l’ordre d’exécution fixé à la compilation
  • Résultat : à puissance égale, il traite bien plus d’inférences qu’un GPU ou un CPU

The Training Chip

  • L’entraînement demande bien plus de calcul que l’inférence ainsi qu’une plage de représentation numérique plus large
  • À partir de TPUv2, l’architecture ne se limite plus à l’inférence et gagne en souplesse pour l’entraînement
  • Le changement clé est la séparation des rôles entre matrice (MXU), vecteur (VPU) et contrôle (Scalar Unit)
  • Le flux d’exécution est calculé et décidé à l’avance par le compilateur XLA, puis exécuté tel quel par la puce
  • Un interconnect rapide dédié (ICI) est également conçu pour que plusieurs TPU fonctionnent comme un seul appareil

Scaling Up

  • À mesure que le système grandit, la question passe de « à quelle vitesse ? » à « combien de temps peut-on le faire tourner, et à quel coût ? »
  • Pour cela, une grande mémoire on-chip (CMEM) est placée près des unités de calcul afin de réduire les accès à la DRAM, plus lente
  • Des unités spécialisées comme SparseCore sont aussi introduites pour les charges riches en données creuses, comme les systèmes de recommandation
  • En séparant la communication à l’intérieur des puces et celle entre les puces, on réduit structurellement la complexité du câblage et les goulets d’étranglement
  • L’efficacité opérationnelle finit par peser davantage sur la conception globale que les chiffres bruts de performance

Island Hopping

  • Dans un environnement qui utilise des milliers de TPU, les pannes ne sont pas l’exception mais une hypothèse de départ
  • L’objectif est un système qui ne s’arrête pas, autrement dit une architecture capable d’absorber les défaillances partielles
  • Les tâches sont réparties sur plusieurs TPU, tout en étant gérées de façon à apparaître comme un seul programme
  • En cas de problème, on préfère réallouer et redémarrer rapidement plutôt que tout arrêter
  • L’essentiel de ce processus complexe est automatisé par le logiciel d’exploitation

Extension du réseau de datacenter

  • Lorsqu’un seul groupe de TPU ne suffit plus, il faut relier plusieurs groupes entre eux
  • Les réseaux classiques atteignant leurs limites, un switching optique (OCS) est introduit
  • Cela permet de configurer l’ensemble du datacenter comme une seule ressource de calcul géante
  • Une approche qui étend le modèle d’exécution existant coexiste avec un modèle d’exécution asynchrone entièrement nouveau (Pathways)
  • Il devient ainsi possible de prendre en charge des modèles plus grands et des schémas de communication plus complexes

Ceci n’est pas une TPU

  • Les TPU récents sont impressionnants sur le plan des chiffres, mais les principes fondamentaux restent les mêmes qu’au départ
  • La direction reste la même : se concentrer sur les calculs nécessaires et éliminer la complexité inutile
  • Il est impossible de reproduire ce système à partir des seules spécifications matérielles
  • Le compilateur (XLA), l’interconnect dédié (ICI), le switching optique (OCS) et l’ordonnanceur d’exploitation doivent fonctionner ensemble
  • Le TPU n’est pas le fruit d’une invention unique, mais le résultat cumulé de centaines de choix ordinaires

Quelques technologies clés à retenir

  • Systolic Array (MXU) : le cœur du TPU, pour exécuter efficacement les multiplications de matrices
  • Compilateur XLA : calcule à l’avance l’ordre d’exécution pour supprimer les coûts de contrôle
  • BF16 : format numérique qui conserve la plage nécessaire à l’entraînement tout en réduisant le coût matériel
  • ICI / OCS : architecture de communication dédiée qui relie puces, racks et datacenters en un seul ensemble
  • Conception centrée sur le TCO : une manière de penser qui optimise les coûts d’exploitation à long terme plutôt que la performance instantanée

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.