Comprendre le Tensor Processing Unit de Google

(considerthebulldog.com)

26 points par GN⁺ 2025-12-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le TPU est un accélérateur spécialisé conçu par Google qui ne conserve que les calculs indispensables au deep learning et élimine résolument le reste
Lancé en 2013 à la suite des limites rencontrées dans l’extension des datacenters, il a évolué en 12 ans jusqu’à sa 7e génération, « Ironwood »
Alors que l’époque où les performances des semi-conducteurs augmentaient automatiquement est terminée, la stratégie consistant à concevoir soi-même au lieu d’attendre est devenue un choix clé
Le TPU n’est pas une simple puce, mais un système co-conçu associant matériel, compilateur, réseau et logiciel d’exploitation
Au fil des générations, le centre de gravité de la conception s’est déplacé de la seule compétition de performance vers l’énergie, le déploiement et le coût d’exploitation (TCO)
La compétitivité du TPU ne repose pas sur une technologie unique, mais sur l’accumulation de plus de dix ans d’expérience en conception et en exploitation

Something New

Le TPU n’est pas une arme secrète, mais le résultat affiné au fil du temps par la recherche ouverte et des itérations internes
Plutôt que de continuer à agrandir ses datacenters, Google a choisi de changer fondamentalement la manière de calculer
Vers 2013, la pression pour doubler la capacité des datacenters et les contraintes de temps ont conduit à la naissance du TPU en 15 mois
En avril 2025, lors de Google Cloud Next, Google a présenté le TPU Ironwood de 7e génération, avec 9 216 puces par pod, 42,5 Exaflops et une consommation de 10 MW
Le GPU n’avait pas été conçu à l’origine pour le deep learning, alors que le TPU a été pensé dès le départ pour les calculs de réseaux neuronaux
Ce choix lui a donné un avantage structurel non seulement en puissance de calcul, mais aussi en efficacité énergétique et en stabilité opérationnelle
Le résultat n’est pas dû au « hasard », mais à l’accumulation d’itérations autour des contraintes, des trade-offs et de la co-conception

Avec l’affaiblissement de la loi de Moore et du Dennard Scaling, il suffisait autrefois d’attendre un nouveau CPU pour accélérer un programme, mais cette hypothèse ne tient plus
Le nombre de transistors continue d’augmenter, mais les limites de puissance et de dissipation thermique freinent les gains de performance
Dans le même temps, les réseaux neuronaux exigent des jeux de données plus vastes et des modèles plus grands, ce qui fait exploser la demande de calcul
Il faut donc, plutôt qu’une « puce capable de tout faire un peu bien », une « puce capable de faire une seule chose extrêmement bien »
Le fait que le cœur du calcul des réseaux neuronaux repose sur des opérations répétées centrées sur la multiplication de matrices rend cette spécialisation possible

Le premier TPU se concentrait non pas sur l’entraînement, mais sur l’inférence (Inference), c’est-à-dire l’exécution de modèles déjà entraînés
TPUv1 supprime le cache, la prédiction de branchement et le multithreading afin de réduire au minimum les coûts de contrôle
À la place, toutes les ressources sont concentrées sur le Systolic Array (MXU), capable de traiter en continu de grandes multiplications de matrices
Il ne prend pas de décisions à l’exécution et suit simplement l’ordre d’exécution fixé à la compilation
Résultat : à puissance égale, il traite bien plus d’inférences qu’un GPU ou un CPU

L’entraînement demande bien plus de calcul que l’inférence ainsi qu’une plage de représentation numérique plus large
À partir de TPUv2, l’architecture ne se limite plus à l’inférence et gagne en souplesse pour l’entraînement
Le changement clé est la séparation des rôles entre matrice (MXU), vecteur (VPU) et contrôle (Scalar Unit)
Le flux d’exécution est calculé et décidé à l’avance par le compilateur XLA, puis exécuté tel quel par la puce
Un interconnect rapide dédié (ICI) est également conçu pour que plusieurs TPU fonctionnent comme un seul appareil

À mesure que le système grandit, la question passe de « à quelle vitesse ? » à « combien de temps peut-on le faire tourner, et à quel coût ? »
Pour cela, une grande mémoire on-chip (CMEM) est placée près des unités de calcul afin de réduire les accès à la DRAM, plus lente
Des unités spécialisées comme SparseCore sont aussi introduites pour les charges riches en données creuses, comme les systèmes de recommandation
En séparant la communication à l’intérieur des puces et celle entre les puces, on réduit structurellement la complexité du câblage et les goulets d’étranglement
L’efficacité opérationnelle finit par peser davantage sur la conception globale que les chiffres bruts de performance

Dans un environnement qui utilise des milliers de TPU, les pannes ne sont pas l’exception mais une hypothèse de départ
L’objectif est un système qui ne s’arrête pas, autrement dit une architecture capable d’absorber les défaillances partielles
Les tâches sont réparties sur plusieurs TPU, tout en étant gérées de façon à apparaître comme un seul programme
En cas de problème, on préfère réallouer et redémarrer rapidement plutôt que tout arrêter
L’essentiel de ce processus complexe est automatisé par le logiciel d’exploitation

Lorsqu’un seul groupe de TPU ne suffit plus, il faut relier plusieurs groupes entre eux
Les réseaux classiques atteignant leurs limites, un switching optique (OCS) est introduit
Cela permet de configurer l’ensemble du datacenter comme une seule ressource de calcul géante
Une approche qui étend le modèle d’exécution existant coexiste avec un modèle d’exécution asynchrone entièrement nouveau (Pathways)
Il devient ainsi possible de prendre en charge des modèles plus grands et des schémas de communication plus complexes

Les TPU récents sont impressionnants sur le plan des chiffres, mais les principes fondamentaux restent les mêmes qu’au départ
La direction reste la même : se concentrer sur les calculs nécessaires et éliminer la complexité inutile
Il est impossible de reproduire ce système à partir des seules spécifications matérielles
Le compilateur (XLA), l’interconnect dédié (ICI), le switching optique (OCS) et l’ordonnanceur d’exploitation doivent fonctionner ensemble
Le TPU n’est pas le fruit d’une invention unique, mais le résultat cumulé de centaines de choix ordinaires

Systolic Array (MXU) : le cœur du TPU, pour exécuter efficacement les multiplications de matrices
Compilateur XLA : calcule à l’avance l’ordre d’exécution pour supprimer les coûts de contrôle
BF16 : format numérique qui conserve la plage nécessaire à l’entraînement tout en réduisant le coût matériel
ICI / OCS : architecture de communication dédiée qui relie puces, racks et datacenters en un seul ensemble
Conception centrée sur le TCO : une manière de penser qui optimise les coûts d’exploitation à long terme plutôt que la performance instantanée