- Le TPU est un accélérateur spécialisé conçu par Google qui ne conserve que les calculs indispensables au deep learning et élimine résolument le reste
- Lancé en 2013 à la suite des limites rencontrées dans l’extension des datacenters, il a évolué en 12 ans jusqu’à sa 7e génération, « Ironwood »
- Alors que l’époque où les performances des semi-conducteurs augmentaient automatiquement est terminée, la stratégie consistant à concevoir soi-même au lieu d’attendre est devenue un choix clé
- Le TPU n’est pas une simple puce, mais un système co-conçu associant matériel, compilateur, réseau et logiciel d’exploitation
- Au fil des générations, le centre de gravité de la conception s’est déplacé de la seule compétition de performance vers l’énergie, le déploiement et le coût d’exploitation (TCO)
- La compétitivité du TPU ne repose pas sur une technologie unique, mais sur l’accumulation de plus de dix ans d’expérience en conception et en exploitation
Something New
- Le TPU n’est pas une arme secrète, mais le résultat affiné au fil du temps par la recherche ouverte et des itérations internes
- Plutôt que de continuer à agrandir ses datacenters, Google a choisi de changer fondamentalement la manière de calculer
- Vers 2013, la pression pour doubler la capacité des datacenters et les contraintes de temps ont conduit à la naissance du TPU en 15 mois
- En avril 2025, lors de Google Cloud Next, Google a présenté le TPU Ironwood de 7e génération, avec 9 216 puces par pod, 42,5 Exaflops et une consommation de 10 MW
- Le GPU n’avait pas été conçu à l’origine pour le deep learning, alors que le TPU a été pensé dès le départ pour les calculs de réseaux neuronaux
- Ce choix lui a donné un avantage structurel non seulement en puissance de calcul, mais aussi en efficacité énergétique et en stabilité opérationnelle
- Le résultat n’est pas dû au « hasard », mais à l’accumulation d’itérations autour des contraintes, des trade-offs et de la co-conception
Slowing Down
- Avec l’affaiblissement de la loi de Moore et du Dennard Scaling, il suffisait autrefois d’attendre un nouveau CPU pour accélérer un programme, mais cette hypothèse ne tient plus
- Le nombre de transistors continue d’augmenter, mais les limites de puissance et de dissipation thermique freinent les gains de performance
- Dans le même temps, les réseaux neuronaux exigent des jeux de données plus vastes et des modèles plus grands, ce qui fait exploser la demande de calcul
- Il faut donc, plutôt qu’une « puce capable de tout faire un peu bien », une « puce capable de faire une seule chose extrêmement bien »
- Le fait que le cœur du calcul des réseaux neuronaux repose sur des opérations répétées centrées sur la multiplication de matrices rend cette spécialisation possible
The Inference Chip
- Le premier TPU se concentrait non pas sur l’entraînement, mais sur l’inférence (Inference), c’est-à-dire l’exécution de modèles déjà entraînés
- TPUv1 supprime le cache, la prédiction de branchement et le multithreading afin de réduire au minimum les coûts de contrôle
- À la place, toutes les ressources sont concentrées sur le Systolic Array (MXU), capable de traiter en continu de grandes multiplications de matrices
- Il ne prend pas de décisions à l’exécution et suit simplement l’ordre d’exécution fixé à la compilation
- Résultat : à puissance égale, il traite bien plus d’inférences qu’un GPU ou un CPU
The Training Chip
- L’entraînement demande bien plus de calcul que l’inférence ainsi qu’une plage de représentation numérique plus large
- À partir de TPUv2, l’architecture ne se limite plus à l’inférence et gagne en souplesse pour l’entraînement
- Le changement clé est la séparation des rôles entre matrice (MXU), vecteur (VPU) et contrôle (Scalar Unit)
- Le flux d’exécution est calculé et décidé à l’avance par le compilateur XLA, puis exécuté tel quel par la puce
- Un interconnect rapide dédié (ICI) est également conçu pour que plusieurs TPU fonctionnent comme un seul appareil
Scaling Up
- À mesure que le système grandit, la question passe de « à quelle vitesse ? » à « combien de temps peut-on le faire tourner, et à quel coût ? »
- Pour cela, une grande mémoire on-chip (CMEM) est placée près des unités de calcul afin de réduire les accès à la DRAM, plus lente
- Des unités spécialisées comme SparseCore sont aussi introduites pour les charges riches en données creuses, comme les systèmes de recommandation
- En séparant la communication à l’intérieur des puces et celle entre les puces, on réduit structurellement la complexité du câblage et les goulets d’étranglement
- L’efficacité opérationnelle finit par peser davantage sur la conception globale que les chiffres bruts de performance
Island Hopping
- Dans un environnement qui utilise des milliers de TPU, les pannes ne sont pas l’exception mais une hypothèse de départ
- L’objectif est un système qui ne s’arrête pas, autrement dit une architecture capable d’absorber les défaillances partielles
- Les tâches sont réparties sur plusieurs TPU, tout en étant gérées de façon à apparaître comme un seul programme
- En cas de problème, on préfère réallouer et redémarrer rapidement plutôt que tout arrêter
- L’essentiel de ce processus complexe est automatisé par le logiciel d’exploitation
Extension du réseau de datacenter
- Lorsqu’un seul groupe de TPU ne suffit plus, il faut relier plusieurs groupes entre eux
- Les réseaux classiques atteignant leurs limites, un switching optique (OCS) est introduit
- Cela permet de configurer l’ensemble du datacenter comme une seule ressource de calcul géante
- Une approche qui étend le modèle d’exécution existant coexiste avec un modèle d’exécution asynchrone entièrement nouveau (Pathways)
- Il devient ainsi possible de prendre en charge des modèles plus grands et des schémas de communication plus complexes
Ceci n’est pas une TPU
- Les TPU récents sont impressionnants sur le plan des chiffres, mais les principes fondamentaux restent les mêmes qu’au départ
- La direction reste la même : se concentrer sur les calculs nécessaires et éliminer la complexité inutile
- Il est impossible de reproduire ce système à partir des seules spécifications matérielles
- Le compilateur (XLA), l’interconnect dédié (ICI), le switching optique (OCS) et l’ordonnanceur d’exploitation doivent fonctionner ensemble
- Le TPU n’est pas le fruit d’une invention unique, mais le résultat cumulé de centaines de choix ordinaires
Quelques technologies clés à retenir
- Systolic Array (MXU) : le cœur du TPU, pour exécuter efficacement les multiplications de matrices
- Compilateur XLA : calcule à l’avance l’ordre d’exécution pour supprimer les coûts de contrôle
- BF16 : format numérique qui conserve la plage nécessaire à l’entraînement tout en réduisant le coût matériel
- ICI / OCS : architecture de communication dédiée qui relie puces, racks et datacenters en un seul ensemble
- Conception centrée sur le TCO : une manière de penser qui optimise les coûts d’exploitation à long terme plutôt que la performance instantanée
Aucun commentaire pour le moment.