- Le Google TPU est une puce ASIC dédiée conçue pour traiter des charges massives d’inférence IA, avec une meilleure efficacité et une meilleure compétitivité en coût que les GPU
- Son principal facteur différenciant est l’architecture Systolic Array, qui minimise les accès mémoire et maximise l’efficacité de calcul (operations par joule)
- Le dernier TPUv7 (Ironwood) améliore fortement les performances et la bande passante mémoire par rapport à la génération précédente, atteignant un niveau proche du GPU Nvidia Blackwell
- Les limites de l’écosystème TPU et son modèle de disponibilité exclusif à GCP restent les principaux freins à son adoption, mais Google réorganise ses équipes et renforce son support pour élargir sa clientèle externe
- Grâce à ses propres puces, Google pourrait restaurer les marges du cloud et renforcer sa compétitivité, ce qui en ferait à long terme l’un des principaux gagnants du marché de l’infrastructure IA
Histoire des TPU et contexte de leur développement
- En 2013, Google a conclu qu’il lui faudrait doubler la capacité de ses datacenters en raison de la hausse de l’usage de la recherche vocale
- Les CPU et GPU existants peinaient à traiter efficacement les calculs de deep learning (grandes multiplications de matrices)
- Google a donc décidé de développer un ASIC dédié aux réseaux de neurones TensorFlow, et a déployé la puce dans ses datacenters en 15 mois
- Dès 2015, les TPU étaient déjà utilisés dans des services majeurs comme Google Maps, Photos et Translate
- Présentés officiellement lors de la Google I/O 2016, les TPU sont ensuite devenus une infrastructure clé pour réduire les coûts d’inférence IA
Différences structurelles entre TPU et GPU
- Le GPU est un processeur parallèle généraliste, tandis que le TPU repose sur une architecture spécialisée pour un domaine précis
- Le GPU, conçu à l’origine pour le rendu graphique, intègre une logique de contrôle complexe comme le cache ou la prédiction de branchement
- Le TPU supprime ces éléments et réduit au minimum les mouvements de données grâce à une structure Systolic Array
- Le Systolic Array du TPU charge les données une fois, puis les transmet dans un flux de calcul continu, ce qui atténue le goulot d’étranglement de Von Neumann
- Améliorations d’Ironwood (7e génération)
- SparseCore renforcé pour améliorer l’efficacité du traitement des embeddings à grande échelle
- Capacité HBM de 192 Go et bande passante de 7 370 Go/s
- Amélioration de l’Inter-Chip Interconnect (ICI), avec jusqu’à 1,2 To/s de bande passante
- Google assemble de grands TPU Pod via un Optical Circuit Switch (OCS) et un réseau torique 3D
- L’efficacité énergétique est élevée, mais la flexibilité reste inférieure à celle d’InfiniBand
Comparaison de performances : TPU vs GPU
- TPUv7 (BF16 4 614 TFLOPS) contre TPUv5p (459 TFLOPS), soit environ 10 fois plus de performances
- Résumé d’entretiens dans l’industrie
- Les TPU sont en avance sur le rendement énergétique par performance et le rapport coût-efficacité
- Dans certaines applications, ils atteignent un rapport performance/dollar 1,4 fois supérieur
- Le TPUv6 affiche un gain d’efficacité de 60 à 65 % par rapport aux GPU, contre 40 à 45 % pour la génération précédente
- Les TPU chauffent moins, consomment moins d’énergie et ont un impact environnemental plus faible
- Certains clients peuvent réduire leurs coûts à un cinquième en utilisant des TPU Pod
- Grâce à l’architecture ASIC, on évoque une réduction de taille de 30 % et une baisse de consommation de 50 %
- Selon des documents internes de Google, le TPUv7 double les performances par watt par rapport au TPUv6e
- Le CEO de Nvidia, Jensen Huang, a lui aussi qualifié les TPU de « cas particulier », signe qu’ils attirent l’attention
Les obstacles à l’adoption des TPU
- Le premier frein est l’écosystème (dominé par CUDA)
- L’enseignement comme le développement, à l’université comme dans l’industrie, sont largement centrés sur CUDA
- Les TPU restent surtout orientés JAX et TensorFlow, et le support de PyTorch n’a été renforcé que plus tardivement
- La montée des stratégies multicloud constitue aussi une limite
- La plupart des entreprises répartissent leurs données entre AWS, Azure et GCP, et les coûts de sortie de données (egress) rendent les workloads GPU plus flexibles
- Les TPU sont réservés à GCP, tandis que Nvidia est disponible sur les trois grands clouds
- Choisir les TPU expose à un coût de réécriture très élevé si les prix changent ou si l’environnement évolue
- Google n’a commencé que récemment à élargir son organisation pour vendre et diffuser davantage les TPU à l’extérieur, et certains anciens et actuels employés évoquent une possible distribution externe à l’avenir via des néoclouds
La valeur stratégique des TPU pour Google Cloud
- À l’ère de l’IA, l’industrie du cloud passe d’une structure à fortes marges (50 à 70 %) à des marges plus faibles (20 à 35 %)
- En cause : la pression sur les coûts liée aux marges de 75 % de Nvidia
- Seuls les acteurs disposant de leur propre ASIC, en particulier les TPU, peuvent espérer retrouver des marges cloud traditionnelles (autour de 50 %)
- Les atouts de Google
- Le TPU est l’ASIC cloud le plus mature
- Google réalise en interne l’essentiel du front-end de conception de puces, y compris le RTL
- Broadcom ne gère que la conception physique (back-end), avec une structure de marge inférieure à celle de Nvidia, ce qui renforce la compétitivité coût des TPU
- Google maîtrise l’ensemble de la pile d’optimisation logicielle, ce qui lui permet de maximiser les performances matérielles
- Des modèles clés comme Gemini 3 sont entraînés et servis sur TPU
- L’usage des TPU continue de s’étendre dans les services IA internes de Google
- SemiAnalysis estime que le TPU de 7e génération de Google est au niveau de Nvidia Blackwell
- Les TPU sont ainsi vus comme un avantage compétitif durable pour GCP et comme un moteur clé de gain de parts de marché dans l’infrastructure IA
1 commentaires
Avis Hacker News
La vraie arme de Google n’est pas le silicium TPU lui-même, mais la scalabilité parallèle à grande échelle via l’interconnexion OCS (Optical Circuit Switch)
Selon une citation de The Next Platform, 9 216 TPU Ironwood peuvent être reliés pour exploiter 1,77 PB de mémoire HBM. C’est une échelle écrasante par rapport aux systèmes rack-scale de Nvidia basés sur les GPU Blackwell (20,7 TB de HBM)
Nvidia est excellent au niveau de la puce individuelle, mais pour l’entraînement ou l’inférence distribués à grande échelle, rien ne semble rivaliser avec la scalabilité par commutation optique de Google
La plupart des entreprises n’ont pas besoin d’acheter elles-mêmes du matériel ni d’entraîner des modèles : elles peuvent simplement utiliser une sorte d’app store d’IA proposé par Google
Par exemple, les modèles Mixture of Experts génèrent beaucoup de communication all-to-all, ce qui rend NVLink bien plus efficace dans ce cas
Lien vers le tweet officiel de Nvidia
La parallélisation de modèle favorise un réseau rapide et petit, tandis que la parallélisation de données favorise un grand réseau. C’est cet équilibre qui permet à Nvidia de l’emporter
Gemini 3 Pro est déjà presque ancien. Google dispose de bien plus de ressources qu’Anthropic, donc si le matériel était son arme secrète, il aurait déjà dû dominer le marché
Mais la réalité est différente
Certains estiment que CUDA est important pour l’entraînement, mais moins crucial pour l’inférence
Mais l’inférence est un processus simple qui consiste à réappliquer des poids fixes, donc les TPU peuvent y être plus efficaces
Rien n’empêche Nvidia de créer des puces spécialisées comme les TPU
Nvidia fait fabriquer chez TSMC puis vend à prix élevé, tandis que Google économise la marge en utilisant ses puces en interne
Un article de Reuters indique que Meta négocie un investissement de plusieurs milliards de dollars dans les puces de Google
Les ASIC pour LLM sont bien plus complexes que les ASIC pour les cryptomonnaies. Dans les cryptos, il suffit de traiter un algorithme de hachage fixe, alors que les LLM évoluent constamment
Dans ce contexte, le sens des TPU paraît flou
J’aimerais qu’il existe davantage d’options de TPU autonomes pour les particuliers. À l’heure actuelle, le seul choix est un Coral datant de 2019
Ce débat est aussi théorique que RISC vs CISC. Les GPU Nvidia sont eux aussi finalement conçus pour faire la même chose que les TPU
Même chez Google, il se peut qu’il n’y ait plus de grande différence dans 5 ans
Google tire profit des TPU, mais il n’y a pas de bénéfice direct pour les développeurs externes
Avec Maia de Microsoft, les puces datacenter d’AMD/NVIDIA, et les acquisitions d’entreprises spécialisées dans le réseau, tout le monde va dans la même direction
Google a de l’avance, mais au final ce sera une concurrence convergente
Les modèles creux (sparse models) peuvent réduire par 16 la quantité de calcul et l’espace de stockage tout en conservant la même qualité
Les TPU sont faibles pour le traitement des matrices creuses, mais performants pour l’entraînement de modèles denses (dense)
Documentation sur l’architecture des systèmes TPU
Présentation de SparseCore dans OpenXLA
Au final, la question reste : où se trouve la ligne d’arrivée de cette compétition, ou où se situe le plancher