- Google a présenté deux TPU de 8e génération, synthèse de plus de dix ans de développement des TPU, avec une architecture spécialisée pour chacun : le TPU 8t dédié à l’entraînement des grands modèles et le TPU 8i dédié à l’inférence haute vitesse
- Le TPU 8t permet à un seul superpod de monter jusqu’à 9 600 puces et 121 ExaFlops, avec une puissance de calcul par pod environ 3 fois supérieure à celle de la génération précédente
- Le TPU 8i a été repensé pour l’inférence agentique en mettant l’accent sur l’optimisation de la bande passante mémoire et de la latence ; grâce à l’augmentation de la SRAM on-chip, à l’hôte CPU Axion et aux améliorations réseau pour les MoE, il atteint une amélioration de 80 % du rapport performance/coût
- Les deux puces fonctionnent avec l’hôte CPU Axion basé sur ARM conçu par Google, avec jusqu’à 2 fois plus de performances par watt que la génération précédente
- Il s’agit d’une stratégie d’infrastructure qui sépare et optimise l’entraînement et l’inférence pour l’ère où les agents IA raisonnent, planifient et exécutent en continu ; disponibilité générale prévue au second semestre de cette année, dans le cadre de Google AI Hypercomputer
Vue d’ensemble des TPU de 8e génération
- Annonce au Google Cloud Next des Tensor Processor Unit (TPU) de 8e génération, déclinés en deux architectures : le TPU 8t pour l’entraînement et le TPU 8i pour l’inférence
- Conçus pour faire tourner des supercalculateurs sur mesure, ils couvrent l’entraînement de modèles de pointe, le développement d’agents et les charges d’inférence à grande échelle
- Google exploite depuis des années des modèles foundation majeurs, dont Gemini, sur TPU ; cette 8e génération apporte simultanément échelle, efficacité et performances pour l’entraînement, le serving et les charges agentiques
- À l’ère des agents IA, les modèles doivent raisonner sur des problèmes, exécuter des workflows en plusieurs étapes et apprendre de leurs propres actions dans une boucle continue, ce qui impose de nouvelles exigences à l’infrastructure
- Conçus en collaboration avec Google DeepMind pour gérer les charges IA les plus exigeantes et s’adapter à l’évolution des architectures de modèles
Plus de dix ans de philosophie de conception
- Les TPU ont défini des standards pour les composants de supercalcul ML, comme les opérations numériques personnalisées, le refroidissement liquide et les interconnexions sur mesure ; la 8e génération représente l’aboutissement de plus de dix ans de développement
- Principe central de conception : co-design du silicium avec le matériel, le réseau et le logiciel (y compris les architectures de modèles et les exigences applicatives), afin d’obtenir des progrès marqués à la fois en efficacité énergétique et en performances absolues
- Citadel Securities est cité comme exemple d’organisation de premier plan ayant choisi les TPU pour ses charges IA
Pourquoi séparer entraînement et inférence
- Les cycles de développement matériel étant bien plus longs que ceux du logiciel, chaque génération de TPU doit anticiper les technologies et la demande au moment de sa mise sur le marché
- Google avait anticipé depuis plusieurs années la hausse de la demande en inférence liée au déploiement en production des modèles d’IA de pointe
- Avec l’essor des agents IA, les exigences de l’entraînement et du serving divergent ; Google estime donc que des puces spécialisées distinctes profitent davantage à l’écosystème
- Le TPU 8t est optimisé pour l’entraînement à grande échelle, avec davantage de débit de calcul et de bande passante scale-up
- Le TPU 8i est optimisé pour les charges d’inférence sensibles à la latence, avec plus de bande passante mémoire, car au sein des interactions entre agents, même de petites inefficacités s’amplifient à grande échelle
- Les deux puces peuvent exécuter des charges variées, mais cette spécialisation apporte des gains d’efficacité significatifs
TPU 8t : une machine de puissance pour l’entraînement
- L’objectif est de ramener le cycle de développement des modèles de pointe de plusieurs mois à quelques semaines
- Combine un débit de calcul de très haut niveau, de la mémoire partagée et de la bande passante inter-puces, avec un équilibre entre efficacité énergétique optimale et temps de calcul réellement productif
- Puissance de calcul par pod environ 3 fois supérieure à celle de la génération précédente
-
Passage à l’échelle massif (Massive Scale)
- Un seul superpod TPU 8t peut monter jusqu’à 9 600 puces et 2 pétaoctets de HBM partagée
- Bande passante inter-puces multipliée par 2 par rapport à la génération précédente
- 121 ExaFlops de puissance de calcul, permettant aux modèles les plus complexes d’exploiter un unique grand pool mémoire
-
Utilisation maximale (Maximum Utilization)
- Intégration d’un accès au stockage 10 fois plus rapide
- Avec TPUDirect, les données sont injectées directement vers les TPU afin d’assurer l’utilisation maximale de bout en bout du système
-
Scalabilité quasi linéaire (Near-Linear Scaling)
- Le nouveau Virgo Network, combiné aux logiciels JAX et Pathways, permet une montée en charge quasi linéaire jusqu’à 1 million de puces dans un cluster logique unique
-
Fiabilité et disponibilité
- Objectif de goodput (temps de calcul productif utile) supérieur à 97 %
- Intègre des fonctions complètes de RAS (Reliability, Availability, Serviceability)
- Télémétrie en temps réel sur des dizaines de milliers de puces
- Détection automatique des liens ICI défectueux et reroutage sans interruption des tâches
- OCS (Optical Circuit Switching) pour reconfigurer le matériel autour des incidents sans intervention humaine
- À l’échelle de l’entraînement frontier, les pannes matérielles, la latence réseau et les redémarrages de checkpoints sont du temps hors entraînement ; un écart de 1 point de pourcentage peut représenter plusieurs jours de calcul
TPU 8i : moteur d’inférence
- À l’ère agentique, les utilisateurs attendent de pouvoir poser une question, déléguer une tâche et recevoir un résultat ; la puce est donc optimisée pour des flux complexes où plusieurs agents spécialisés collaborent en swarming
- Pour éliminer l’« effet salle d’attente », la pile a été repensée autour de quatre innovations clés
-
Briser le mur de la mémoire (Breaking the Memory Wall)
- Équipé de 288GB de HBM et de 384MB de SRAM on-chip (3 fois plus que la génération précédente)
- Permet de conserver sur la puce l’ensemble du working set actif du modèle et d’éviter que le processeur reste inactif
-
Efficacité portée par Axion
- Double le nombre d’hôtes CPU physiques par serveur et adopte le CPU Axion basé sur ARM conçu par Google
- Optimise les performances du système global grâce à l’isolation NUMA (Non-Uniform Memory Architecture)
-
Montée en charge des modèles MoE
- Pour les derniers modèles Mixture of Expert (MoE), la bande passante ICI est doublée à 19.2 Tb/s
- La nouvelle architecture Boardfly réduit le diamètre réseau maximal de plus de 50 %, pour fonctionner comme une unité cohérente à faible latence
-
Élimination de la latence (Eliminating Lag)
- Le nouveau CAE (Collectives Acceleration Engine) on-chip décharge les opérations globales et réduit la latence sur puce jusqu’à 5 fois
-
Rapport performance/coût
- 80 % de performances en plus par dollar par rapport à la génération précédente, soit presque 2 fois plus de volume client servi à coût identique
Co-design avec Gemini, ouvert à tous
- Les TPU de 8e génération constituent la dernière expression d’une philosophie de co-design dans laquelle chaque spécification est pensée pour répondre aux plus grands défis de l’IA
- Topologie Boardfly : conçue pour répondre aux besoins de communication des meilleurs modèles d’inférence actuels
- Capacité SRAM du TPU 8i : calibrée sur l’empreinte du cache KV des modèles d’inférence à l’échelle production
- Objectif de bande passante du Virgo Network : dérivé des besoins de parallélisation de l’entraînement de modèles aux paramètres en milliers de milliards
- Les deux puces fonctionnent, pour la première fois, avec l’hôte CPU Axion basé sur ARM conçu par Google, ce qui permet d’optimiser non seulement la puce, mais l’ensemble du système
-
Frameworks et accessibilité
- Support natif de JAX, MaxText, PyTorch, SGLang, vLLM
- Accès bare metal permettant un accès direct au matériel sans surcoût de virtualisation
- Contributions open source : implémentation de référence MaxText, Tunix pour l’apprentissage par renforcement, entre autres, afin de couvrir le chemin critique du développement au déploiement en production
Une conception axée sur l’efficacité énergétique à grande échelle
- Dans les datacenters actuels, l’approvisionnement en puces n’est plus la seule contrainte : l’énergie est devenue la ressource limitante
- L’efficacité est optimisée sur l’ensemble de la pile, avec une gestion intégrée de l’énergie ajustant dynamiquement la consommation selon la demande en temps réel
- Les TPU 8t et TPU 8i offrent tous deux jusqu’à 2 fois plus de performances par watt que la génération précédente (Ironwood)
- L’efficacité n’est pas seulement une métrique au niveau de la puce, mais un engagement au niveau système allant du silicium au datacenter
- Les connexions réseau sont intégrées sur la même puce que le calcul, ce qui réduit fortement le coût énergétique des déplacements de données dans les pods TPU
- Les datacenters ont eux aussi été co-conçus avec les TPU, avec une puissance de calcul 6 fois supérieure par unité d’énergie par rapport à il y a cinq ans
- Les deux puces s’appuient sur une technologie de refroidissement liquide de 4e génération, indispensable pour maintenir une densité de performance impossible à atteindre en refroidissement par air
- Le contrôle de l’ensemble de la pile, de l’hôte Axion à l’accélérateur, permet une optimisation de l’efficacité énergétique au niveau système impossible avec une conception séparée de l’hôte et de la puce
Une infrastructure pour l’ère agentique
- Chaque grand changement dans l’informatique nécessite une innovation d’infrastructure, et l’ère agentique ne fait pas exception
- L’infrastructure doit évoluer pour répondre aux besoins d’agents autonomes exécutant en continu des boucles de raisonnement, planification, exécution et apprentissage
- Les TPU 8t et TPU 8i constituent la réponse de Google à ce défi : deux architectures spécialisées qui redéfinissent la construction des meilleurs modèles d’IA, l’orchestration parfaite de swarms d’agents et la gestion des tâches d’inférence les plus complexes
- Les deux puces seront disponibles en disponibilité générale au second semestre de cette année
- Elles seront proposées dans le cadre de Google AI Hypercomputer
- Une pile intégrée combinant matériel orienté usage (calcul, stockage, réseau), logiciels open (frameworks, moteurs d’inférence) et modèles de consommation flexibles (orchestration, gestion de cluster, modèles de livraison)
1 commentaires
Avis Hacker News
J’ai eu l’impression que Gemini 3 montrait déjà jusqu’où on peut aller avec un apprentissage centré sur l’efficacité. J’estime que Pro et Flash semblent probablement 5 à 10 fois plus petits que des modèles du niveau d’Opus ou de GPT-5 Les appels d’outils cassent souvent et, sur les tâches agentiques, ça reste globalement faible, donc le raisonnement et l’exécution semblent encore manquer de finition. Malgré ça, si on ne regarde que la résolution de problèmes pure sans outils ni recherche, mon impression est qu’il rivalise avec Opus et GPT, tout en paraissant bien plus petit J’ai l’impression que le jour où Google arrêtera le prototypage en phase preview pour sortir un vrai modèle finalisé, ils surprendront tout le monde avec un modèle qui dépassera le SOTA actuel d’environ une génération. Jusqu’ici, les modèles sortis m’ont donné l’impression d’être des prototypes poussés à la hâte en disponibilité générale pour les montrer aux investisseurs et les intégrer à la gamme comme preuve de concept
Pour faire de la grande IA aujourd’hui, j’ai l’impression qu’il faut en pratique soit acheter chez NVidia, soit louer chez Google. Et Google peut concevoir ses puces, ses moteurs et ses systèmes à l’échelle de l’ensemble du datacenter, ce qui lui permet d’optimiser des éléments qu’un vendeur de puces ne peut pas centraliser Donc j’estime que plus on monte en échelle, plus les systèmes Google seront toujours plus rentables. Pour info, je suis long sur GOOG, notamment pour cette raison
Pendant que d’autres entreprises captaient l’attention du cycle médiatique, Google semblait tranquillement suivre une trajectoire où il devenait plus fort, tout en accumulant des parts de marché côté grand public Sans doute grâce à son intégration verticale de l’IA depuis le départ, ils semblaient n’avoir presque aucun problème d’infrastructure ; à une époque l’entreprise paraissait finie, et maintenant on dirait qu’elle grossit dans toutes les directions comme une marée montante
En utilisant Gemini, ChatGPT et Claude tous les trois, j’ai constaté que Gemini utilisait de façon constante beaucoup moins de tokens que les deux autres Au final, si Gemini stagne à son niveau actuel, c’est peut-être simplement à cause d’un budget de réflexion plus faible Google a probablement le plus de compute et la structure de coûts la plus basse ; du coup je me demande pourquoi ils ne poussent pas aussi fort le compute d’inférence que les deux autres. Je ne sais pas si c’est à cause de la charge des autres services ou d’une stratégie centrée sur l’entraînement, mais je trouve ça assez intéressant
L’idée qu’un superpod TPU 8t puisse monter jusqu’à 9 600 puces et 2 Po de mémoire partagée à haute bande passante était impressionnante Je ne suis pas expert du domaine, mais au moins à mes yeux cela ressemblait à un assez gros avantage concurrentiel pour Google
L’affirmation selon laquelle le TPU 8t et le TPU 8i offrent jusqu’à 2 fois plus de performance par watt que la génération précédente était assez impressionnante C’était d’autant plus intéressant que la génération précédente est récente au point d’être un produit de 2025. Le fait que le hardware d’entraînement et celui d’inférence soient séparés a aussi attiré mon attention, et je me demandais si les entreprises utilisant du hardware NV faisaient elles aussi cette séparation ou si c’était plus généraliste
J’utilise Gemini avec Junie de JetBrains, et même si Junie n’est pas aussi bon que Claude Code, il me semble largement devant les outils Google actuels Avec cette combinaison, j’obtiens de manière assez bon marché des résultats cohérents
Parmi les grands fournisseurs d’inférence, j’ai l’impression que Google fait partie de ceux dont la politique de retrait des modèles est la plus pénible Ils suppriment un modèle exactement un an après son lancement et forcent le passage à la génération suivante ; comme ils utilisent leur propre silicium, je pensais justement qu’ils seraient plus stables, mais c’est l’inverse. Le rate limiting est aussi bien plus strict que chez OpenAI, donc je me demande si cela vient des TPU ou si c’est juste une décision politique étrange
S’il doit y avoir un gagnant final de l’IA, j’ai du mal à imaginer autre chose que Google, qui possède l’ensemble de la stack, ou Apple, qui pourrait déployer le plus grand nombre de sites edge compatibles IA
Cette page présentait l’architecture plus en détail. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive