Deux puces pour l’ère des agents : les TPU de 8e génération de Google

(blog.google)

6 points par GN⁺ 7 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Google a présenté deux TPU de 8e génération, synthèse de plus de dix ans de développement des TPU, avec une architecture spécialisée pour chacun : le TPU 8t dédié à l’entraînement des grands modèles et le TPU 8i dédié à l’inférence haute vitesse
Le TPU 8t permet à un seul superpod de monter jusqu’à 9 600 puces et 121 ExaFlops, avec une puissance de calcul par pod environ 3 fois supérieure à celle de la génération précédente
Le TPU 8i a été repensé pour l’inférence agentique en mettant l’accent sur l’optimisation de la bande passante mémoire et de la latence ; grâce à l’augmentation de la SRAM on-chip, à l’hôte CPU Axion et aux améliorations réseau pour les MoE, il atteint une amélioration de 80 % du rapport performance/coût
Les deux puces fonctionnent avec l’hôte CPU Axion basé sur ARM conçu par Google, avec jusqu’à 2 fois plus de performances par watt que la génération précédente
Il s’agit d’une stratégie d’infrastructure qui sépare et optimise l’entraînement et l’inférence pour l’ère où les agents IA raisonnent, planifient et exécutent en continu ; disponibilité générale prévue au second semestre de cette année, dans le cadre de Google AI Hypercomputer

Vue d’ensemble des TPU de 8e génération

Annonce au Google Cloud Next des Tensor Processor Unit (TPU) de 8e génération, déclinés en deux architectures : le TPU 8t pour l’entraînement et le TPU 8i pour l’inférence
Conçus pour faire tourner des supercalculateurs sur mesure, ils couvrent l’entraînement de modèles de pointe, le développement d’agents et les charges d’inférence à grande échelle
Google exploite depuis des années des modèles foundation majeurs, dont Gemini, sur TPU ; cette 8e génération apporte simultanément échelle, efficacité et performances pour l’entraînement, le serving et les charges agentiques
À l’ère des agents IA, les modèles doivent raisonner sur des problèmes, exécuter des workflows en plusieurs étapes et apprendre de leurs propres actions dans une boucle continue, ce qui impose de nouvelles exigences à l’infrastructure
Conçus en collaboration avec Google DeepMind pour gérer les charges IA les plus exigeantes et s’adapter à l’évolution des architectures de modèles

Plus de dix ans de philosophie de conception

Les TPU ont défini des standards pour les composants de supercalcul ML, comme les opérations numériques personnalisées, le refroidissement liquide et les interconnexions sur mesure ; la 8e génération représente l’aboutissement de plus de dix ans de développement
Principe central de conception : co-design du silicium avec le matériel, le réseau et le logiciel (y compris les architectures de modèles et les exigences applicatives), afin d’obtenir des progrès marqués à la fois en efficacité énergétique et en performances absolues
Citadel Securities est cité comme exemple d’organisation de premier plan ayant choisi les TPU pour ses charges IA

Pourquoi séparer entraînement et inférence

Les cycles de développement matériel étant bien plus longs que ceux du logiciel, chaque génération de TPU doit anticiper les technologies et la demande au moment de sa mise sur le marché
Google avait anticipé depuis plusieurs années la hausse de la demande en inférence liée au déploiement en production des modèles d’IA de pointe
Avec l’essor des agents IA, les exigences de l’entraînement et du serving divergent ; Google estime donc que des puces spécialisées distinctes profitent davantage à l’écosystème
Le TPU 8t est optimisé pour l’entraînement à grande échelle, avec davantage de débit de calcul et de bande passante scale-up
Le TPU 8i est optimisé pour les charges d’inférence sensibles à la latence, avec plus de bande passante mémoire, car au sein des interactions entre agents, même de petites inefficacités s’amplifient à grande échelle
Les deux puces peuvent exécuter des charges variées, mais cette spécialisation apporte des gains d’efficacité significatifs

TPU 8t : une machine de puissance pour l’entraînement

L’objectif est de ramener le cycle de développement des modèles de pointe de plusieurs mois à quelques semaines
Combine un débit de calcul de très haut niveau, de la mémoire partagée et de la bande passante inter-puces, avec un équilibre entre efficacité énergétique optimale et temps de calcul réellement productif
Puissance de calcul par pod environ 3 fois supérieure à celle de la génération précédente
Passage à l’échelle massif (Massive Scale)
- Un seul superpod TPU 8t peut monter jusqu’à 9 600 puces et 2 pétaoctets de HBM partagée
- Bande passante inter-puces multipliée par 2 par rapport à la génération précédente
- 121 ExaFlops de puissance de calcul, permettant aux modèles les plus complexes d’exploiter un unique grand pool mémoire
Utilisation maximale (Maximum Utilization)
- Intégration d’un accès au stockage 10 fois plus rapide
- Avec TPUDirect, les données sont injectées directement vers les TPU afin d’assurer l’utilisation maximale de bout en bout du système
Scalabilité quasi linéaire (Near-Linear Scaling)
- Le nouveau Virgo Network, combiné aux logiciels JAX et Pathways, permet une montée en charge quasi linéaire jusqu’à 1 million de puces dans un cluster logique unique
Fiabilité et disponibilité
- Objectif de goodput (temps de calcul productif utile) supérieur à 97 %
- Intègre des fonctions complètes de RAS (Reliability, Availability, Serviceability)
  - Télémétrie en temps réel sur des dizaines de milliers de puces
  - Détection automatique des liens ICI défectueux et reroutage sans interruption des tâches
  - OCS (Optical Circuit Switching) pour reconfigurer le matériel autour des incidents sans intervention humaine
- À l’échelle de l’entraînement frontier, les pannes matérielles, la latence réseau et les redémarrages de checkpoints sont du temps hors entraînement ; un écart de 1 point de pourcentage peut représenter plusieurs jours de calcul

TPU 8i : moteur d’inférence

À l’ère agentique, les utilisateurs attendent de pouvoir poser une question, déléguer une tâche et recevoir un résultat ; la puce est donc optimisée pour des flux complexes où plusieurs agents spécialisés collaborent en swarming
Pour éliminer l’« effet salle d’attente », la pile a été repensée autour de quatre innovations clés
Briser le mur de la mémoire (Breaking the Memory Wall)
- Équipé de 288GB de HBM et de 384MB de SRAM on-chip (3 fois plus que la génération précédente)
- Permet de conserver sur la puce l’ensemble du working set actif du modèle et d’éviter que le processeur reste inactif
Efficacité portée par Axion
- Double le nombre d’hôtes CPU physiques par serveur et adopte le CPU Axion basé sur ARM conçu par Google
- Optimise les performances du système global grâce à l’isolation NUMA (Non-Uniform Memory Architecture)
Montée en charge des modèles MoE
- Pour les derniers modèles Mixture of Expert (MoE), la bande passante ICI est doublée à 19.2 Tb/s
- La nouvelle architecture Boardfly réduit le diamètre réseau maximal de plus de 50 %, pour fonctionner comme une unité cohérente à faible latence
Élimination de la latence (Eliminating Lag)
- Le nouveau CAE (Collectives Acceleration Engine) on-chip décharge les opérations globales et réduit la latence sur puce jusqu’à 5 fois
Rapport performance/coût
- 80 % de performances en plus par dollar par rapport à la génération précédente, soit presque 2 fois plus de volume client servi à coût identique

Co-design avec Gemini, ouvert à tous

Les TPU de 8e génération constituent la dernière expression d’une philosophie de co-design dans laquelle chaque spécification est pensée pour répondre aux plus grands défis de l’IA
Topologie Boardfly : conçue pour répondre aux besoins de communication des meilleurs modèles d’inférence actuels
Capacité SRAM du TPU 8i : calibrée sur l’empreinte du cache KV des modèles d’inférence à l’échelle production
Objectif de bande passante du Virgo Network : dérivé des besoins de parallélisation de l’entraînement de modèles aux paramètres en milliers de milliards
Les deux puces fonctionnent, pour la première fois, avec l’hôte CPU Axion basé sur ARM conçu par Google, ce qui permet d’optimiser non seulement la puce, mais l’ensemble du système
Frameworks et accessibilité
- Support natif de JAX, MaxText, PyTorch, SGLang, vLLM
- Accès bare metal permettant un accès direct au matériel sans surcoût de virtualisation
- Contributions open source : implémentation de référence MaxText, Tunix pour l’apprentissage par renforcement, entre autres, afin de couvrir le chemin critique du développement au déploiement en production

Une conception axée sur l’efficacité énergétique à grande échelle

Dans les datacenters actuels, l’approvisionnement en puces n’est plus la seule contrainte : l’énergie est devenue la ressource limitante
L’efficacité est optimisée sur l’ensemble de la pile, avec une gestion intégrée de l’énergie ajustant dynamiquement la consommation selon la demande en temps réel
Les TPU 8t et TPU 8i offrent tous deux jusqu’à 2 fois plus de performances par watt que la génération précédente (Ironwood)
L’efficacité n’est pas seulement une métrique au niveau de la puce, mais un engagement au niveau système allant du silicium au datacenter
- Les connexions réseau sont intégrées sur la même puce que le calcul, ce qui réduit fortement le coût énergétique des déplacements de données dans les pods TPU
- Les datacenters ont eux aussi été co-conçus avec les TPU, avec une puissance de calcul 6 fois supérieure par unité d’énergie par rapport à il y a cinq ans
Les deux puces s’appuient sur une technologie de refroidissement liquide de 4e génération, indispensable pour maintenir une densité de performance impossible à atteindre en refroidissement par air
Le contrôle de l’ensemble de la pile, de l’hôte Axion à l’accélérateur, permet une optimisation de l’efficacité énergétique au niveau système impossible avec une conception séparée de l’hôte et de la puce

Une infrastructure pour l’ère agentique

Chaque grand changement dans l’informatique nécessite une innovation d’infrastructure, et l’ère agentique ne fait pas exception
L’infrastructure doit évoluer pour répondre aux besoins d’agents autonomes exécutant en continu des boucles de raisonnement, planification, exécution et apprentissage
Les TPU 8t et TPU 8i constituent la réponse de Google à ce défi : deux architectures spécialisées qui redéfinissent la construction des meilleurs modèles d’IA, l’orchestration parfaite de swarms d’agents et la gestion des tâches d’inférence les plus complexes
Les deux puces seront disponibles en disponibilité générale au second semestre de cette année
Elles seront proposées dans le cadre de Google AI Hypercomputer
- Une pile intégrée combinant matériel orienté usage (calcul, stockage, réseau), logiciels open (frameworks, moteurs d’inférence) et modèles de consommation flexibles (orchestration, gestion de cluster, modèles de livraison)

Deux puces pour l’ère des agents : les TPU de 8e génération de Google

Vue d’ensemble des TPU de 8e génération

Plus de dix ans de philosophie de conception

Pourquoi séparer entraînement et inférence

TPU 8t : une machine de puissance pour l’entraînement

Passage à l’échelle massif (Massive Scale)

Utilisation maximale (Maximum Utilization)

Scalabilité quasi linéaire (Near-Linear Scaling)

Fiabilité et disponibilité

TPU 8i : moteur d’inférence

Briser le mur de la mémoire (Breaking the Memory Wall)

Efficacité portée par Axion

Montée en charge des modèles MoE

Élimination de la latence (Eliminating Lag)

Rapport performance/coût

Co-design avec Gemini, ouvert à tous

Frameworks et accessibilité

Une conception axée sur l’efficacité énergétique à grande échelle

Une infrastructure pour l’ère agentique

À lire aussi

Aucun commentaire pour le moment.