Ironwood - le premier TPU de Google pour l’ère de l’inférence

(blog.google)

6 points par GN⁺ 2025-04-10 | 1 commentaires | Partager sur WhatsApp

Google a annoncé Ironwood, la 7e génération de Tensor Processing Unit (TPU)
Ironwood est le premier TPU spécialement conçu pour l’inférence IA, et le plus puissant et le plus économe en énergie à ce jour
Il a été conçu pour exécuter des modèles d’IA haute performance comme les grands modèles de langage (LLM) et les Mixture of Experts (MoE)
Il peut être étendu jusqu’à 9 216 puces et offre une puissance de calcul de 42,5 exaflops
Cela représente plus de 24 fois les performances d’El Capitan, le superordinateur le plus rapide du monde

Alors que l’IA existante répondait aux requêtes des utilisateurs, Ironwood pose les bases d’une ère d’IA capable d’interpréter activement les données et de produire des insights
Dans cette ère de l’inférence, l’IA collecte et analyse les données à la place de l’utilisateur afin de produire des résultats plus approfondis
Pour répondre à ces nouvelles exigences de l’IA, Ironwood intègre des capacités de traitement massivement parallèle et d’accès rapide aux données

Une configuration en pod TPU de 9 216 puces offre 42,5 exaflops de performances
Chaque puce fournit 4 614 TFLOPs, ce qui permet de prendre en charge l’entraînement et l’inférence de LLM et de modèles MoE à grande échelle
L’amélioration de SparseCore accélère le traitement d’embeddings géants, avec des applications possibles dans des domaines variés comme la finance et la science
Le logiciel Pathways permet de gérer efficacement des dizaines de milliers de puces Ironwood

Le rapport performances / efficacité énergétique a été multiplié par 2 par rapport à la génération précédente
- Une efficacité énergétique environ 30 fois supérieure à celle de Trillium
- Une technologie avancée de refroidissement liquide permet de maintenir des performances stables même sous charge élevée en continu
La capacité de mémoire à large bande passante (HBM) a fortement augmenté
- 192 Go par puce, soit 6 fois plus que Trillium
- Un avantage pour le traitement de grands modèles et de grands jeux de données
La bande passante mémoire HBM a été améliorée
- 7,2 TBps par puce, soit 4,5 fois plus que Trillium
La bande passante de l’Inter-Chip Interconnect (ICI) a été améliorée
- 1,2 Tbps bidirectionnel, soit 1,5 fois plus que Trillium
- Des communications rapides entre puces qui conviennent aux entraînements et à l’inférence distribués à grande échelle

Ironwood est un composant central de l’architecture Google Cloud Hypercomputer, optimisé pour les besoins de la prochaine génération d’IA générative
Les modèles d’IA les plus récents comme Gemini 2.5 et AlphaFold s’exécutent également sur une base TPU
Les clients de Google Cloud pourront traiter leurs charges de travail IA avec de hautes performances, une faible latence et une meilleure efficacité énergétique grâce à Ironwood
Il devrait être disponible pour les clients dans le courant de 2025 et devrait servir de base à de nouvelles innovations, aussi bien dans la recherche en IA que dans les applications concrètes

1 commentaires

iwanhae 2025-04-10

Je me disais bien ces derniers temps que Gemini était écrasant en vitesse de time to first token… voilà donc pourquoi.