- Google a annoncé Ironwood, la 7e génération de Tensor Processing Unit (TPU)
- Ironwood est le premier TPU spécialement conçu pour l’inférence IA, et le plus puissant et le plus économe en énergie à ce jour
- Il a été conçu pour exécuter des modèles d’IA haute performance comme les grands modèles de langage (LLM) et les Mixture of Experts (MoE)
- Il peut être étendu jusqu’à 9 216 puces et offre une puissance de calcul de 42,5 exaflops
- Cela représente plus de 24 fois les performances d’El Capitan, le superordinateur le plus rapide du monde
L’ère de l’inférence rendue possible par Ironwood
- Alors que l’IA existante répondait aux requêtes des utilisateurs, Ironwood pose les bases d’une ère d’IA capable d’interpréter activement les données et de produire des insights
- Dans cette ère de l’inférence, l’IA collecte et analyse les données à la place de l’utilisateur afin de produire des résultats plus approfondis
- Pour répondre à ces nouvelles exigences de l’IA, Ironwood intègre des capacités de traitement massivement parallèle et d’accès rapide aux données
Configuration matérielle et performances d’Ironwood
- Une configuration en pod TPU de 9 216 puces offre 42,5 exaflops de performances
- Chaque puce fournit 4 614 TFLOPs, ce qui permet de prendre en charge l’entraînement et l’inférence de LLM et de modèles MoE à grande échelle
- L’amélioration de SparseCore accélère le traitement d’embeddings géants, avec des applications possibles dans des domaines variés comme la finance et la science
- Le logiciel Pathways permet de gérer efficacement des dizaines de milliers de puces Ironwood
Principales caractéristiques techniques d’Ironwood
- Le rapport performances / efficacité énergétique a été multiplié par 2 par rapport à la génération précédente
- Une efficacité énergétique environ 30 fois supérieure à celle de Trillium
- Une technologie avancée de refroidissement liquide permet de maintenir des performances stables même sous charge élevée en continu
- La capacité de mémoire à large bande passante (HBM) a fortement augmenté
- 192 Go par puce, soit 6 fois plus que Trillium
- Un avantage pour le traitement de grands modèles et de grands jeux de données
- La bande passante mémoire HBM a été améliorée
- 7,2 TBps par puce, soit 4,5 fois plus que Trillium
- La bande passante de l’Inter-Chip Interconnect (ICI) a été améliorée
- 1,2 Tbps bidirectionnel, soit 1,5 fois plus que Trillium
- Des communications rapides entre puces qui conviennent aux entraînements et à l’inférence distribués à grande échelle
Impact et cas d’usage possibles d’Ironwood
- Ironwood est un composant central de l’architecture Google Cloud Hypercomputer, optimisé pour les besoins de la prochaine génération d’IA générative
- Les modèles d’IA les plus récents comme Gemini 2.5 et AlphaFold s’exécutent également sur une base TPU
- Les clients de Google Cloud pourront traiter leurs charges de travail IA avec de hautes performances, une faible latence et une meilleure efficacité énergétique grâce à Ironwood
- Il devrait être disponible pour les clients dans le courant de 2025 et devrait servir de base à de nouvelles innovations, aussi bien dans la recherche en IA que dans les applications concrètes
1 commentaires
Je me disais bien ces derniers temps que Gemini était écrasant en vitesse de time to first token… voilà donc pourquoi.