6 points par GN⁺ 2025-04-10 | 1 commentaires | Partager sur WhatsApp
  • Google a annoncé Ironwood, la 7e génération de Tensor Processing Unit (TPU)
  • Ironwood est le premier TPU spécialement conçu pour l’inférence IA, et le plus puissant et le plus économe en énergie à ce jour
  • Il a été conçu pour exécuter des modèles d’IA haute performance comme les grands modèles de langage (LLM) et les Mixture of Experts (MoE)
  • Il peut être étendu jusqu’à 9 216 puces et offre une puissance de calcul de 42,5 exaflops
  • Cela représente plus de 24 fois les performances d’El Capitan, le superordinateur le plus rapide du monde

L’ère de l’inférence rendue possible par Ironwood

  • Alors que l’IA existante répondait aux requêtes des utilisateurs, Ironwood pose les bases d’une ère d’IA capable d’interpréter activement les données et de produire des insights
  • Dans cette ère de l’inférence, l’IA collecte et analyse les données à la place de l’utilisateur afin de produire des résultats plus approfondis
  • Pour répondre à ces nouvelles exigences de l’IA, Ironwood intègre des capacités de traitement massivement parallèle et d’accès rapide aux données

Configuration matérielle et performances d’Ironwood

  • Une configuration en pod TPU de 9 216 puces offre 42,5 exaflops de performances
  • Chaque puce fournit 4 614 TFLOPs, ce qui permet de prendre en charge l’entraînement et l’inférence de LLM et de modèles MoE à grande échelle
  • L’amélioration de SparseCore accélère le traitement d’embeddings géants, avec des applications possibles dans des domaines variés comme la finance et la science
  • Le logiciel Pathways permet de gérer efficacement des dizaines de milliers de puces Ironwood

Principales caractéristiques techniques d’Ironwood

  • Le rapport performances / efficacité énergétique a été multiplié par 2 par rapport à la génération précédente
    • Une efficacité énergétique environ 30 fois supérieure à celle de Trillium
    • Une technologie avancée de refroidissement liquide permet de maintenir des performances stables même sous charge élevée en continu
  • La capacité de mémoire à large bande passante (HBM) a fortement augmenté
    • 192 Go par puce, soit 6 fois plus que Trillium
    • Un avantage pour le traitement de grands modèles et de grands jeux de données
  • La bande passante mémoire HBM a été améliorée
    • 7,2 TBps par puce, soit 4,5 fois plus que Trillium
  • La bande passante de l’Inter-Chip Interconnect (ICI) a été améliorée
    • 1,2 Tbps bidirectionnel, soit 1,5 fois plus que Trillium
    • Des communications rapides entre puces qui conviennent aux entraînements et à l’inférence distribués à grande échelle

Impact et cas d’usage possibles d’Ironwood

  • Ironwood est un composant central de l’architecture Google Cloud Hypercomputer, optimisé pour les besoins de la prochaine génération d’IA générative
  • Les modèles d’IA les plus récents comme Gemini 2.5 et AlphaFold s’exécutent également sur une base TPU
  • Les clients de Google Cloud pourront traiter leurs charges de travail IA avec de hautes performances, une faible latence et une meilleure efficacité énergétique grâce à Ironwood
  • Il devrait être disponible pour les clients dans le courant de 2025 et devrait servir de base à de nouvelles innovations, aussi bien dans la recherche en IA que dans les applications concrètes

1 commentaires

 
iwanhae 2025-04-10

Je me disais bien ces derniers temps que Gemini était écrasant en vitesse de time to first token… voilà donc pourquoi.