7 points par GN⁺ 2025-11-28 | 1 commentaires | Partager sur WhatsApp
  • Le Google TPU est une puce ASIC dédiée conçue pour traiter des charges massives d’inférence IA, avec une meilleure efficacité et une meilleure compétitivité en coût que les GPU
  • Son principal facteur différenciant est l’architecture Systolic Array, qui minimise les accès mémoire et maximise l’efficacité de calcul (operations par joule)
  • Le dernier TPUv7 (Ironwood) améliore fortement les performances et la bande passante mémoire par rapport à la génération précédente, atteignant un niveau proche du GPU Nvidia Blackwell
  • Les limites de l’écosystème TPU et son modèle de disponibilité exclusif à GCP restent les principaux freins à son adoption, mais Google réorganise ses équipes et renforce son support pour élargir sa clientèle externe
  • Grâce à ses propres puces, Google pourrait restaurer les marges du cloud et renforcer sa compétitivité, ce qui en ferait à long terme l’un des principaux gagnants du marché de l’infrastructure IA

Histoire des TPU et contexte de leur développement

  • En 2013, Google a conclu qu’il lui faudrait doubler la capacité de ses datacenters en raison de la hausse de l’usage de la recherche vocale
    • Les CPU et GPU existants peinaient à traiter efficacement les calculs de deep learning (grandes multiplications de matrices)
  • Google a donc décidé de développer un ASIC dédié aux réseaux de neurones TensorFlow, et a déployé la puce dans ses datacenters en 15 mois
  • Dès 2015, les TPU étaient déjà utilisés dans des services majeurs comme Google Maps, Photos et Translate
  • Présentés officiellement lors de la Google I/O 2016, les TPU sont ensuite devenus une infrastructure clé pour réduire les coûts d’inférence IA

Différences structurelles entre TPU et GPU

  • Le GPU est un processeur parallèle généraliste, tandis que le TPU repose sur une architecture spécialisée pour un domaine précis
    • Le GPU, conçu à l’origine pour le rendu graphique, intègre une logique de contrôle complexe comme le cache ou la prédiction de branchement
    • Le TPU supprime ces éléments et réduit au minimum les mouvements de données grâce à une structure Systolic Array
  • Le Systolic Array du TPU charge les données une fois, puis les transmet dans un flux de calcul continu, ce qui atténue le goulot d’étranglement de Von Neumann
  • Améliorations d’Ironwood (7e génération)
    • SparseCore renforcé pour améliorer l’efficacité du traitement des embeddings à grande échelle
    • Capacité HBM de 192 Go et bande passante de 7 370 Go/s
    • Amélioration de l’Inter-Chip Interconnect (ICI), avec jusqu’à 1,2 To/s de bande passante
  • Google assemble de grands TPU Pod via un Optical Circuit Switch (OCS) et un réseau torique 3D
    • L’efficacité énergétique est élevée, mais la flexibilité reste inférieure à celle d’InfiniBand

Comparaison de performances : TPU vs GPU

  • TPUv7 (BF16 4 614 TFLOPS) contre TPUv5p (459 TFLOPS), soit environ 10 fois plus de performances
  • Résumé d’entretiens dans l’industrie
    • Les TPU sont en avance sur le rendement énergétique par performance et le rapport coût-efficacité
    • Dans certaines applications, ils atteignent un rapport performance/dollar 1,4 fois supérieur
    • Le TPUv6 affiche un gain d’efficacité de 60 à 65 % par rapport aux GPU, contre 40 à 45 % pour la génération précédente
    • Les TPU chauffent moins, consomment moins d’énergie et ont un impact environnemental plus faible
  • Certains clients peuvent réduire leurs coûts à un cinquième en utilisant des TPU Pod
  • Grâce à l’architecture ASIC, on évoque une réduction de taille de 30 % et une baisse de consommation de 50 %
  • Selon des documents internes de Google, le TPUv7 double les performances par watt par rapport au TPUv6e
  • Le CEO de Nvidia, Jensen Huang, a lui aussi qualifié les TPU de « cas particulier », signe qu’ils attirent l’attention

Les obstacles à l’adoption des TPU

  • Le premier frein est l’écosystème (dominé par CUDA)
    • L’enseignement comme le développement, à l’université comme dans l’industrie, sont largement centrés sur CUDA
    • Les TPU restent surtout orientés JAX et TensorFlow, et le support de PyTorch n’a été renforcé que plus tardivement
  • La montée des stratégies multicloud constitue aussi une limite
    • La plupart des entreprises répartissent leurs données entre AWS, Azure et GCP, et les coûts de sortie de données (egress) rendent les workloads GPU plus flexibles
    • Les TPU sont réservés à GCP, tandis que Nvidia est disponible sur les trois grands clouds
  • Choisir les TPU expose à un coût de réécriture très élevé si les prix changent ou si l’environnement évolue
  • Google n’a commencé que récemment à élargir son organisation pour vendre et diffuser davantage les TPU à l’extérieur, et certains anciens et actuels employés évoquent une possible distribution externe à l’avenir via des néoclouds

La valeur stratégique des TPU pour Google Cloud

  • À l’ère de l’IA, l’industrie du cloud passe d’une structure à fortes marges (50 à 70 %) à des marges plus faibles (20 à 35 %)
    • En cause : la pression sur les coûts liée aux marges de 75 % de Nvidia
  • Seuls les acteurs disposant de leur propre ASIC, en particulier les TPU, peuvent espérer retrouver des marges cloud traditionnelles (autour de 50 %)
  • Les atouts de Google
    • Le TPU est l’ASIC cloud le plus mature
    • Google réalise en interne l’essentiel du front-end de conception de puces, y compris le RTL
    • Broadcom ne gère que la conception physique (back-end), avec une structure de marge inférieure à celle de Nvidia, ce qui renforce la compétitivité coût des TPU
    • Google maîtrise l’ensemble de la pile d’optimisation logicielle, ce qui lui permet de maximiser les performances matérielles
  • Des modèles clés comme Gemini 3 sont entraînés et servis sur TPU
    • L’usage des TPU continue de s’étendre dans les services IA internes de Google
  • SemiAnalysis estime que le TPU de 7e génération de Google est au niveau de Nvidia Blackwell
  • Les TPU sont ainsi vus comme un avantage compétitif durable pour GCP et comme un moteur clé de gain de parts de marché dans l’infrastructure IA

1 commentaires

 
GN⁺ 2025-11-28
Avis Hacker News
  • La vraie arme de Google n’est pas le silicium TPU lui-même, mais la scalabilité parallèle à grande échelle via l’interconnexion OCS (Optical Circuit Switch)
    Selon une citation de The Next Platform, 9 216 TPU Ironwood peuvent être reliés pour exploiter 1,77 PB de mémoire HBM. C’est une échelle écrasante par rapport aux systèmes rack-scale de Nvidia basés sur les GPU Blackwell (20,7 TB de HBM)
    Nvidia est excellent au niveau de la puce individuelle, mais pour l’entraînement ou l’inférence distribués à grande échelle, rien ne semble rivaliser avec la scalabilité par commutation optique de Google

    • Google possède l’ensemble de la pile verticalement intégrée. Cela lui permet de fournir des services d’IA à l’échelle du cloud à un coût bien plus bas tout en restant rentable
      La plupart des entreprises n’ont pas besoin d’acheter elles-mêmes du matériel ni d’entraîner des modèles : elles peuvent simplement utiliser une sorte d’app store d’IA proposé par Google
    • En réalité, les deux systèmes ont des architectures réseau totalement différentes. Le NVLink de Nvidia est un fabric de commutation all-to-all, tandis que le TPU repose sur une structure en torus 3D
      Par exemple, les modèles Mixture of Experts génèrent beaucoup de communication all-to-all, ce qui rend NVLink bien plus efficace dans ce cas
    • Nvidia continue néanmoins de publier des tweets affirmant que sa technologie est meilleure
      Lien vers le tweet officiel de Nvidia
    • Si les affirmations de Google étaient vraies, il devrait écraser les benchmarks MLPerf, mais ce n’est pas le cas
      La parallélisation de modèle favorise un réseau rapide et petit, tandis que la parallélisation de données favorise un grand réseau. C’est cet équilibre qui permet à Nvidia de l’emporter
    • Pour atteindre la même capacité mémoire, Google a besoin de 100 fois plus de puces
  • Gemini 3 Pro est déjà presque ancien. Google dispose de bien plus de ressources qu’Anthropic, donc si le matériel était son arme secrète, il aurait déjà dû dominer le marché
    Mais la réalité est différente

    1. Il est difficile d’utiliser efficacement le matériel, et une fois l’optimisation terminée, on est déjà passé au modèle suivant
    2. Pour la plupart des entreprises, le problème se résout avec de l’argent. Même des H100 suffisent largement
    3. De nouvelles techniques de recherche à elles seules peuvent fortement améliorer les performances des modèles
    4. Le développement des modèles implique encore beaucoup de travail humain, comme le nettoyage des jeux de données et les tâches d’évaluation
    5. Le matériel sur mesure crée des problèmes sur mesure. On ne trouve pas la réponse aux problèmes de cluster TPU sur Stack Overflow
  • Certains estiment que CUDA est important pour l’entraînement, mais moins crucial pour l’inférence

    • Les puces NVIDIA sont plus généralistes. Pendant l’entraînement, il faut diverses fonctions comme des opérations spéciales de type sin et cos, le stockage de calculs intermédiaires, le traitement des gradients, etc.
      Mais l’inférence est un processus simple qui consiste à réappliquer des poids fixes, donc les TPU peuvent y être plus efficaces
    • Le marché des puces d’entraînement est peut-être une bulle, mais celui de l’inférence est bien plus vaste. Un jour, quand les performances des modèles seront suffisantes, la demande d’entraînement diminuera et les systèmes d’inférence économes en énergie deviendront dominants
    • Si CUDA est important, c’est à cause de la dépendance à l’écosystème. La plupart des logiciels d’entraînement sont construits sur CUDA
    • L’entraînement consiste à découper un énorme problème et à gérer les dépendances de données, tandis que l’inférence est un ensemble de petits problèmes indépendants
    • CUDA offre une expérience développeur bien meilleure. Quand la productivité de la recherche compte, c’est décisif
  • Rien n’empêche Nvidia de créer des puces spécialisées comme les TPU

    • Nvidia finira d’ailleurs probablement par le faire. Mais Google, en tant que concepteur de puces et entreprise d’IA, capte tous les bénéfices
      Nvidia fait fabriquer chez TSMC puis vend à prix élevé, tandis que Google économise la marge en utilisant ses puces en interne
    • DeepMind collabore directement avec l’équipe TPU pour concevoir des puces adaptées à chaque projet. OpenAI a aussi annoncé développer ses propres puces pour la même raison, mais cela demande énormément de capital
    • Les TPU sont moins chers que les GPU NVidia et verticalement intégrés pour l’usage interne de Google
    • Le risque pour Nvidia n’est pas tant une crise existentielle qu’une baisse des marges. Même si les ventes de puces augmentent de 100×, si la marge tombe à 5 %, la capitalisation boursière diminue
    • En réalité, Nvidia évolue déjà dans la même direction avec les Tensor Core
  • Un article de Reuters indique que Meta négocie un investissement de plusieurs milliards de dollars dans les puces de Google

  • Les ASIC pour LLM sont bien plus complexes que les ASIC pour les cryptomonnaies. Dans les cryptos, il suffit de traiter un algorithme de hachage fixe, alors que les LLM évoluent constamment
    Dans ce contexte, le sens des TPU paraît flou

    • Pour les LLM, ce qui compte, c’est la bande passante mémoire et interconnexion. À l’inverse, les cryptomonnaies sont centrées à 100 % sur le calcul
    • La plupart des LLM reposent surtout sur la multiplication matricielle, que les TPU accélèrent. PyTorch prend aussi en charge les TPU
    • Même un ASIC peut être programmable. Les TPU doivent exécuter divers modèles, ils sont donc différents d’une puce entièrement câblée en dur
    • L’architecture des LLM change, mais les composants communs (opérations matricielles, types en virgule flottante) restent les mêmes. En ce sens, les TPU sont de facto des ASIC pour LLM
    • Les cryptomonnaies changent aussi. Par exemple, Monero utilise une architecture de niveau CPU pour empêcher les ASIC
  • J’aimerais qu’il existe davantage d’options de TPU autonomes pour les particuliers. À l’heure actuelle, le seul choix est un Coral datant de 2019

  • Ce débat est aussi théorique que RISC vs CISC. Les GPU Nvidia sont eux aussi finalement conçus pour faire la même chose que les TPU
    Même chez Google, il se peut qu’il n’y ait plus de grande différence dans 5 ans
    Google tire profit des TPU, mais il n’y a pas de bénéfice direct pour les développeurs externes

    • Il est vrai que Google ne vend pas ses TPU, mais d’autres entreprises développent aussi leurs propres puces
      Avec Maia de Microsoft, les puces datacenter d’AMD/NVIDIA, et les acquisitions d’entreprises spécialisées dans le réseau, tout le monde va dans la même direction
      Google a de l’avance, mais au final ce sera une concurrence convergente
  • Les modèles creux (sparse models) peuvent réduire par 16 la quantité de calcul et l’espace de stockage tout en conservant la même qualité
    Les TPU sont faibles pour le traitement des matrices creuses, mais performants pour l’entraînement de modèles denses (dense)

  • Au final, la question reste : où se trouve la ligne d’arrivée de cette compétition, ou où se situe le plancher