Le refroidissement liquide de Google présenté à Hot Chips 2025

(chipsandcheese.com)

4 points par GN⁺ 2025-08-26 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le refroidissement liquide se généralise rapidement pour résoudre les problèmes de chaleur des puces à haute consommation dans les data centers
Avec une conductivité thermique environ 4 000 fois supérieure à celle de l’air, Google l’adopte activement pour répondre notamment à la demande de refroidissement des TPU liée au boom de l’IA
Google exploite des boucles de refroidissement liquide à l’échelle du rack basées sur des CDU (Coolant Distribution Unit), ce qui améliore la maintenance et la scalabilité
Des techniques comme les cold plates à flux divisé et le refroidissement bare-die (TPUv4), issues du marché des PC haute performance, sont appliquées à l’échelle des data centers
Le refroidissement liquide est efficace, avec une consommation électrique inférieure à 5 % de celle des ventilateurs, et pour faire face à des problèmes comme les fuites ou la prolifération microbienne, Google combine validation rigoureuse, système d’alerte et maintenance préventive
NVIDIA, Rebellions AI et d’autres adoptent aussi le refroidissement liquide, ce qui accélère la standardisation du refroidissement des data centers

Nécessité et contexte du refroidissement liquide

Le refroidissement liquide est familier chez les passionnés de PC et possède aussi une longue histoire dans les environnements de calcul d’entreprise
Avec l’augmentation récente de la consommation électrique des charges de travail IA et machine learning, son importance dans les data centers s’est fortement accrue
Google a retenu cette approche en soulignant que la conductivité thermique de l’eau est environ 4 000 fois supérieure à celle de l’air, comme réponse à la forte chaleur des puces récentes
À Hot Chips 2025, Google a présenté une méthode de refroidissement liquide à l’échelle du data center pour le refroidissement des TPU (accélérateurs de machine learning)

Google applique le refroidissement liquide à ses TPU depuis 2018, avec de nombreuses expérimentations et améliorations
La solution de refroidissement la plus récente ne se limite pas à l’intérieur des serveurs : elle applique une boucle de refroidissement liquide à l’ensemble du rack
Un rack de refroidissement se compose de 6 CDU (Coolant Distribution Unit), qui jouent un rôle comparable à un combo radiateur + pompe sur PC
L’adoption de tuyaux flexibles et de raccords à déconnexion rapide améliore la facilité de maintenance et les tolérances d’installation
Même avec seulement 5 CDU sur 6 en fonctionnement, le refroidissement reste suffisant, ce qui évite d’interrompre l’ensemble du système lors de la maintenance d’une unité

Les CDU n’échangent que la chaleur entre le liquide de refroidissement interne et l’eau d’alimentation externe du data center, sans mélange direct entre les deux fluides
Le liquide de refroidissement sortant des CDU est distribué à de nombreux serveurs TPU via un manifold
La connexion des puces TPU suit une structure séquentielle (en série), et le budget global de refroidissement est calculé en fonction des besoins thermiques de la dernière puce de la boucle

L’architecture split-flow cold plate permet d’obtenir de meilleures performances de refroidissement qu’une conception linéaire classique
En complément, Google applique le refroidissement bare-die (TPUv4, alors que les anciens TPUv3 étaient lidded), comparable au « delidding » utilisé par les passionnés de PC haut de gamme pour améliorer le transfert thermique
Le TPUv4 nécessite cette méthode supplémentaire en raison d’une consommation électrique 1,6 fois plus élevée que celle du v3

La consommation électrique des pompes de refroidissement liquide représente moins de 5 % de celle des ventilateurs de refroidissement à air traditionnels
Le système de Google repose sur un échange thermique water-to-water, où l’essentiel de la puissance de refroidissement est en pratique assuré par les pompes
Dans l’univers des passionnés de PC, la combinaison ventilateur-radiateur reste majoritaire, ce qui réduit l’avantage énergétique par rapport aux data centers

Du point de vue de la maintenance, les risques classiques des systèmes de refroidissement liquide — comme la prolifération microbienne ou les fuites — existent aussi à l’échelle des data centers
Grâce à des dispositifs comme les raccords à déconnexion rapide, les CDU de secours et d’autres aménagements facilitant la maintenance, Google vise une gestion à grande échelle sans interruption de service
Maintenance préventive, tests de fuite, détection de divers signaux d’anomalie et protocoles de réponse structurés permettent d’assurer cohérence opérationnelle et fiabilité à l’échelle de l’entreprise
Cela contraste avec les pratiques de gestion informelles des passionnés de PC individuels

NVIDIA, Rebellions AI et d’autres ont également présenté à Hot Chips 2025 divers systèmes externes de refroidissement liquide
- Serveur NVIDIA GB300 : ports externes de refroidissement liquide et ventilateurs disposés ensemble
- Rebellions AI, entreprise coréenne, a fait la démonstration d’un prototype de son nouvel accélérateur ML, REBEL Quad, avec une approche similaire combinant refroidisseur et chiller
La hausse des charges de travail liées à l’IA devrait continuer à accélérer la demande et l’adoption du refroidissement liquide pour data centers