Le refroidissement liquide de Google présenté à Hot Chips 2025
(chipsandcheese.com)- Le refroidissement liquide se généralise rapidement pour résoudre les problèmes de chaleur des puces à haute consommation dans les data centers
- Avec une conductivité thermique environ 4 000 fois supérieure à celle de l’air, Google l’adopte activement pour répondre notamment à la demande de refroidissement des TPU liée au boom de l’IA
- Google exploite des boucles de refroidissement liquide à l’échelle du rack basées sur des CDU (Coolant Distribution Unit), ce qui améliore la maintenance et la scalabilité
- Des techniques comme les cold plates à flux divisé et le refroidissement bare-die (TPUv4), issues du marché des PC haute performance, sont appliquées à l’échelle des data centers
- Le refroidissement liquide est efficace, avec une consommation électrique inférieure à 5 % de celle des ventilateurs, et pour faire face à des problèmes comme les fuites ou la prolifération microbienne, Google combine validation rigoureuse, système d’alerte et maintenance préventive
- NVIDIA, Rebellions AI et d’autres adoptent aussi le refroidissement liquide, ce qui accélère la standardisation du refroidissement des data centers
Nécessité et contexte du refroidissement liquide
- Le refroidissement liquide est familier chez les passionnés de PC et possède aussi une longue histoire dans les environnements de calcul d’entreprise
- Avec l’augmentation récente de la consommation électrique des charges de travail IA et machine learning, son importance dans les data centers s’est fortement accrue
- Google a retenu cette approche en soulignant que la conductivité thermique de l’eau est environ 4 000 fois supérieure à celle de l’air, comme réponse à la forte chaleur des puces récentes
- À Hot Chips 2025, Google a présenté une méthode de refroidissement liquide à l’échelle du data center pour le refroidissement des TPU (accélérateurs de machine learning)
Architecture du système de refroidissement liquide de Google
- Google applique le refroidissement liquide à ses TPU depuis 2018, avec de nombreuses expérimentations et améliorations
- La solution de refroidissement la plus récente ne se limite pas à l’intérieur des serveurs : elle applique une boucle de refroidissement liquide à l’ensemble du rack
- Un rack de refroidissement se compose de 6 CDU (Coolant Distribution Unit), qui jouent un rôle comparable à un combo radiateur + pompe sur PC
- L’adoption de tuyaux flexibles et de raccords à déconnexion rapide améliore la facilité de maintenance et les tolérances d’installation
- Même avec seulement 5 CDU sur 6 en fonctionnement, le refroidissement reste suffisant, ce qui évite d’interrompre l’ensemble du système lors de la maintenance d’une unité
Échange thermique et disposition des puces
- Les CDU n’échangent que la chaleur entre le liquide de refroidissement interne et l’eau d’alimentation externe du data center, sans mélange direct entre les deux fluides
- Le liquide de refroidissement sortant des CDU est distribué à de nombreux serveurs TPU via un manifold
- La connexion des puces TPU suit une structure séquentielle (en série), et le budget global de refroidissement est calculé en fonction des besoins thermiques de la dernière puce de la boucle
Optimisation des technologies de refroidissement
- L’architecture split-flow cold plate permet d’obtenir de meilleures performances de refroidissement qu’une conception linéaire classique
- En complément, Google applique le refroidissement bare-die (TPUv4, alors que les anciens TPUv3 étaient lidded), comparable au « delidding » utilisé par les passionnés de PC haut de gamme pour améliorer le transfert thermique
- Le TPUv4 nécessite cette méthode supplémentaire en raison d’une consommation électrique 1,6 fois plus élevée que celle du v3
Efficacité énergétique et transfert de chaleur
- La consommation électrique des pompes de refroidissement liquide représente moins de 5 % de celle des ventilateurs de refroidissement à air traditionnels
- Le système de Google repose sur un échange thermique water-to-water, où l’essentiel de la puissance de refroidissement est en pratique assuré par les pompes
- Dans l’univers des passionnés de PC, la combinaison ventilateur-radiateur reste majoritaire, ce qui réduit l’avantage énergétique par rapport aux data centers
Maintenance, fiabilité et sécurité
- Du point de vue de la maintenance, les risques classiques des systèmes de refroidissement liquide — comme la prolifération microbienne ou les fuites — existent aussi à l’échelle des data centers
- Grâce à des dispositifs comme les raccords à déconnexion rapide, les CDU de secours et d’autres aménagements facilitant la maintenance, Google vise une gestion à grande échelle sans interruption de service
- Maintenance préventive, tests de fuite, détection de divers signaux d’anomalie et protocoles de réponse structurés permettent d’assurer cohérence opérationnelle et fiabilité à l’échelle de l’entreprise
- Cela contraste avec les pratiques de gestion informelles des passionnés de PC individuels
Tendances du secteur et engouement pour l’IA
- NVIDIA, Rebellions AI et d’autres ont également présenté à Hot Chips 2025 divers systèmes externes de refroidissement liquide
- Serveur NVIDIA GB300 : ports externes de refroidissement liquide et ventilateurs disposés ensemble
- Rebellions AI, entreprise coréenne, a fait la démonstration d’un prototype de son nouvel accélérateur ML, REBEL Quad, avec une approche similaire combinant refroidisseur et chiller
- La hausse des charges de travail liées à l’IA devrait continuer à accélérer la demande et l’adoption du refroidissement liquide pour data centers
1 commentaires
Avis Hacker News
J’ai vu il y a quelque temps une interview d’un SVP chargé de superviser la construction des data centers Azure ; je me souviens qu’il disait qu’à un moment il avait compris qu’il ne travaillait plus dans l’informatique mais dans le refroidissement industriel, et que cela lui avait rendu le travail beaucoup plus simple. En lisant cet article, j’ai immédiatement repensé à cette remarque.
Les mainframes (S/3x0, Cray, etc.) utilisent largement le refroidissement par eau depuis plus de 50 ans, et les data centers HPC de niveau supercalculateur ont eux aussi recours au refroidissement liquide depuis au moins 20 ans. Comparer la conception d’un data center à l’échelle de Google au cooling des passionnés de PC me paraît donc assez étrange ; c’est soit oublier l’histoire, soit choisir un point de comparaison complètement inadapté.
En théorie, le refroidissement d’un data center est simple : les CPU fonctionnent à 60-70 °C, et la température extérieure reste généralement sous les 30 °C, donc avec un peu d’aide de ventilateurs et de pompes, la chaleur « descend » naturellement. Le problème avec le refroidissement par air, c’est que le personnel du site doit respirer ce même air utilisé pour refroidir les ordinateurs. Quand la température de climatisation monte, ce n’est pas bon pour la santé des employés (chez nous, on exploite les hot aisles autour de 100F même en hiver, avec un échangeur thermique tous les trois racks refroidi par de l’eau glacée externe). Quand la température extérieure augmente, le fluide de refroidissement doit lui aussi être plus chaud pour pouvoir rejeter efficacement la chaleur hors du bâtiment, et les chillers deviennent indispensables. En période de forte chaleur, la consommation d’énergie grimpe aussi fortement. Si tout le data center passait au refroidissement liquide, on pourrait probablement augmenter bien davantage la température du coolant sortant des racks et rejeter la chaleur sans chiller, même pendant les journées les plus chaudes. Aujourd’hui, seul une partie est refroidie par liquide, et la température du coolant est limitée pour s’aligner sur celle des hot aisles ; même ainsi, c’est déjà très chaud.
L’article mentionnait le fait de chaîner des puces TPU en série dans une boucle de refroidissement et de dimensionner la capacité en fonction de la température de la dernière puce. Si quatre puces dissipent chacune 250 W et qu’une pompe pousse 1 litre d’eau par minute, alors la sortie sera nécessairement 14 °C plus chaude que l’entrée. C’est vrai aussi bien en série qu’en parallèle (à cause de la capacité thermique massique de l’eau).
Je n’ai plus autant d’attentes qu’avant vis-à-vis de l’infrastructure Google. Les atteintes répétées de Google à la liberté d’Internet ont fortement diminué la sympathie que j’avais pour l’entreprise. Désormais, même des choses comme ce système de refroidissement liquide qu’ils déploient me laissent assez froid. Selon les détails, ce n’est sûrement pas simple, mais je n’y vois rien de particulièrement innovant. Si un employé Google lit ceci et s’en attriste, je pense que le problème ne vient pas des individus mais de Google en tant qu’entreprise. Vous pourriez envisager de faire des choses intéressantes ailleurs.
Cela me rappelle un exemple intéressant vu chez B1M : la piscine olympique de Paris serait chauffée par la chaleur d’Internet : vidéo YouTube
On entend souvent dire que l’IA gaspille de l’eau ; je me demande si c’est aussi le cas ici. J’aimerais savoir si les CDU utilisent l’eau du site pour du refroidissement par évaporation.
Je me demande quelle est l’économie du refroidissement par eau : est-ce que cela devient intéressant parce que les puces sont plus chères et qu’il faut les faire tourner plus vite, parce que l’espace en data center coûte plus cher et qu’il faut augmenter la densité, ou parce que réduire la distance de transmission du signal (1 pied = 1 nanoseconde) améliore d’autant l’efficacité du calcul ?
En théorie, un utilisateur PC pourrait aussi faire circuler son fluide de refroidissement dans le réservoir des toilettes, et bénéficier ainsi d’un refroidissement efficace à chaque chasse d’eau. Le futur est là.
J’ai souvent travaillé dans des data centers entre 2006 et 2012, et je devais souvent m’y rendre tard le soir. C’est un environnement plus rude qu’on ne l’imagine. J’aurais aimé que le refroidissement soit un peu plus silencieux et moins extrême. Si les ports et autres connecteurs sont à l’arrière, c’est justement parce que c’est de ce côté que se trouve l’admission d’air. Je me souviens être allé du côté chaud pour me réchauffer les mains.