- Le refroidissement liquide se généralise rapidement pour résoudre les problèmes de chaleur des puces à haute consommation dans les data centers
- Avec une conductivité thermique environ 4 000 fois supérieure à celle de l’air, Google l’adopte activement pour répondre notamment à la demande de refroidissement des TPU liée au boom de l’IA
- Google exploite des boucles de refroidissement liquide à l’échelle du rack basées sur des CDU (Coolant Distribution Unit), ce qui améliore la maintenance et la scalabilité
- Des techniques comme les cold plates à flux divisé et le refroidissement bare-die (TPUv4), issues du marché des PC haute performance, sont appliquées à l’échelle des data centers
- Le refroidissement liquide est efficace, avec une consommation électrique inférieure à 5 % de celle des ventilateurs, et pour faire face à des problèmes comme les fuites ou la prolifération microbienne, Google combine validation rigoureuse, système d’alerte et maintenance préventive
- NVIDIA, Rebellions AI et d’autres adoptent aussi le refroidissement liquide, ce qui accélère la standardisation du refroidissement des data centers
Nécessité et contexte du refroidissement liquide
- Le refroidissement liquide est familier chez les passionnés de PC et possède aussi une longue histoire dans les environnements de calcul d’entreprise
- Avec l’augmentation récente de la consommation électrique des charges de travail IA et machine learning, son importance dans les data centers s’est fortement accrue
- Google a retenu cette approche en soulignant que la conductivité thermique de l’eau est environ 4 000 fois supérieure à celle de l’air, comme réponse à la forte chaleur des puces récentes
- À Hot Chips 2025, Google a présenté une méthode de refroidissement liquide à l’échelle du data center pour le refroidissement des TPU (accélérateurs de machine learning)
Architecture du système de refroidissement liquide de Google
- Google applique le refroidissement liquide à ses TPU depuis 2018, avec de nombreuses expérimentations et améliorations
- La solution de refroidissement la plus récente ne se limite pas à l’intérieur des serveurs : elle applique une boucle de refroidissement liquide à l’ensemble du rack
- Un rack de refroidissement se compose de 6 CDU (Coolant Distribution Unit), qui jouent un rôle comparable à un combo radiateur + pompe sur PC
- L’adoption de tuyaux flexibles et de raccords à déconnexion rapide améliore la facilité de maintenance et les tolérances d’installation
- Même avec seulement 5 CDU sur 6 en fonctionnement, le refroidissement reste suffisant, ce qui évite d’interrompre l’ensemble du système lors de la maintenance d’une unité
Échange thermique et disposition des puces
- Les CDU n’échangent que la chaleur entre le liquide de refroidissement interne et l’eau d’alimentation externe du data center, sans mélange direct entre les deux fluides
- Le liquide de refroidissement sortant des CDU est distribué à de nombreux serveurs TPU via un manifold
- La connexion des puces TPU suit une structure séquentielle (en série), et le budget global de refroidissement est calculé en fonction des besoins thermiques de la dernière puce de la boucle
Optimisation des technologies de refroidissement
- L’architecture split-flow cold plate permet d’obtenir de meilleures performances de refroidissement qu’une conception linéaire classique
- En complément, Google applique le refroidissement bare-die (TPUv4, alors que les anciens TPUv3 étaient lidded), comparable au « delidding » utilisé par les passionnés de PC haut de gamme pour améliorer le transfert thermique
- Le TPUv4 nécessite cette méthode supplémentaire en raison d’une consommation électrique 1,6 fois plus élevée que celle du v3
Efficacité énergétique et transfert de chaleur
- La consommation électrique des pompes de refroidissement liquide représente moins de 5 % de celle des ventilateurs de refroidissement à air traditionnels
- Le système de Google repose sur un échange thermique water-to-water, où l’essentiel de la puissance de refroidissement est en pratique assuré par les pompes
- Dans l’univers des passionnés de PC, la combinaison ventilateur-radiateur reste majoritaire, ce qui réduit l’avantage énergétique par rapport aux data centers
Maintenance, fiabilité et sécurité
- Du point de vue de la maintenance, les risques classiques des systèmes de refroidissement liquide — comme la prolifération microbienne ou les fuites — existent aussi à l’échelle des data centers
- Grâce à des dispositifs comme les raccords à déconnexion rapide, les CDU de secours et d’autres aménagements facilitant la maintenance, Google vise une gestion à grande échelle sans interruption de service
- Maintenance préventive, tests de fuite, détection de divers signaux d’anomalie et protocoles de réponse structurés permettent d’assurer cohérence opérationnelle et fiabilité à l’échelle de l’entreprise
- Cela contraste avec les pratiques de gestion informelles des passionnés de PC individuels
Tendances du secteur et engouement pour l’IA
- NVIDIA, Rebellions AI et d’autres ont également présenté à Hot Chips 2025 divers systèmes externes de refroidissement liquide
- Serveur NVIDIA GB300 : ports externes de refroidissement liquide et ventilateurs disposés ensemble
- Rebellions AI, entreprise coréenne, a fait la démonstration d’un prototype de son nouvel accélérateur ML, REBEL Quad, avec une approche similaire combinant refroidisseur et chiller
- La hausse des charges de travail liées à l’IA devrait continuer à accélérer la demande et l’adoption du refroidissement liquide pour data centers
Aucun commentaire pour le moment.