Une conception de refroidissement à 45°C réduit presque à zéro la consommation d’eau des datacenters
(blogs.nvidia.com)- Avec l’augmentation de la densité de puissance des serveurs IA, le refroidissement est devenu le principal goulet d’étranglement pour les coûts et la consommation d’eau des datacenters, et NVIDIA met en avant avec la génération Rubin une conception capable de faire fonctionner le liquide de refroidissement jusqu’à 45°C
- L’infrastructure IA de la génération Rubin adopte une architecture de refroidissement 100 % liquide qui refroidit sans ventilateur les puces comme les composants réseau, en s’appuyant sur une boucle fermée et des dry coolers
- Dans les climats favorables, elle peut ramener à presque zéro les quelque 2,6 millions de gallons d’eau consommés chaque année par mégawatt dans les systèmes classiques à tours de refroidissement, soit jusqu’à 100 % d’économies
- Le liquide de refroidissement à 45°C absorbe la chaleur des puces et peut ressortir à environ 55°C tout en restant dans les limites de fonctionnement validées, ce qui réduit la dépendance des serveurs à l’air froid
- Le refroidissement totalement liquide réduit les ventilateurs, les allées chaudes et froides ainsi que l’espace dédié à l’infrastructure de refroidissement par air, tout en augmentant la densité des racks pour alléger le coût du refroidissement lié à la hausse de la demande en calcul IA
Refroidissement 100 % liquide pour la génération Rubin
- Les derniers serveurs IA de NVIDIA peuvent faire fonctionner leur liquide de refroidissement jusqu’à 45°C, soit 113°F
- L’infrastructure IA NVIDIA de la génération Rubin atteint un refroidissement 100 % liquide pour toutes les puces et tous les composants réseau
- Il n’y a aucun ventilateur nulle part dans le système
- Le refroidissement s’effectue dans une boucle fermée
- Cette approche est incluse dans la conception de référence d’AI factory NVIDIA DSX, qui regroupe les bonnes pratiques de conception, de construction et d’exploitation de la pile d’infrastructure des AI factories
- Alors que chaque génération améliore les performances de calcul par watt, une infrastructure de calcul IA entièrement refroidie par liquide peut fortement réduire la consommation d’énergie liée au refroidissement dans les datacenters hyperscale
Une architecture qui réduit la consommation d’eau et d’électricité
- La conception de référence NVIDIA DSX AI factory vise une consommation d’eau nulle et s’oriente vers une réduction de la forte consommation électrique ainsi que de la quasi-totalité de l’usage de l’eau
- La conception fondée sur des dry coolers repose sur un système en boucle fermée et n’utilise pas de refroidissement évaporatif à l’eau
- Dans certains climats, un chiller peut n’être nécessaire qu’environ 1 % du temps sur l’année
- Historiquement, le refroidissement a représenté jusqu’à 40 % de la consommation électrique d’un datacenter
- Selon les estimations du secteur, augmenter de 1°C la température d’une installation de chillers permet de réduire d’environ 4 % les coûts énergétiques du refroidissement
- Une installation hyperscale de 50 MW peut économiser plus de 4 millions de dollars par an en coûts énergétiques et hydriques liés au refroidissement en passant à une infrastructure de refroidissement liquide
- Dans un climat favorable, une architecture de refroidissement liquide à 45°C permet un fonctionnement sans chiller et peut faire tomber à presque zéro les quelque 2,6 millions de gallons d’eau consommés chaque année par mégawatt dans les systèmes classiques à tours de refroidissement
Un datacenter plus froid n’est pas toujours plus efficace
- Le secteur a longtemps entretenu l’idée qu’un datacenter froid était plus efficace
- En réalité, les puces peuvent fonctionner dans un environnement bien plus chaud que ne le suggère l’intuition
- Quand un système de refroidissement liquide intégral alimente les puces avec un liquide à 45°C, celui-ci absorbe la chaleur à la surface des puces et ressort à environ 55°C
- Les performances ne se dégradent pas pour autant
- Les cold plates de refroidissement liquide maintiennent la température des équipements dans les limites de fonctionnement validées
- Même avec un liquide entrant dans le rack à 45°C, les processeurs continuent de fonctionner à leur performance maximale
- Comme les serveurs dépendent moins de l’air froid, la température ambiante du datacenter peut être réglée avec davantage de souplesse
Une architecture serveur avec moins de ventilateurs et moins d’allées chaudes/froides
- Les datacenters traditionnels dépendent fortement du bruit des ventilateurs et de la gestion des allées chaudes et froides
- Les ventilateurs de refroidissement peuvent porter le bruit total à plus de 85 dB
- Un tel niveau est suffisamment élevé pour nécessiter des protections auditives
- L’architecture Rubin remplace un refroidissement centré sur les flux d’air par une approche centrée sur les boucles liquides
- Le liquide de refroidissement est composé de 75 % d’eau et 25 % de propylène glycol
- Il passe dans des cold plates placées directement sur les processeurs pour absorber la chaleur à la source
- En faisant fonctionner le liquide jusqu’à 45°C, la boucle du site peut rejeter la chaleur sans chiller mécanique ni ventilateurs bruyants dans de nombreux climats
- Dans les régions adaptées, l’unité de distribution de refroidissement capte la chaleur à la source et l’envoie vers des dry coolers, de grandes batteries de radiateurs placées à l’extérieur du bâtiment
- Une fois remplie, la boucle fonctionne de manière fermée pendant toute la durée de vie de l’installation
- L’espace occupé dans l’AI factory est nettement inférieur à celui d’une infrastructure traditionnelle refroidie par air
Conditions climatiques et valorisation de la chaleur fatale
- Les conditions géographiques constituent une contrainte importante
- Un datacenter dans les Highlands d’Écosse et un datacenter à Phoenix, en Arizona, ne font pas face aux mêmes réalités de refroidissement
- Même dans les climats chauds, un liquide de refroidissement à 45°C rapproche de l’exploitation sans chiller
- Le chiller peut ne s’activer que pendant les quelques jours où la température extérieure l’impose
- Le nouveau modèle d’AI factory ouvre aussi des possibilités de récupération de chaleur fatale
- La chaleur excédentaire issue de l’exploitation d’une AI factory peut être réutilisée pour chauffer des bâtiments commerciaux ou résidentiels à proximité
Les changements d’ingénierie nécessaires au refroidissement 100 % liquide
- Les anciens serveurs à refroidissement liquide reposaient sur une architecture hybride
- Les GPU et les CPU utilisaient des cold plates
- Le reste du système dépendait d’ailettes dissipatrices et d’un refroidissement par air
- Dans un serveur entièrement refroidi par liquide, il a fallu repenser le mode de refroidissement de ces composants sur une base liquide
- L’équipe d’ingénierie thermique de NVIDIA a simplifié la manière d’alimenter en liquide plusieurs puces à forte puissance
- Le liquide est acheminé vers plusieurs puces de la carte via une seule entrée et une seule sortie
- Cela aboutit à une architecture de refroidissement au niveau du tray plus propre
- L’apparence des serveurs et leur densité d’installation évoluent aussi
- Les serveurs Rubin ont une face avant propre et étanche, à la place des façades perforées des serveurs refroidis par air
- Les serveurs 100 % liquide permettent une densité de rack plus élevée que les serveurs à air
- Un système qui occupait auparavant 6U tient désormais dans 2U, avec plus de calcul dans moins d’espace et avec moins de bruit
Extension de l’infrastructure IA et efficacité du refroidissement
- Les workloads IA ne deviennent pas plus légers
- La demande en calcul qui alimente la construction de datacenters croît plus vite que presque toutes les autres catégories d’investissement en infrastructure
- Sans amélioration de l’efficacité des méthodes de refroidissement du calcul, le coût énergétique des opérations IA à grande échelle augmentera avec l’essor du matériel
- Le refroidissement liquide jusqu’à 45°C devient un moyen de réduire l’écart entre l’expansion du matériel et le coût du refroidissement
1 commentaires
Commentaires sur Hacker News
La condition « des régions où l’air extérieur reste durablement frais » est précisément le piège
On dirait qu’on dit : « construisons des data centers dans des endroits froids pour économiser les ressources de refroidissement, puis rejetons toute la chaleur résiduelle dans l’environnement alentour en le polluant »
J’ai failli croire que Nvidia avait créé quelque chose de bien
Températures basses, vastes espaces vides, peu de gros enjeux environnementaux, et même s’il y en a, pas beaucoup de citoyens pour protester
Et s’il faut plus d’eau pour le refroidissement, ils pourraient sans doute en tirer assez de la glace qui fond
Du chauffage gratuit, quoi de mieux ?
Même Linus chauffe sa piscine avec la chaleur CPU excédentaire
L’essentiel, c’est de ne pas en avoir peur et de l’utiliser intelligemment ; l’IA et les data centers vont rester, donc au lieu de se battre contre, on peut valoriser la chaleur fatale pour en faire un revenu
Je n’ai entendu parler de problèmes liés à la chaleur résiduelle des centrales nucléaires que lorsqu’elles rejettent l’eau de refroidissement directement dans une rivière plutôt que dans l’océan
Par exemple pour le chauffage résidentiel
Cela crée une synergie intéressante : le chauffage urbain
45°C, c’est bas, mais pas au point d’être inutilisable pour un réseau de chaleur, et si un data center fournit cette chaleur gratuitement, cela peut devenir une proposition très intéressante pour la collectivité
La valeur communautaire d’un data center proche peut passer de presque zéro à plusieurs millions de dollars par an
L’été reste un problème, mais il y a aussi des solutions amusantes
Si les conditions géologiques s’y prêtent, on pourrait peut-être chauffer un espace souterrain en été puis récupérer une partie de cette chaleur en hiver
Dans de nombreuses zones climatiques, sauf si les gens utilisent stupidement leurs puits de lumière, les coûts annuels de chauffage sont bien supérieurs aux coûts de climatisation [0]
[0] À la louche, les charges de chauffage et de refroidissement dues à la conduction et aux échanges d’air sont proportionnelles à l’écart de température entre intérieur et extérieur
En hiver, des températures extérieures de -10°F à 30°F ne sont pas rares, ce qui fait un écart de 40 à 80°F avec un intérieur à 70°F
En revanche, dans ces climats, les températures extérieures d’été dépassent rarement 95°F et sont généralement plus basses, donc l’écart pour le refroidissement n’est que de 15 à 25°F
Les pompes à chaleur sont aussi plus efficaces quand l’écart de température est faible
Le chauffage par rayonnement, c’est encore une autre histoire
Les nouvelles constructions ont généralement tendance à utiliser des pompes à chaleur [1]
Le data center de 75 MW de Mäntsälä fournit depuis 10 ans les 2/3 du chauffage de la ville, soit l’équivalent de 2 500 foyers [2]
Les pompes à chaleur sont vraiment impressionnantes
Le stockage thermique saisonnier est déjà une technologie utilisée, et près d’Espoo il existe un stockage de plusieurs dizaines de GWh ainsi qu’un nouveau stockage en caverne de 90 GWh en cours de développement
Je ne sais pas si ces systèmes sont interconnectés
Il est aussi intéressant que l’article affirme que ce problème d’ingénierie n’avait jamais été résolu auparavant
Google a d’abord ouvert la voie en faisant fonctionner ses puces à des températures plus élevées qu’avant, et le refroidissement liquide existe depuis très longtemps sur les PC grand public
Cela fait au moins 30 ans
Ce qui paraît nouveau, c’est d’avoir raccordé toutes les puces à une boucle de circulation, mais je n’ai pas trouvé comment ils ont traité les PSU
Et qu’elle reviendrait ensuite à moins de 45°C
Il est probable que ce soit aussi le cas pour la plupart des data centers de l’hémisphère Nord où les hivers sont froids
Il est possible que quelque chose m’échappe, mais je ne vois pas bien où est l’innovation ici
Je comprends qu’ils utilisent un liquide de refroidissement à une température plus élevée que d’habitude, mais je ne vois pas pourquoi ce n’était pas faisable auparavant
Les comparaisons de l’article se font surtout par rapport à des data centers refroidis par air, mais qu’en est-il par rapport à d’autres data centers à refroidissement liquide ?
Dans les conceptions précédentes de data centers, quelqu’un a forcément déjà calculé les températures de fonctionnement nécessaires, la consommation d’énergie, la chaleur dégagée, etc.
Édit : je viens de voir ce passage
« Les serveurs à refroidissement liquide existants étaient hybrides. Les GPU et les CPU étaient équipés de plaques froides, mais le reste du système restait refroidi par air, avec des dissipateurs à ailettes conçus pour évacuer la chaleur grâce à l’air en mouvement. Dans un serveur entièrement refroidi par liquide, il a fallu repenser complètement en mode liquide le refroidissement de ces composants. »
Le reste relève davantage du marketing
Les supercalculateurs Cray utilisaient déjà un refroidissement par fluide dans les années 1980, avec un liquide inerte circulant sur toute la carte
Monter encore un peu plus n’a rien d’extrêmement fascinant, mais on peut toujours considérer cela comme une innovation
Il y a un compromis entre le coût du refroidissement d’un côté, et le taux de panne ainsi que les dépenses d’investissement de l’autre
Ces composants peuvent facilement dépasser les 100°C, donc maintenir de façon stable une boucle de circulation à 55°C demande sans doute beaucoup de travail
L’innovation est peut-être dans la manière de faire circuler le liquide de refroidissement, à quelle vitesse et en quelle quantité, dans les différentes parties du data center pour réguler la température
Cela inclut bien sûr aussi le fait d’avoir tout repensé pour que tous les composants soient compatibles avec une conception sans ventilateur
Cela semble rendu possible par le fait que Nvidia est bien plus intégré verticalement qu’auparavant
Pourtant, les approches les plus récentes se sont figées autour de modèles qui utilisent puis rejettent de l’eau
Les data centers semblent aussi aller, comme d’autres installations industrielles, s’installer dans les villes, comtés ou États où on les laisse faire à peu près ce qu’ils veulent, puis s’habituer à cette façon de fonctionner comme si c’était la seule possible
Malgré l’opposition de nombreuses communautés locales et les alertes sur les dégâts environnementaux, cela a été ignoré ; mais si cela devient une spécification technique, ce sera peut-être accepté
L’article parle de « l’architecture de refroidissement liquide à 45°C de Nvidia dans des climats favorables… », et évidemment je me demande ce qu’est un climat favorable, à part le Groenland
Le texte manque vraiment d’explications sur le lien entre température extérieure, efficacité et coût
Même un aperçu approximatif aurait été utile
En Allemagne, les températures peuvent monter assez haut, mais d’après les responsables techniques, un refroidissement actif, c’est-à-dire de type climatisation, n’est nécessaire qu’à partir de températures dans la seconde moitié des 30°C
La technologie elle-même est assez intéressante
https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
Pour garantir une température de sortie d’eau de 45°C, l’air extérieur doit probablement rester aux alentours de 37°C ou moins
Dans la plupart des régions, il faut quand même des tours de refroidissement ou des compresseurs pendant une partie de l’année, donc il faut construire toute l’infrastructure correspondante
Cela dit, même une baisse de l’usage peut représenter d’importantes économies d’eau ou d’énergie
Par exemple, on pourrait penser que la périphérie de Londres a un climat assez doux, mais il est fort possible que cette semaine encore un refroidissement d’appoint ait été nécessaire
Ici, pour un data center, on conçoit les systèmes de refroidissement pour qu’ils tiennent à des températures extérieures supérieures à 40°C, et ce chiffre n’est plus vraiment une hypothèse conservatrice
Et même si Nvidia se satisfait d’une alimentation en eau à 45°C, il est probable que le matériel dure plus longtemps à une température plus basse, comme 35°C
Les GPU coûtent cher, et prolonger leur durée de vie peut valoir davantage que consommer un peu plus d’eau ou d’énergie
En pratique, il y aura aussi probablement, « à côté » des équipements de calcul IA, des systèmes refroidis par air comme des serveurs de stockage, des équipements CPU supplémentaires ou des switchs réseau
Il faudra donc peut-être aussi des espaces et des systèmes de refroidissement séparés
Cela reste malgré tout une grande avancée
Même après avoir lu ça, je ne vois toujours pas pourquoi ce serait une percée
Cela ressemble au même circuit de refroidissement fermé qu’on trouve déjà dans la plupart des applications commerciales et industrielles de refroidissement
L’article dit que, sous un climat adapté, on peut placer des radiateurs à l’extérieur pour dissiper la chaleur du circuit eau/glycol
Donc partout hors de l’Arctique, il faut toujours un circuit de condensation, non ?
Qu’est-ce que j’ai raté ?
Le Modular Supercomputing Facility du NASA Ames Research Center est très efficace du point de vue de la consommation d’électricité et d’eau
Cette installation n’utilise pas de climatisation
Les puces sont refroidies par liquide, et si j’ai bien compris, la température d’entrée de l’eau est assez élevée, probablement autour de 90°F
https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...
L’armée américaine et la NASA n’utilisent-elles pas déjà le système métrique maintenant ?
Pour résumer à l’intention de ceux qui ont été déçus par ce texte IA affreux, il s’agit d’une histoire de conception de datacenter entièrement refroidi par liquide
La méthode habituelle pour refroidir les serveurs consiste, comme sur un desktop ou un laptop, à fixer un dissipateur thermique sur le matériel chaud puis à le refroidir avec de l’air
Plus le matériel devient dense et puissant, plus il faut de gros dissipateurs et de l’air plus froid
À un moment, on ne peut plus agrandir les dissipateurs à cause des contraintes d’espace, et on ne peut pas non plus souffler l’air plus vite à cause du bruit et du rendement
On finit alors par faire fonctionner des refroidisseurs qui évaporent de l’eau pour refroidir l’air d’admission
C’est là que naît l’énorme consommation d’eau qu’on cherche à éviter
L’étape suivante est évidemment le refroidissement liquide
Là aussi, c’est similaire à un desktop gaming haut de gamme
Dans l’espace interne limité, on transfère beaucoup de chaleur vers un fluide via un petit échangeur thermique, et à l’extérieur, même si l’écart de température entre le liquide de refroidissement et l’air extérieur est faible, on peut rejeter la chaleur avec un énorme échangeur thermique
Cet article parle d’un système qui refroidit entièrement par liquide le CPU, le GPU, la mémoire et même le réseau
C’est ça, la partie vraiment intéressante
En plus, cette solution est optimisée pour pouvoir faire circuler un liquide de refroidissement assez chaud
Cela limite le flux thermique côté matériel, mais permet de faire tourner l’échangeur thermique externe en mode « sec », sans gaspiller la chaleur latente de l’eau
Comparée à beaucoup d’autres usages, la consommation d’eau des datacenters était déjà presque nulle
Ça me déprime toujours de voir autant d’efforts et une telle grosse communication pour « résoudre un problème » qui relevait au départ surtout des RP ou de l’image
Pourquoi précisément 45°C, et pourquoi le refroidissement liquide ?
Concevoir tout pour la température ambiante ou un air légèrement frais paraît être un choix étrange
On est déjà autour de 290K à 300K, donc on dit simplement que ça fonctionne bien aussi à 320K ou 330K, non ?
Je me suis demandé pourquoi on ne concevait pas simplement le tout pour fonctionner vers 200°C, puis en utilisant du free cooling avec l’air ambiant qu’on pousse dedans
Pourquoi les datacenters ne ressemblent-ils pas à des poulaillers ?
Est-ce que quelque chose fond ?
Y a-t-il davantage d’autres types d’erreurs à haute température ?
Ce sont des matériaux qui peuvent passer d’isolants à conducteurs avec très peu d’énergie supplémentaire
À l’inverse, un bon isolant brûle ou devient plasma avant de commencer à conduire
L’énergie reste de l’énergie, donc si la chaleur ambiante est suffisamment élevée, le faible gap de bande peut pousser des électrons vers des orbitales plus hautes
Cela se produit déjà à température ambiante normale, mais les électrons ne vont pas très loin et ils ne sont pas nombreux
À 200°C, une grille fermée n’empêche plus suffisamment le déplacement des électrons
Voilà, à grands gestes, la raison technique ; il y a sur YouTube une vidéo de Project in Flight qui explique bien le fonctionnement des semi-conducteurs
Les propriétés électriques des semi-conducteurs changent fortement avec la température
Il faudrait des puces complètement différentes et un procédé de fabrication complètement différent