1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Avec l’augmentation de la densité de puissance des serveurs IA, le refroidissement est devenu le principal goulet d’étranglement pour les coûts et la consommation d’eau des datacenters, et NVIDIA met en avant avec la génération Rubin une conception capable de faire fonctionner le liquide de refroidissement jusqu’à 45°C
  • L’infrastructure IA de la génération Rubin adopte une architecture de refroidissement 100 % liquide qui refroidit sans ventilateur les puces comme les composants réseau, en s’appuyant sur une boucle fermée et des dry coolers
  • Dans les climats favorables, elle peut ramener à presque zéro les quelque 2,6 millions de gallons d’eau consommés chaque année par mégawatt dans les systèmes classiques à tours de refroidissement, soit jusqu’à 100 % d’économies
  • Le liquide de refroidissement à 45°C absorbe la chaleur des puces et peut ressortir à environ 55°C tout en restant dans les limites de fonctionnement validées, ce qui réduit la dépendance des serveurs à l’air froid
  • Le refroidissement totalement liquide réduit les ventilateurs, les allées chaudes et froides ainsi que l’espace dédié à l’infrastructure de refroidissement par air, tout en augmentant la densité des racks pour alléger le coût du refroidissement lié à la hausse de la demande en calcul IA

Refroidissement 100 % liquide pour la génération Rubin

  • Les derniers serveurs IA de NVIDIA peuvent faire fonctionner leur liquide de refroidissement jusqu’à 45°C, soit 113°F
  • L’infrastructure IA NVIDIA de la génération Rubin atteint un refroidissement 100 % liquide pour toutes les puces et tous les composants réseau
    • Il n’y a aucun ventilateur nulle part dans le système
    • Le refroidissement s’effectue dans une boucle fermée
  • Cette approche est incluse dans la conception de référence d’AI factory NVIDIA DSX, qui regroupe les bonnes pratiques de conception, de construction et d’exploitation de la pile d’infrastructure des AI factories
  • Alors que chaque génération améliore les performances de calcul par watt, une infrastructure de calcul IA entièrement refroidie par liquide peut fortement réduire la consommation d’énergie liée au refroidissement dans les datacenters hyperscale

Une architecture qui réduit la consommation d’eau et d’électricité

  • La conception de référence NVIDIA DSX AI factory vise une consommation d’eau nulle et s’oriente vers une réduction de la forte consommation électrique ainsi que de la quasi-totalité de l’usage de l’eau
  • La conception fondée sur des dry coolers repose sur un système en boucle fermée et n’utilise pas de refroidissement évaporatif à l’eau
    • Dans certains climats, un chiller peut n’être nécessaire qu’environ 1 % du temps sur l’année
  • Historiquement, le refroidissement a représenté jusqu’à 40 % de la consommation électrique d’un datacenter
  • Selon les estimations du secteur, augmenter de 1°C la température d’une installation de chillers permet de réduire d’environ 4 % les coûts énergétiques du refroidissement
  • Une installation hyperscale de 50 MW peut économiser plus de 4 millions de dollars par an en coûts énergétiques et hydriques liés au refroidissement en passant à une infrastructure de refroidissement liquide
  • Dans un climat favorable, une architecture de refroidissement liquide à 45°C permet un fonctionnement sans chiller et peut faire tomber à presque zéro les quelque 2,6 millions de gallons d’eau consommés chaque année par mégawatt dans les systèmes classiques à tours de refroidissement

Un datacenter plus froid n’est pas toujours plus efficace

  • Le secteur a longtemps entretenu l’idée qu’un datacenter froid était plus efficace
  • En réalité, les puces peuvent fonctionner dans un environnement bien plus chaud que ne le suggère l’intuition
  • Quand un système de refroidissement liquide intégral alimente les puces avec un liquide à 45°C, celui-ci absorbe la chaleur à la surface des puces et ressort à environ 55°C
  • Les performances ne se dégradent pas pour autant
    • Les cold plates de refroidissement liquide maintiennent la température des équipements dans les limites de fonctionnement validées
    • Même avec un liquide entrant dans le rack à 45°C, les processeurs continuent de fonctionner à leur performance maximale
  • Comme les serveurs dépendent moins de l’air froid, la température ambiante du datacenter peut être réglée avec davantage de souplesse

Une architecture serveur avec moins de ventilateurs et moins d’allées chaudes/froides

  • Les datacenters traditionnels dépendent fortement du bruit des ventilateurs et de la gestion des allées chaudes et froides
    • Les ventilateurs de refroidissement peuvent porter le bruit total à plus de 85 dB
    • Un tel niveau est suffisamment élevé pour nécessiter des protections auditives
  • L’architecture Rubin remplace un refroidissement centré sur les flux d’air par une approche centrée sur les boucles liquides
  • Le liquide de refroidissement est composé de 75 % d’eau et 25 % de propylène glycol
  • Il passe dans des cold plates placées directement sur les processeurs pour absorber la chaleur à la source
  • En faisant fonctionner le liquide jusqu’à 45°C, la boucle du site peut rejeter la chaleur sans chiller mécanique ni ventilateurs bruyants dans de nombreux climats
  • Dans les régions adaptées, l’unité de distribution de refroidissement capte la chaleur à la source et l’envoie vers des dry coolers, de grandes batteries de radiateurs placées à l’extérieur du bâtiment
    • Une fois remplie, la boucle fonctionne de manière fermée pendant toute la durée de vie de l’installation
    • L’espace occupé dans l’AI factory est nettement inférieur à celui d’une infrastructure traditionnelle refroidie par air

Conditions climatiques et valorisation de la chaleur fatale

  • Les conditions géographiques constituent une contrainte importante
    • Un datacenter dans les Highlands d’Écosse et un datacenter à Phoenix, en Arizona, ne font pas face aux mêmes réalités de refroidissement
  • Même dans les climats chauds, un liquide de refroidissement à 45°C rapproche de l’exploitation sans chiller
    • Le chiller peut ne s’activer que pendant les quelques jours où la température extérieure l’impose
  • Le nouveau modèle d’AI factory ouvre aussi des possibilités de récupération de chaleur fatale
    • La chaleur excédentaire issue de l’exploitation d’une AI factory peut être réutilisée pour chauffer des bâtiments commerciaux ou résidentiels à proximité

Les changements d’ingénierie nécessaires au refroidissement 100 % liquide

  • Les anciens serveurs à refroidissement liquide reposaient sur une architecture hybride
    • Les GPU et les CPU utilisaient des cold plates
    • Le reste du système dépendait d’ailettes dissipatrices et d’un refroidissement par air
  • Dans un serveur entièrement refroidi par liquide, il a fallu repenser le mode de refroidissement de ces composants sur une base liquide
  • L’équipe d’ingénierie thermique de NVIDIA a simplifié la manière d’alimenter en liquide plusieurs puces à forte puissance
    • Le liquide est acheminé vers plusieurs puces de la carte via une seule entrée et une seule sortie
    • Cela aboutit à une architecture de refroidissement au niveau du tray plus propre
  • L’apparence des serveurs et leur densité d’installation évoluent aussi
    • Les serveurs Rubin ont une face avant propre et étanche, à la place des façades perforées des serveurs refroidis par air
    • Les serveurs 100 % liquide permettent une densité de rack plus élevée que les serveurs à air
    • Un système qui occupait auparavant 6U tient désormais dans 2U, avec plus de calcul dans moins d’espace et avec moins de bruit

Extension de l’infrastructure IA et efficacité du refroidissement

  • Les workloads IA ne deviennent pas plus légers
  • La demande en calcul qui alimente la construction de datacenters croît plus vite que presque toutes les autres catégories d’investissement en infrastructure
  • Sans amélioration de l’efficacité des méthodes de refroidissement du calcul, le coût énergétique des opérations IA à grande échelle augmentera avec l’essor du matériel
  • Le refroidissement liquide jusqu’à 45°C devient un moyen de réduire l’écart entre l’expansion du matériel et le coût du refroidissement

1 commentaires

 
GN⁺ 4 시간 전
Commentaires sur Hacker News
  • La condition « des régions où l’air extérieur reste durablement frais » est précisément le piège
    On dirait qu’on dit : « construisons des data centers dans des endroits froids pour économiser les ressources de refroidissement, puis rejetons toute la chaleur résiduelle dans l’environnement alentour en le polluant »
    J’ai failli croire que Nvidia avait créé quelque chose de bien

    • C’est peut-être pour ça qu’ils veulent tant le Groenland
      Températures basses, vastes espaces vides, peu de gros enjeux environnementaux, et même s’il y en a, pas beaucoup de citoyens pour protester
      Et s’il faut plus d’eau pour le refroidissement, ils pourraient sans doute en tirer assez de la glace qui fond
    • En hiver, cette chaleur serait vraiment la bienvenue
      Du chauffage gratuit, quoi de mieux ?
      Même Linus chauffe sa piscine avec la chaleur CPU excédentaire
      L’essentiel, c’est de ne pas en avoir peur et de l’utiliser intelligemment ; l’IA et les data centers vont rester, donc au lieu de se battre contre, on peut valoriser la chaleur fatale pour en faire un revenu
    • Je ne sais pas trop si la chaleur fatale des data centers est réellement un problème
      Je n’ai entendu parler de problèmes liés à la chaleur résiduelle des centrales nucléaires que lorsqu’elles rejettent l’eau de refroidissement directement dans une rivière plutôt que dans l’océan
    • Avec la latence des LLM, je doute qu’on remarque grand-chose
    • Dans les pays froids, de l’eau chaude peut être assez utile
      Par exemple pour le chauffage résidentiel
  • Cela crée une synergie intéressante : le chauffage urbain
    45°C, c’est bas, mais pas au point d’être inutilisable pour un réseau de chaleur, et si un data center fournit cette chaleur gratuitement, cela peut devenir une proposition très intéressante pour la collectivité
    La valeur communautaire d’un data center proche peut passer de presque zéro à plusieurs millions de dollars par an
    L’été reste un problème, mais il y a aussi des solutions amusantes
    Si les conditions géologiques s’y prêtent, on pourrait peut-être chauffer un espace souterrain en été puis récupérer une partie de cette chaleur en hiver
    Dans de nombreuses zones climatiques, sauf si les gens utilisent stupidement leurs puits de lumière, les coûts annuels de chauffage sont bien supérieurs aux coûts de climatisation [0]
    [0] À la louche, les charges de chauffage et de refroidissement dues à la conduction et aux échanges d’air sont proportionnelles à l’écart de température entre intérieur et extérieur
    En hiver, des températures extérieures de -10°F à 30°F ne sont pas rares, ce qui fait un écart de 40 à 80°F avec un intérieur à 70°F
    En revanche, dans ces climats, les températures extérieures d’été dépassent rarement 95°F et sont généralement plus basses, donc l’écart pour le refroidissement n’est que de 15 à 25°F
    Les pompes à chaleur sont aussi plus efficaces quand l’écart de température est faible
    Le chauffage par rayonnement, c’est encore une autre histoire

    • En Finlande, on rehausse la chaleur des data centers à 60~90°C pour l’utiliser dans le chauffage urbain
      Les nouvelles constructions ont généralement tendance à utiliser des pompes à chaleur [1]
      Le data center de 75 MW de Mäntsälä fournit depuis 10 ans les 2/3 du chauffage de la ville, soit l’équivalent de 2 500 foyers [2]
      1. https://www.creatingsustainablecities.org.uk/post/case-study...
      2. https://www.sustainabilitymenews.com/waste-management/how-fi...
    • Microsoft construit déjà en Finlande des data centers reliés au chauffage urbain à Espoo et Kirkkonummi
      Les pompes à chaleur sont vraiment impressionnantes
      Le stockage thermique saisonnier est déjà une technologie utilisée, et près d’Espoo il existe un stockage de plusieurs dizaines de GWh ainsi qu’un nouveau stockage en caverne de 90 GWh en cours de développement
      Je ne sais pas si ces systèmes sont interconnectés
    • Aux Pays-Bas, on envoie déjà de l’énergie perdue sous forme de chaleur vers des serres pour les chauffer en hiver
      Il est aussi intéressant que l’article affirme que ce problème d’ingénierie n’avait jamais été résolu auparavant
      Google a d’abord ouvert la voie en faisant fonctionner ses puces à des températures plus élevées qu’avant, et le refroidissement liquide existe depuis très longtemps sur les PC grand public
      Cela fait au moins 30 ans
      Ce qui paraît nouveau, c’est d’avoir raccordé toutes les puces à une boucle de circulation, mais je n’ai pas trouvé comment ils ont traité les PSU
    • Si 45°C est la température du côté froid, j’ai l’impression qu’on pourrait envoyer de l’eau à température plus élevée vers l’échangeur de chaleur côté collectivité
      Et qu’elle reviendrait ensuite à moins de 45°C
    • C’est déjà utilisé en Europe du Nord
      Il est probable que ce soit aussi le cas pour la plupart des data centers de l’hémisphère Nord où les hivers sont froids
  • Il est possible que quelque chose m’échappe, mais je ne vois pas bien où est l’innovation ici
    Je comprends qu’ils utilisent un liquide de refroidissement à une température plus élevée que d’habitude, mais je ne vois pas pourquoi ce n’était pas faisable auparavant
    Les comparaisons de l’article se font surtout par rapport à des data centers refroidis par air, mais qu’en est-il par rapport à d’autres data centers à refroidissement liquide ?
    Dans les conceptions précédentes de data centers, quelqu’un a forcément déjà calculé les températures de fonctionnement nécessaires, la consommation d’énergie, la chaleur dégagée, etc.
    Édit : je viens de voir ce passage
    « Les serveurs à refroidissement liquide existants étaient hybrides. Les GPU et les CPU étaient équipés de plaques froides, mais le reste du système restait refroidi par air, avec des dissipateurs à ailettes conçus pour évacuer la chaleur grâce à l’air en mouvement. Dans un serveur entièrement refroidi par liquide, il a fallu repenser complètement en mode liquide le refroidissement de ces composants. »

    • L’« innovation », c’est donc que tous les composants sont désormais raccordés à des blocs de refroidissement liquide
      Le reste relève davantage du marketing
      Les supercalculateurs Cray utilisaient déjà un refroidissement par fluide dans les années 1980, avec un liquide inerte circulant sur toute la carte
    • Vers 2011, le fait que de grandes entreprises exploitent des data centers refroidis par air à des températures proches de 95°F (35°C) au lieu des 72°F (22°C) habituels semblait déjà être un changement assez important
      Monter encore un peu plus n’a rien d’extrêmement fascinant, mais on peut toujours considérer cela comme une innovation
    • Le matériel doit être conçu pour fonctionner durablement dans des conditions plus chaudes
      Il y a un compromis entre le coût du refroidissement d’un côté, et le taux de panne ainsi que les dépenses d’investissement de l’autre
    • Ce n’est qu’une supposition, mais il se peut qu’on n’ait encore jamais refroidi des CPU et des GPU de cette manière de façon « efficace » à l’échelle d’un data center
      Ces composants peuvent facilement dépasser les 100°C, donc maintenir de façon stable une boucle de circulation à 55°C demande sans doute beaucoup de travail
      L’innovation est peut-être dans la manière de faire circuler le liquide de refroidissement, à quelle vitesse et en quelle quantité, dans les différentes parties du data center pour réguler la température
      Cela inclut bien sûr aussi le fait d’avoir tout repensé pour que tous les composants soient compatibles avec une conception sans ventilateur
      Cela semble rendu possible par le fait que Nvidia est bien plus intégré verticalement qu’auparavant
    • À l’origine, il n’y avait aucune raison qu’un système de refroidissement liquide en circuit fermé consomme des quantités d’eau énormes
      Pourtant, les approches les plus récentes se sont figées autour de modèles qui utilisent puis rejettent de l’eau
      Les data centers semblent aussi aller, comme d’autres installations industrielles, s’installer dans les villes, comtés ou États où on les laisse faire à peu près ce qu’ils veulent, puis s’habituer à cette façon de fonctionner comme si c’était la seule possible
      Malgré l’opposition de nombreuses communautés locales et les alertes sur les dégâts environnementaux, cela a été ignoré ; mais si cela devient une spécification technique, ce sera peut-être accepté
  • L’article parle de « l’architecture de refroidissement liquide à 45°C de Nvidia dans des climats favorables… », et évidemment je me demande ce qu’est un climat favorable, à part le Groenland
    Le texte manque vraiment d’explications sur le lien entre température extérieure, efficacité et coût
    Même un aperçu approximatif aurait été utile

    • L’université allemande où j’ai étudié utilise le refroidissement haute température depuis quelques années
      En Allemagne, les températures peuvent monter assez haut, mais d’après les responsables techniques, un refroidissement actif, c’est-à-dire de type climatisation, n’est nécessaire qu’à partir de températures dans la seconde moitié des 30°C
      La technologie elle-même est assez intéressante
      https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
    • Honnêtement, c’est justement une partie du problème
      Pour garantir une température de sortie d’eau de 45°C, l’air extérieur doit probablement rester aux alentours de 37°C ou moins
      Dans la plupart des régions, il faut quand même des tours de refroidissement ou des compresseurs pendant une partie de l’année, donc il faut construire toute l’infrastructure correspondante
      Cela dit, même une baisse de l’usage peut représenter d’importantes économies d’eau ou d’énergie
      Par exemple, on pourrait penser que la périphérie de Londres a un climat assez doux, mais il est fort possible que cette semaine encore un refroidissement d’appoint ait été nécessaire
      Ici, pour un data center, on conçoit les systèmes de refroidissement pour qu’ils tiennent à des températures extérieures supérieures à 40°C, et ce chiffre n’est plus vraiment une hypothèse conservatrice
      Et même si Nvidia se satisfait d’une alimentation en eau à 45°C, il est probable que le matériel dure plus longtemps à une température plus basse, comme 35°C
      Les GPU coûtent cher, et prolonger leur durée de vie peut valoir davantage que consommer un peu plus d’eau ou d’énergie
      En pratique, il y aura aussi probablement, « à côté » des équipements de calcul IA, des systèmes refroidis par air comme des serveurs de stockage, des équipements CPU supplémentaires ou des switchs réseau
      Il faudra donc peut-être aussi des espaces et des systèmes de refroidissement séparés
      Cela reste malgré tout une grande avancée
  • Même après avoir lu ça, je ne vois toujours pas pourquoi ce serait une percée
    Cela ressemble au même circuit de refroidissement fermé qu’on trouve déjà dans la plupart des applications commerciales et industrielles de refroidissement
    L’article dit que, sous un climat adapté, on peut placer des radiateurs à l’extérieur pour dissiper la chaleur du circuit eau/glycol
    Donc partout hors de l’Arctique, il faut toujours un circuit de condensation, non ?
    Qu’est-ce que j’ai raté ?

  • Le Modular Supercomputing Facility du NASA Ames Research Center est très efficace du point de vue de la consommation d’électricité et d’eau
    Cette installation n’utilise pas de climatisation
    Les puces sont refroidies par liquide, et si j’ai bien compris, la température d’entrée de l’eau est assez élevée, probablement autour de 90°F
    https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
    https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...

    • Pour ceux qui utilisent le système métrique / les unités SI, 90°F correspondent à 32,22°C, soit 305,37 K
      L’armée américaine et la NASA n’utilisent-elles pas déjà le système métrique maintenant ?
  • Pour résumer à l’intention de ceux qui ont été déçus par ce texte IA affreux, il s’agit d’une histoire de conception de datacenter entièrement refroidi par liquide
    La méthode habituelle pour refroidir les serveurs consiste, comme sur un desktop ou un laptop, à fixer un dissipateur thermique sur le matériel chaud puis à le refroidir avec de l’air
    Plus le matériel devient dense et puissant, plus il faut de gros dissipateurs et de l’air plus froid
    À un moment, on ne peut plus agrandir les dissipateurs à cause des contraintes d’espace, et on ne peut pas non plus souffler l’air plus vite à cause du bruit et du rendement
    On finit alors par faire fonctionner des refroidisseurs qui évaporent de l’eau pour refroidir l’air d’admission
    C’est là que naît l’énorme consommation d’eau qu’on cherche à éviter
    L’étape suivante est évidemment le refroidissement liquide
    Là aussi, c’est similaire à un desktop gaming haut de gamme
    Dans l’espace interne limité, on transfère beaucoup de chaleur vers un fluide via un petit échangeur thermique, et à l’extérieur, même si l’écart de température entre le liquide de refroidissement et l’air extérieur est faible, on peut rejeter la chaleur avec un énorme échangeur thermique
    Cet article parle d’un système qui refroidit entièrement par liquide le CPU, le GPU, la mémoire et même le réseau
    C’est ça, la partie vraiment intéressante
    En plus, cette solution est optimisée pour pouvoir faire circuler un liquide de refroidissement assez chaud
    Cela limite le flux thermique côté matériel, mais permet de faire tourner l’échangeur thermique externe en mode « sec », sans gaspiller la chaleur latente de l’eau

  • Comparée à beaucoup d’autres usages, la consommation d’eau des datacenters était déjà presque nulle
    Ça me déprime toujours de voir autant d’efforts et une telle grosse communication pour « résoudre un problème » qui relevait au départ surtout des RP ou de l’image

    • Tu sais bien qu’une formulation vague comme « comparée à beaucoup d’autres usages » affaiblit complètement ton propos
  • Pourquoi précisément 45°C, et pourquoi le refroidissement liquide ?
    Concevoir tout pour la température ambiante ou un air légèrement frais paraît être un choix étrange
    On est déjà autour de 290K à 300K, donc on dit simplement que ça fonctionne bien aussi à 320K ou 330K, non ?
    Je me suis demandé pourquoi on ne concevait pas simplement le tout pour fonctionner vers 200°C, puis en utilisant du free cooling avec l’air ambiant qu’on pousse dedans
    Pourquoi les datacenters ne ressemblent-ils pas à des poulaillers ?
    Est-ce que quelque chose fond ?
    Y a-t-il davantage d’autres types d’erreurs à haute température ?

    • Les matériaux semi-conducteurs ont un gap de bande relativement faible
      Ce sont des matériaux qui peuvent passer d’isolants à conducteurs avec très peu d’énergie supplémentaire
      À l’inverse, un bon isolant brûle ou devient plasma avant de commencer à conduire
      L’énergie reste de l’énergie, donc si la chaleur ambiante est suffisamment élevée, le faible gap de bande peut pousser des électrons vers des orbitales plus hautes
      Cela se produit déjà à température ambiante normale, mais les électrons ne vont pas très loin et ils ne sont pas nombreux
      À 200°C, une grille fermée n’empêche plus suffisamment le déplacement des électrons
      Voilà, à grands gestes, la raison technique ; il y a sur YouTube une vidéo de Project in Flight qui explique bien le fonctionnement des semi-conducteurs
    • Faire fonctionner ce type de puces à 200°C est très difficile
      Les propriétés électriques des semi-conducteurs changent fortement avec la température
      Il faudrait des puces complètement différentes et un procédé de fabrication complètement différent