Panne dans un datacenter AWS en Virginie du Nord — résolue

(cnbc.com)

1 points par GN⁺ 1 시간 전 | 1 commentaires | Partager sur WhatsApp

AWS a signalé des problèmes opérationnels à partir de jeudi soir, avec une panne liée à une surchauffe dans un datacenter de la région US-East-1 en Virginie du Nord, affectant des plateformes de transaction comme Coinbase et FanDuel
Dans une mise à jour publiée vendredi à 15 h 29 (ET), AWS a indiqué qu’un rétablissement complet devrait encore prendre plusieurs heures et que les travaux de restauration avançaient plus lentement que prévu initialement
AWS a expliqué que le problème s’était produit dans une Availability Zone unique de cette région et qu’il remettait en ligne une capacité supplémentaire de systèmes de refroidissement pour restaurer le matériel restant
FanDuel a indiqué, après avoir enquêté sur des difficultés techniques empêchant les utilisateurs d’accéder à la plateforme, que celles-ci étaient liées à la panne AWS plus large, tandis que des utilisateurs se sont plaints de pertes sur leurs paris faute de pouvoir encaisser
Coinbase a déclaré que des pannes dans plusieurs zones AWS avaient provoqué une interruption prolongée des services de transaction essentiels, puis a publié que le principal problème avait été entièrement résolu

Progression du rétablissement

Dans une mise à jour publiée vendredi à 9 h 51 (ET), AWS a déclaré : « Nous travaillons activement à remettre en ligne une capacité supplémentaire de systèmes de refroidissement, ce qui nous permettra de restaurer le matériel restant dans la zone affectée »
AWS est en train de résoudre des pannes d’instances EC2, qui fournissent de la capacité de serveurs virtuels
Le tableau de bord AWS Health a publié pour la première fois jeudi à 20 h 25 (ET) qu’il « enquêtait sur des pannes d’instances »
AWS n’a pas fait de déclaration supplémentaire

Impact par service

FanDuel a indiqué sur X jeudi à 21 h (ET) avoir connaissance de difficultés techniques actuelles empêchant les utilisateurs d’accéder à la plateforme et être en train d’enquêter
Environ deux heures plus tard, FanDuel a mis à jour sa communication en indiquant que le problème était lié à une panne AWS plus large
Des utilisateurs de FanDuel se sont plaints d’avoir subi des pertes sur leurs paris faute de pouvoir encaisser sur la plateforme
Coinbase a également publié vendredi sur X que des pannes dans plusieurs zones AWS avaient provoqué une « interruption prolongée des services de transaction essentiels »
Coinbase a précisé dans cette publication que le principal problème avait été entièrement résolu

Contexte du marché du cloud

AWS représente environ un tiers du marché des technologies d’infrastructure cloud
AWS fournit des services à plusieurs millions d’entreprises

1 commentaires

GN⁺ 1 시간 전

Réactions sur Hacker News

AWS US-East 1 reste le talon d’Achille d’Internet
On peut certes construire sur plusieurs régions et zones de disponibilité, mais AWS a déjà connu à plusieurs reprises des incidents où un problème en US-East 1 a eu des effets bien plus larges, ce qui rend la redondance et la résilience moins élevées que ce qu’AWS laisse entendre
- L’idée que les services AWS sont entièrement isolés par région a toujours tenu du mythe
  Hors de Chine, tous les services publics d’identité et d’accès du cloud — ce que les employés appellent « IAM pour la partition AWS » — sont centralisés en us-east-1. Ce genre de centralisation est pratiquement nécessaire pour avoir une vue cohérente des comptes, de la facturation et des autorisations
  IAM n’est pas non plus une pile logicielle totalement indépendante et dépend de certains services comme DynamoDB, lesquels dépendent à leur tour d’IAM
  Lors d’une panne de us-east-1, il est parfois possible de continuer à utiliser des jetons d’authentification ou des sessions existants dans d’autres régions, mais l’émission de nouveaux jetons peut devenir impossible. Quand j’y travaillais, je me souviens qu’on disait aux personnes d’astreinte de ne pas fermer leur session SSH ni leur onglet de console AWS dans le navigateur, sous peine de rester bloquées jusqu’à la fin de l’incident
- Tout le monde dit ça, mais cette fois-ci il s’agissait d’un problème de zone de disponibilité unique
  J’ai fait tourner presque toute une startup en use-1 pendant les trois dernières années, et il n’y a eu qu’une seule panne régionale, encore partielle, qui n’a touché qu’une minorité d’instances
  Honnêtement, comme tout est aussi chez les clients en use-1, il y a au moins l’avantage que la panne soit corrélée à celle des clients
- Trop de monde l’utilise
  Dans un pays imaginaire merveilleux, la charge est répartie équitablement entre plusieurs fournisseurs cloud, et il n’existe aucun point de défaillance unique
  Ça s’est aussi bien passé avec ma première petite amie, mes jumeaux parlent couramment anglais et coréen, et je sais qu’il ne faut pas dépendre d’un seul AWS pour déployer un service à grande échelle
  Les frais de santé américains sont abordables aussi. Mais dans le monde réel, une journée de plus passe et un seul AWS US-East 1 peut encore mettre à terre une grande partie d’Internet
- Si vous utilisez plusieurs régions et zones de disponibilité pour la résilience, il faut être prêt à payer la taxe de capacité
  Avec 2 régions, il faut 2x la capacité ; avec 3 régions, 1,5x la capacité ; et dans une architecture multi-région, les machines doivent déjà être en cours d’exécution. Il ne faut pas s’attendre à pouvoir lancer des instances ou obtenir de la capacité pendant une panne, et il faut aussi absorber la complexité supplémentaire de l’hébergement multi-région
- D’après ce que j’ai entendu, il semble qu’il y ait eu des effets en chaîne jusque sur us-east-2, à cause des gens qui ont basculé depuis us-east-1
  C’est assez drôle de voir tout le monde continuer à croire à la religion du cloud, alors que les architectures multi-région / multi-zone ressemblent si visiblement à de la façade
Ce genre de pari est dangereux. Parce qu’une personne comme un employé capable de faire tomber AWS peut parier
Ces paris ne sont pas aussi inoffensifs qu’ils en ont l’air, car la personne qui parie peut souvent influencer ou modifier le résultat
- Heureusement que les big tech embauchent des ingénieurs éthiques et pas des gens uniquement motivés par l’argent ou le statut social
- Mais si tous les sites de paris tournent eux aussi sur US-East1, tout ça ne sert à rien
- On peut même imaginer qu’AWS tombe et que le site de paris lui-même ferme
  Plus largement, je suis d’accord avec l’idée que ce type de marché prédictif peut encourager le délit d’initié et les scénarios négatifs. Cela crée une incitation à profiter de telles situations
Le refroidissement d’un datacenter est généralement planifié à l’avance, et je pensais qu’on n’installait pas plus de matériel que ce que la capacité de refroidissement permettait
Ici, je me demande si c’est l’équipement de refroidissement qui est tombé en panne, s’il y a eu une cause externe à la surchauffe, ou si Amazon sur-réserve la capacité de refroidissement de ses datacenters
- J’ai travaillé dans un datacenter avec plusieurs groupes froids redondants sur le toit et plusieurs équipements de refroidissement redondants à chaque étage, et pourtant une panne sur la plomberie d’alimentation en eau a suffi à arrêter d’un coup le refroidissement de tout le bâtiment
  On ne nous a pas donné les détails, mais il semble que les canalisations entre les étages et le toit n’étaient pas redondées, et la réparation a pris presque 24 heures
- C’est presque certainement un problème de panne matérielle
  Comme pour tout le reste dans les datacenters, le refroidissement est à la fois surprovisionné et sous-provisionné
  Les gros équipements d’échange thermique sont en N+1, et les petits sites pour charges très critiques sont en 2N/3N, donc surprovisionnés. Il faut les arrêter pour les inspections régulières, leur taux de panne est supérieur à celui des composants classiques de datacenter, et ils exigent des réparations mécaniques par des spécialistes avec des délais d’approvisionnement longs
  Dans les grandes installations, plus N est grand, plus il est courant d’avoir du refroidissement en N+3 ou davantage. Il y a toujours quelque chose en maintenance, ou des machines en attente de pièces qu’il faut parfois fabriquer sur mesure parce qu’elles n’existent plus, ce qui coûte moins cher qu’un remplacement complet
  À l’inverse, si toute la capacité de calcul d’un site passe soudainement de sa consommation moyenne à 100 %, la capacité de refroidissement est dépassée, donc c’est aussi sous-provisionné. L’alimentation électrique et d’autres chemins critiques sont eux aussi souvent au-delà de leur charge nominale, et le secteur repose largement sur la survente
  En général, ce n’est pas un gros problème. Les charges de calcul qui montent à 100 % de la capacité totale sont rares, et même quand ça arrive, ça ne dure pas longtemps ; en plus, on ne conçoit pas un site au ras du seuil critique en refroidissement ou en alimentation
  Les ennuis commencent quand plusieurs événements se croisent. On peut avoir un système de refroidissement conçu pour encaisser 200 % de la charge moyenne, avec une bonne marge pour la maintenance et les pannes
  Un mardi, un technicien vient voir une machine, détecte un roulement défectueux, doit faire venir une pièce d’un autre État, et laisse l’équipement à l’arrêt toute la nuit pour éviter de casser l’ensemble du ventilateur
  Deux unités de refroidissement voisines travaillent alors un peu plus fort, mais l’une a un moteur légèrement déséquilibré ou un fusible un peu lâche qui chauffe, et une pièce qui tenait depuis des années finit par lâcher à cause du surcroît de charge
  Dans un site N+2, deux unités sont maintenant perdues, mais comme le dimensionnement reposait sur 200 % de la charge moyenne, ce n’est pas encore critique
  Si une troisième unité, de l’autre côté de la première en panne, révèle elle aussi un défaut sous l’effet de la charge accrue, on passe à trois unités perdues dans un site N+2. Même là, ce n’est toujours pas une catastrophe totale puisque le site était conçu pour 200 % de la charge moyenne
  Sauf qu’il est 4 h du matin, l’opérateur sur site ne peut pas réparer ce défaut, et le prestataire ne se réveille qu’à 7 h pour arriver à 9 h. Entre-temps, la charge commence à grimper
  Ce genre de chose arrive tous les jours dans un datacenter quelque part aux États-Unis, et probablement une fois par an dans presque tous les datacenters
  Ce qui fait la une, c’est la conjonction avec l’événement suivant. Un gros client décide que c’est le bon moment pour lancer un énorme traitement batch. Une fintech veut exécuter un gros modèle avant l’ouverture des marchés, ou une compagnie pétrolière lance une analyse rapide sur un nouveau gisement
  10 000 VM sont démarrées. En temps normal, il y a de la marge, donc ça passe
  Mais le refroidissement n’a été planifié que pour 200 % de la capacité moyenne, et ici il ne s’agit pas de nœuds modérément occupés : ce sont des nœuds optimisés pour du calcul numérique intensif, qui tirent la puissance maximale et produisent le maximum de chaleur résiduelle
  Ce n’est pas seulement la charge en nombre total de machines qui augmente, c’est aussi l’impact thermique moyen. Alors les pannes en cascade commencent et le refroidissement passe à N-4
  Les ventilateurs des serveurs accélèrent, consomment plus d’électricité, et le refroidissement passe à N-5. Les alarmes sonnent de partout
  Les sécurités des groupes froids se déclenchent les unes après les autres sous la charge et la hausse de pression du fluide frigorigène, et le refroidissement passe à N-6, N-7, puis à 0
- C’est une boucle de refroidissement du datacenter qui a lâché
- Sujet connexe intéressant à écouter ici : https://signalsandthreads.com/the-thermodynamics-of-trading/
Je me demande si, cette année dans l’UE, Hetzner a eu un meilleur uptime qu’AWS
- Je ne comprends pas pourquoi OVH n’est pas plus apprécié
  Je trouve l’interface de Hetzner trop confuse et difficile à administrer
Article lié : AWS EC2 outage in use1-az4 (us-east-1)
https://news.ycombinator.com/item?id=48057294
C’est toujours East 1. Blague à part, je ne comprends pas pourquoi east-1 tombe aussi souvent par rapport aux autres régions
Sur le plan architectural, ça devrait pourtant être assez similaire aux autres régions
- Je suppose que east one est le datacenter central et le plus ancien
  La charge y est sans doute plus élevée que dans les autres régions, et comme il a été construit au début avec moins d’expérience, il doit aussi traîner davantage de dette technique et de dette d’architecture / d’ingénierie
  De mémoire, certains services comme IAM ou certaines configurations S3 dépendent encore de east-1 comme point de défaillance unique
- C’est le système régional le plus ancien, et il a un rôle structurellement critique, notamment parce que l’autorité de certification interne y réside
- C’est amusant, il y avait cet article
  
  AWS in 2025: The Stuff You Think You Know That’s Now Wrong
  us-east-1 is no longer a merrily burning dumpster fire of sadness and regret.
  — https://www.lastweekinaws.com/blog/aws-in-2025-the-stuff-you...
  À part ça, c’est un bon article
Coinbase a dit que plusieurs zones de disponibilité étaient tombées, alors que la communication d’AWS parlait d’une seule zone de disponibilité affectée
Je me demande si quelqu’un a plus de détails
- Coinbase a confirmé sur X que l’exchange ne tournait que sur une seule zone de disponibilité à cause de la latence : https://x.com/i/status/2052855725857329254
- Il ne faut pas supposer qu’une entreprise crypto dira la vérité
- Je n’ai pas trouvé de source officielle, mais il semble que le rayon d’impact n’ait pas été limité à cette seule zone de disponibilité
  Je fais tourner des systèmes en us-east-1 et, pendant l’incident, j’ai observé des problèmes intermittents de connectivité difficiles à expliquer en dehors d’az4, que je n’avais jamais vus auparavant
- Quand East-1 tombe, une partie des autres zones de disponibilité est toujours affectée aussi. Il y a toujours quelque chose qui dépend de East-1
- J’ai passé la soirée à surveiller les graphiques SLI en me demandant si toute la région allait partir, mais au final ce n’est pas arrivé
  Dans plusieurs environnements, seuls quelques volumes EBS d’une zone de disponibilité unique se sont un peu dégradés ; c’était clairement un problème limité à une seule zone (use-az4)
J’avais vu un jour cette phrase : « si c’est un ami, on ne le laisse pas utiliser USE1 », et quand j’ai vu arriver sur Slack des messages disant que USE1 et tout ce qui y était déployé partaient complètement en vrille, j’y ai repensé
Dans les commentaires ici, on retrouve le discours habituel disant que us-east-1 est centralisé, que c’est le point de défaillance unique d’AWS, qu’il faut corriger ça et ne rien y déployer
Or cette fois, il s’agissait d’un problème sur un datacenter unique dans une seule zone d’une région multi-zone
Oui, IAM/R53 et d’autres services y sont centralisés, et ce serait une bonne chose de les décentraliser et de les rendre cross-region. Mais us-east-1 lui-même est déjà une région multi-zone avec 6 zones, et une 7e prévue pour 2026 ; et à l’intérieur des zones, il y a plusieurs datacenters
De mémoire, quand des services globaux comme IAM tombent, ce n’est pas tant parce qu’ils ne sont pas cross-region que parce qu’il y a des bugs d’implémentation ou de dépendances
Cette fois, ce n’était pas une panne globale des services AWS. Le seul service qui semblait plus fortement touché était MSK, et c’est probablement davantage un problème côté Kafka que côté AWS
Je me demande pourquoi on ne construit pas ce genre d’installations près de la mer. Les centrales nucléaires, par exemple, sont elles aussi des sites ayant besoin d’une forte capacité de refroidissement, non ?
Avec une circulation en deux boucles et un échangeur thermique, on devrait pouvoir évacuer la chaleur
- Si Ashburn, en Virginie, est devenu un hub de datacenters, c’est parce que le premier point d’échange Internet non gouvernemental au monde s’y trouvait (https://en.wikipedia.org/wiki/MAE-East)
  Dans les années 1990, environ la moitié du trafic Internet mondial transitait par MAE-East, et c’est ce qui a conduit AWS à y installer sa première région. us-east-1 est arrivé deux ans avant eu-west-1 et trois ans avant us-west-1
  Comme de plus en plus de gens savaient construire des datacenters et que davantage de fournisseurs savaient les alimenter, le corridor de Dulles est devenu un hub majeur de datacenters pour de nombreuses entreprises
  Chez AWS, us-east-1 étant la première région, c’est de loin la plus complexe et la plus étrange, et de nombreux plans de contrôle d’autres services AWS en dépendent. C’est pour cela qu’elle tombe plus souvent que les autres régions, et que lorsqu’elle tombe, cela fait la une nationale, contrairement à eu-south-2 en Espagne
  Le nord de la Virginie n’est pas un cas industriel, mais un exemple de cluster économique de datacenters, du même type que ceux étudiés par Paul Krugman dans les travaux qui lui ont valu le prix Nobel d’économie
- J’ai déjà vécu deux incidents majeurs de surchauffe dans deux datacenters différents
  L’un concernait le datacenter SOMA de Hosting.com, devenu si chaud qu’ils ont fini par l’arroser au tuyau depuis le toit ; l’autre concernait le datacenter de Chai Wan d’Alibaba, qui a tellement surchauffé que tout ce qui y tournait, y compris le plan de contrôle, est tombé
  Donc je ne pense pas qu’être près de la mer apporte un avantage supplémentaire du point de vue de la dissipation thermique d’urgence. La capacité d’évacuation de chaleur reste finie, et que l’on soit en bord de mer ou au milieu du Nebraska, tout le système doit être conçu pour atteindre un certain niveau de performance
- J’ai suivi un cours sur les datacenters en master, et le professeur prenait l’exemple de datacenters situés dans des régions chaudes du centre des États-Unis pour les comparer à un scénario idéal
  Les diapositives présentaient les facteurs qui influencent le choix d’implantation d’un datacenter, et plusieurs concernaient la disponibilité de suffisamment d’espace et de main-d’œuvre qualifiée pour y travailler. Il disait aussi que la politique intervenait parfois dans le choix du prochain site
- Comme ça, ce qui me vient à l’esprit, c’est qu’un système utilisant de l’eau au niveau de salinité de l’eau de mer coûte beaucoup plus cher à entretenir. Idem pour une boucle secondaire
  Le foncier côtier est bien plus cher, et si l’on s’éloigne vers une côte isolée, l’accès à l’électricité risque d’être moins bon
  Les sites côtiers sont généralement plus exposés à des phénomènes météorologiques violents
  Il y a aussi l’imprévisible. La centrale nucléaire de Diablo Canyon a déjà eu ses prises d’eau de refroidissement à l’eau de mer obstruées par des débris et des mouvements de méduses
  https://www.nbcnews.com/news/world/diablo-canyon-nuclear-pla...
- La mer contient du sel. L’eau salée est bien pire pour les équipements électroniques que l’eau douce
  Il faut aussi que l’eau soit suffisamment profonde ; sinon on finit par la réchauffer jusqu’à la température de surface. Et il faut que cette approche reste compétitive en prix face au refroidissement évaporatif classique
  Le cas d’école où cela fonctionne bien, c’est Toronto. Il y a à relativement courte distance du littoral un lac d’eau douce profond, et le centre-ville a un foncier si cher que les approches traditionnelles sont moins adaptées
  https://en.wikipedia.org/wiki/Deep_Lake_Water_Cooling_System

Panne dans un datacenter AWS en Virginie du Nord — résolue

Progression du rétablissement

Impact par service

Contexte du marché du cloud

À lire aussi

1 commentaires

Réactions sur Hacker News