- La panne d’AWS, le plus grand service de cloud, a provoqué l’arrêt de milliers de sites web et d’applications, mettant en avant l’alerte selon laquelle l’infrastructure internet dépend de manière excessive de quelques entreprises
- La panne a touché des services majeurs tels que Snapchat, Roblox, Signal, Duolingo, ainsi que des institutions publiques et financières comme Lloyds Bank, Ring, HMRC
- AWS a attribué la panne à une erreur de son système interne dans la région US-East et a exclu une cyberattaque ; la plupart des services ont été rétablis en quelques heures
- Les experts ont souligné qu’« il ne faut pas que les fondements du débat démocratique et du journalisme reposent sur les infrastructures de quelques entreprises », en insistant sur la nécessité de diversifier l’infrastructure cloud
- L’évaluation selon laquelle une structure dominée par de grands acteurs cloud a révélé la vulnérabilité d’Internet au niveau mondial a relancé le débat sur la souveraineté technologique des infrastructures publiques
Aperçu de la panne
- Une panne massive de services mondiaux est survenue après une erreur interne sur la région US-East-1 d’AWS
- L’incident a débuté vers 8 h heure locale, lundi (16 h au Royaume-Uni)
- Amazon a annoncé que le taux d’erreurs API et la latence avaient augmenté
- Selon Downdetector, plus de 2 000 entreprises ont été touchées dans le monde, avec plus d’1,9 million de signalements aux États-Unis, 1 million au Royaume-Uni et 410 000 en Australie
- AWS a désigné comme cause un problème du sous-système de surveillance de son équilibrage de charge interne, en excluant la possibilité d’une cyberattaque
- Un défaut lié à DynamoDB aurait provoqué des échecs de réponse API
- Pour éviter une explosion de trafic, une limitation temporaire des requêtes a été mise en place
- AWS a officiellement annoncé un retour à un fonctionnement normal en fin de journée, mais certains services ont continué à signaler des incidents
Portée de l’impact
- Principaux services : Snapchat, Roblox, Signal, Duolingo, Coinbase, Slack, Wordle, PlayStation Network, Peloton, parmi de nombreux autres
- Au Royaume-Uni, l’accès à des services financiers tels que Lloyds, Halifax, Bank of Scotland et au site web de HMRC (l’agence fiscale) a été interrompu
- Les utilisateurs de Ring Doorbell ont indiqué que le service de surveillance d’ouverture de porte était indisponible
- Des incidents de non-disponibilité ont également été signalés sur des plateformes mondiales telles que Epic Games, Pokémon Go, Wordle
Analyse d’experts
- Dr Corinne Cath-Speth (Article 19) : « La dépendance des bases du discours démocratique et du journalisme indépendant vis-à-vis de l’infrastructure d’un petit nombre d’entreprises est dangereuse. La diversification du cloud est urgente. »
- Cori Crider (Future of Technology Institute) : « Le Royaume-Uni doit s’extraire d’une dépendance envers la Big Tech américaine. L’incident d’AWS illustre une économie moderne entièrement paralysée par la panne d’un seul acteur. »
- Madeline Carr (UCL) : « Bien que la sécurité et l’évolutivité soient maintenues grâce au poids financier des grands acteurs cloud, une structure qui lie le monde entier au même risque reste extrêmement dangereuse. »
- Steven Murdoch (UCL) : « On estime que la cause ne serait pas une cyberattaque, mais une erreur opérationnelle interne à AWS. »
Réponses gouvernementales et réglementaires
- Le gouvernement britannique a annoncé avoir activé des contacts d’urgence avec AWS et avoir surveillé la progression de la restauration
- La commission des finances de la Chambre des communes a appelé à ce que AWS soit désigné comme « critical third party » dans le secteur financier
- Ce statut permettrait de placer AWS sous la supervision des autorités de régulation financière, avec ainsi la possibilité de garantir la stabilité de l’infrastructure financière
- La présidente Meg Hillier a critiqué le fait qu’AWS affirme offrir de la résilience tout en révélant en réalité des vulnérabilités
Contexte et implications
- Avec plus de 30 % de parts de marché dans le cloud mondial, AWS occupe la première place
- Avec Microsoft Azure et Google Cloud, une structure de concentration autour de trois grands acteurs cloud se dessine
- En 2024 déjà, une erreur logicielle de CrowdStrike a provoqué une vague de « Blue Screen » touchant les PC Windows dans le monde entier
- Cet incident a de nouveau mis en lumière le risque systémique de la concentration de l’infrastructure numérique et a relancé le débat, dans plusieurs pays, sur la souveraineté technologique et les stratégies de diversification du cloud
3 commentaires
Bon courage, Naver Cloud !
« Si le cloud vous déplaît, déployez-le vous-même et utilisez-le. » Je me demande si on peut vraiment en discuter.
Le multi-cloud ? Le déploiement et la gestion, ce n’est pas quelque chose qu’on fait à votre place.
Opinion de Hacker News
Plusieurs services sur AWS us-east-1 semblent être en panne et la discussion est en cours, avec un long thread ici
Lors de la panne Fastly en 2021, des “experts” ont déjà fait des critiques similaires, mais aucun changement tangible ne s’est produit. Une semaine plus tard, ce sujet n’apparaît plus dans la presse. Les praticiens savent combien il est difficile d’opérer à l’échelle d’AWS. Les vraies précautions pour se préparer à ce type de situation coûtent tellement cher que l’intérêt concret est quasi nul pour la majorité des entreprises. Si un service est vraiment “critique”, il faut bien le concevoir pour se protéger contre ce type de panne. Le fait de ne pas pouvoir se connecter à Fortnite montre à quel point il n’est pas facile en pratique de s’y préparer et quel coût cela représente. Les médias, en temps normal, ne parlent pas de l’importance du multi-région ou du multi-cloud, puis n’en parlent qu’au moment d’un incident avant d’oublier vite. Au final, la curiosité porte surtout sur la cause technique. Les reproches des “experts” sans suites n’ont guère de sens. L’essentiel n’est pas la critique sans suivi, mais une postmortem constructive et sans blame.
Il vaut sans doute la peine de remplacer les mots “cloud” ou “internet” par “entrepôt de Virginie”. Par exemple : “Notre service est entièrement dans l’entrepôt de Virginie”, “Tous mes fichiers sont dans l’entrepôt de Virginie”, “L’entrepôt de Virginie est conçu pour résister à une guerre nucléaire”, etc. original
Il existe déjà de nombreux fournisseurs de VPS, et des cas de baisse de coûts en basculant vers cette option apparaissent régulièrement, ce qui montre que c’est surtout un problème de cloud lock-in et de marketing.
Les opinions d’experts portent en fait davantage sur le contexte géopolitique (par ex. la dépendance en temps réel des systèmes nationaux à des entreprises étrangères) que sur le technique. Pour une entreprise classique, s’appuyer sur un seul fournisseur réduit la complexité et n’est pas problématique en termes de fréquence d’incidents. On n’a pas besoin de multi-cloud. Utiliser un seul cloud peut même améliorer la fréquence des downtimes.
Je pense que l’ensemble du secteur est pris dans le cloud lock-in. La vraie question est de savoir comment on peut revenir en arrière. Je considère Docker comme l’une des causes du lock-in, au même titre que les grands acteurs cloud.
Je n’interviens plus dans le cloud opérationnel depuis longtemps, mais à l’époque, les fonctionnalités de base (“primitive”) étaient en train de se standardiser entre tous les providers. Je me demande si la redondance multi-cloud était trop coûteuse, si l’écart technique était trop grand, ou si la question n’était même pas utile sous l’angle business. diapositive pets vs cattle
Cette année, on ne pouvait pas prévoir d’avance qu’AWS us-east-1 ne dépasserait pas la barre des deux chiffres de 9.
On pourrait penser que si tout le monde tombe en panne, c’est “exonéré”, mais l’expérience montre que ça ne passe pas pour un service destiné à des clients ordinaires.
La cause de cette panne était dans un sous-système interne chargé des health checks des load balancers réseau. Page de statut du service AWS