3 points par GN⁺ 27 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Un ancien ingénieur décrit en détail comment l’accumulation de décisions irréalistes au sein de Microsoft Azure Core a conduit à une confusion technique et à un effondrement de la confiance
  • Parmi les principaux problèmes pointés du doigt figurent un plan de portage de fonctionnalités Windows ignorant les contraintes matérielles, ainsi que la prolifération de 173 agents de gestion
  • Cette architecture complexe supporte des workloads critiques comme OpenAI, Anthropic et le cloud gouvernemental, ce qui crée un risque qu’une seule erreur se transforme en panne mondiale
  • Face au silence de la direction, des conséquences en chaîne sont apparues, comme la dégradation de la relation avec OpenAI, la perte de confiance du gouvernement américain et des retards de lancement de fonctionnalités
  • Au final, cela aurait conduit à une évaporation de 1 000 milliards de dollars de capitalisation boursière, tout en soulignant l’importance de garder les pieds sur terre techniquement et de préserver la simplicité dans l’exploitation d’une infrastructure cloud

Chronique interne de l’effondrement de la confiance dans Azure

  • Retour d’un ancien ingénieur sur le processus de décision irréaliste au sein de l’équipe Microsoft Azure Core et sur la confusion technique et organisationnelle qui en a découlé
  • Dès son premier jour au sein de l’équipe Overlake R&D, il assiste à une discussion sur un plan de portage de fonctionnalités Windows vers la carte Overlake, sans tenir compte des contraintes matérielles
  • Il existe 173 agents de gestion, mais la complexité et l’opacité sont telles que personne ne semble savoir précisément à quoi ils servent ni pourquoi ils existent
  • Cette architecture supporte pourtant des workloads critiques comme OpenAI, Anthropic et le cloud gouvernemental, avec le risque qu’une simple erreur provoque une panne à l’échelle mondiale
  • Selon l’auteur, cela a fini par entraîner une perte de confiance d’OpenAI, une défiance publique du département américain de la Défense et l’évaporation de 1 000 milliards de dollars de valeur de marché

Arrivée chez Azure Core et contexte initial

  • Le 1er mai 2023, il rejoint comme ingénieur senior l’équipe Overlake R&D, en charge de la carte d’offload Azure Boost et des accélérateurs réseau
  • Auparavant, il avait travaillé dans l’équipe Windows et dans l’équipe Core OS sur l’amélioration du kernel et le développement de plateformes de conteneurs, contribuant à des technologies clés comme Docker, AKS, App Services et Windows Sandbox
  • Il avait aussi participé à la conception initiale de la carte Overlake (2020~2021), en proposant un protocole de communication entre l’OS hôte et la carte accélératrice
  • Il revenait ainsi sur une plateforme Azure qu’il avait directement exploitée et développée pendant plus de dix ans

Un plan irréaliste observé dès la première réunion

  • Dès son premier jour, lors de la réunion mensuelle de planification de l’équipe, il découvre un projet visant à porter des composants Windows sur la carte Overlake
  • Alors même que la capacité RAM et le budget énergétique de la carte Overlake sont extrêmement limités, l’équipe discute de l’idée d’y transposer des fonctionnalités Windows
  • Le projet était irréalisable au vu des spécifications matérielles, et quelqu’un aurait même proposé de “le confier à quelques développeurs juniors”
  • L’organisation envisageait sérieusement une direction consistant à porter Windows sur Linux afin de conserver les agents de gestion des VM
  • L’auteur y voit un “plan déconnecté de la réalité” et estime que toute l’organisation s’engageait dans une marche vers un objectif impossible

Limites techniques et problèmes structurels

  • À l’époque, la stack ne pouvait gérer que quelques dizaines de VM avec un CPU Xeon de 400W, très loin de la limite de 1 024 VM de l’hyperviseur
  • Cette consommation excessive de ressources provoquait aussi une baisse des performances, avec notamment du jitter sur les VM clientes
  • Le projet consistant à faire évoluer cette stack inefficace sur un petit SoC ARM pour passer à l’échelle était techniquement impossible
  • L’auteur explique que “plus urgent que d’apprendre une nouvelle technologie, il fallait ramener toute l’organisation à la réalité”

Échanges internes sur Azure Linux et Overlake

  • Lors d’un entretien de 90 minutes avec le responsable du Linux System Group, il apprend que 173 agents avaient été retenus comme candidats au portage vers la carte Overlake
  • Après enquête, il constate que personne chez Microsoft ne peut expliquer clairement le rôle de ces 173 agents, leurs interactions ni la raison de leur existence
  • Le cœur d’Azure repose sur les VM, le réseau et le stockage, et pourtant une complexité superflue s’est accumulée par-dessus
  • Cet ensemble de composants devenu incontrôlable gère pourtant des workloads majeurs comme OpenAI, Anthropic et les clouds gouvernementaux

Perte de confiance et conséquences

  • Cette architecture complexe pouvait faire peser un risque grave sur la sécurité nationale et la continuité d’activité
  • Les lettres ensuite adressées au CEO, au conseil d’administration et à l’EVP de la division Cloud+AI sont toutes restées sans réponse
  • D’après l’auteur, cela a conduit à une dégradation de la relation avec OpenAI, à un effondrement de la confiance du gouvernement américain (avec une déclaration publique du secrétaire à la Défense), à du gaspillage d’ingénierie et à un ordre de migration vers Rust, ainsi qu’à des retards de livraison de fonctionnalités
  • Il décrit l’ensemble comme un événement ayant “fait s’évaporer 1 000 milliards de dollars de valeur de marché” et met en garde les entreprises utilisant Azure contre les risques d’une dépendance en production

Conclusion

  • Le texte montre comment l’accumulation de complexité technique, de mauvaise gestion et de décisions irréalistes au sein d’Azure a fini par détruire la confiance
  • Il s’agit d’un cas où une organisation responsable d’une infrastructure critique a perdu le sens des réalités et poursuivi sa marche vers un échec structurel
  • Le récit souligne l’importance de la stabilité et de la simplicité dans les infrastructures cloud, ainsi que celle de préserver la capacité de jugement technique au sein des organisations

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.