3 points par GN⁺ 29 일 전 | 1 commentaires | Partager sur WhatsApp
  • Un ancien ingénieur décrit en détail comment l’accumulation de décisions irréalistes au sein de Microsoft Azure Core a conduit à une confusion technique et à un effondrement de la confiance
  • Parmi les principaux problèmes pointés du doigt figurent un plan de portage de fonctionnalités Windows ignorant les contraintes matérielles, ainsi que la prolifération de 173 agents de gestion
  • Cette architecture complexe supporte des workloads critiques comme OpenAI, Anthropic et le cloud gouvernemental, ce qui crée un risque qu’une seule erreur se transforme en panne mondiale
  • Face au silence de la direction, des conséquences en chaîne sont apparues, comme la dégradation de la relation avec OpenAI, la perte de confiance du gouvernement américain et des retards de lancement de fonctionnalités
  • Au final, cela aurait conduit à une évaporation de 1 000 milliards de dollars de capitalisation boursière, tout en soulignant l’importance de garder les pieds sur terre techniquement et de préserver la simplicité dans l’exploitation d’une infrastructure cloud

Chronique interne de l’effondrement de la confiance dans Azure

  • Retour d’un ancien ingénieur sur le processus de décision irréaliste au sein de l’équipe Microsoft Azure Core et sur la confusion technique et organisationnelle qui en a découlé
  • Dès son premier jour au sein de l’équipe Overlake R&D, il assiste à une discussion sur un plan de portage de fonctionnalités Windows vers la carte Overlake, sans tenir compte des contraintes matérielles
  • Il existe 173 agents de gestion, mais la complexité et l’opacité sont telles que personne ne semble savoir précisément à quoi ils servent ni pourquoi ils existent
  • Cette architecture supporte pourtant des workloads critiques comme OpenAI, Anthropic et le cloud gouvernemental, avec le risque qu’une simple erreur provoque une panne à l’échelle mondiale
  • Selon l’auteur, cela a fini par entraîner une perte de confiance d’OpenAI, une défiance publique du département américain de la Défense et l’évaporation de 1 000 milliards de dollars de valeur de marché

Arrivée chez Azure Core et contexte initial

  • Le 1er mai 2023, il rejoint comme ingénieur senior l’équipe Overlake R&D, en charge de la carte d’offload Azure Boost et des accélérateurs réseau
  • Auparavant, il avait travaillé dans l’équipe Windows et dans l’équipe Core OS sur l’amélioration du kernel et le développement de plateformes de conteneurs, contribuant à des technologies clés comme Docker, AKS, App Services et Windows Sandbox
  • Il avait aussi participé à la conception initiale de la carte Overlake (2020~2021), en proposant un protocole de communication entre l’OS hôte et la carte accélératrice
  • Il revenait ainsi sur une plateforme Azure qu’il avait directement exploitée et développée pendant plus de dix ans

Un plan irréaliste observé dès la première réunion

  • Dès son premier jour, lors de la réunion mensuelle de planification de l’équipe, il découvre un projet visant à porter des composants Windows sur la carte Overlake
  • Alors même que la capacité RAM et le budget énergétique de la carte Overlake sont extrêmement limités, l’équipe discute de l’idée d’y transposer des fonctionnalités Windows
  • Le projet était irréalisable au vu des spécifications matérielles, et quelqu’un aurait même proposé de “le confier à quelques développeurs juniors”
  • L’organisation envisageait sérieusement une direction consistant à porter Windows sur Linux afin de conserver les agents de gestion des VM
  • L’auteur y voit un “plan déconnecté de la réalité” et estime que toute l’organisation s’engageait dans une marche vers un objectif impossible

Limites techniques et problèmes structurels

  • À l’époque, la stack ne pouvait gérer que quelques dizaines de VM avec un CPU Xeon de 400W, très loin de la limite de 1 024 VM de l’hyperviseur
  • Cette consommation excessive de ressources provoquait aussi une baisse des performances, avec notamment du jitter sur les VM clientes
  • Le projet consistant à faire évoluer cette stack inefficace sur un petit SoC ARM pour passer à l’échelle était techniquement impossible
  • L’auteur explique que “plus urgent que d’apprendre une nouvelle technologie, il fallait ramener toute l’organisation à la réalité”

Échanges internes sur Azure Linux et Overlake

  • Lors d’un entretien de 90 minutes avec le responsable du Linux System Group, il apprend que 173 agents avaient été retenus comme candidats au portage vers la carte Overlake
  • Après enquête, il constate que personne chez Microsoft ne peut expliquer clairement le rôle de ces 173 agents, leurs interactions ni la raison de leur existence
  • Le cœur d’Azure repose sur les VM, le réseau et le stockage, et pourtant une complexité superflue s’est accumulée par-dessus
  • Cet ensemble de composants devenu incontrôlable gère pourtant des workloads majeurs comme OpenAI, Anthropic et les clouds gouvernementaux

Perte de confiance et conséquences

  • Cette architecture complexe pouvait faire peser un risque grave sur la sécurité nationale et la continuité d’activité
  • Les lettres ensuite adressées au CEO, au conseil d’administration et à l’EVP de la division Cloud+AI sont toutes restées sans réponse
  • D’après l’auteur, cela a conduit à une dégradation de la relation avec OpenAI, à un effondrement de la confiance du gouvernement américain (avec une déclaration publique du secrétaire à la Défense), à du gaspillage d’ingénierie et à un ordre de migration vers Rust, ainsi qu’à des retards de livraison de fonctionnalités
  • Il décrit l’ensemble comme un événement ayant “fait s’évaporer 1 000 milliards de dollars de valeur de marché” et met en garde les entreprises utilisant Azure contre les risques d’une dépendance en production

Conclusion

  • Le texte montre comment l’accumulation de complexité technique, de mauvaise gestion et de décisions irréalistes au sein d’Azure a fini par détruire la confiance
  • Il s’agit d’un cas où une organisation responsable d’une infrastructure critique a perdu le sens des réalités et poursuivi sa marche vers un échec structurel
  • Le récit souligne l’importance de la stabilité et de la simplicité dans les infrastructures cloud, ainsi que celle de préserver la capacité de jugement technique au sein des organisations

1 commentaires

 
GN⁺ 29 일 전
Avis sur Hacker News
  • En tant qu’utilisateur quotidien d’Azure, si ces révélations sont vraies, j’ai l’impression qu’elles expliquent énormément de choses
    L’interface est bancale, la documentation est imprécise comme si elle avait été écrite par une IA, et il y a tellement de services qu’on ne sait même pas lequel utiliser
    C’est difficile à configurer sans l’aide d’un consultant, et même une fois configuré, on n’a aucune certitude que ça fonctionne correctement
    Honnêtement, c’est étonnant que tout cela tienne encore debout

    • Autrefois, j’étais impressionné par la documentation d’Azure, mais après une semaine d’implémentation, j’ai complètement échoué dans l’environnement de test parce que GraphAPI ne se comportait pas comme indiqué dans la documentation
      Depuis, je ne fais plus confiance à la doc
    • J’ai travaillé avec des consultants Azure, et eux aussi détestent Azure
    • La direction a décidé une migration vers AKS parce qu’il y avait beaucoup de crédits, mais les pods plantaient aléatoirement et la latence disque des nœuds de base de données s’envolait
      Un service qui tournait de manière stable sur GCP est devenu imprévisible
  • J’ai vu Azure OpenAI divulguer les réponses à des prompts d’autres clients lorsqu’il était sous charge
    Il y a aussi ce tweet lié
    Pourtant, personne ne semble vraiment s’en soucier

    • Je me demande ce que signifie exactement “Azure OpenAI” — GitHub Copilot, Microsoft Copilot, l’API OpenAI, ou l’un des LLM hébergés sur Azure ?
      On dirait complètement le Far West
  • Je suis surpris par le niveau de précision des affirmations de cet article
    Je me demande s’il s’agit d’un lanceur d’alerte ou simplement d’un ancien employé mécontent
    Le passage où il dit avoir signalé directement le problème au CEO et au conseil d’administration est particulièrement frappant
    L’idée qu’une telle procédure soit “habituelle” dans la culture d’entreprise américaine me paraît étrangère
    Je suis curieux d’avoir des retours d’expérience réels pour savoir si Azure est vraiment aussi instable

    • En pratique, en tant que SRE opérant sur AWS, Azure et GCP, 80 à 90 % des incidents surviennent sur Azure
      Azure ne semble pas détecter les problèmes, n’en comprend pas la cause, et ne paraît même pas s’en soucier
      Toute l’équipe déteste Azure
    • Azure a beaucoup trop de problèmes de cohérence et de conditions de course
      J’étais content de pouvoir utiliser des modèles OpenAI via AWS Bedrock et ainsi éviter Azure
      La fiabilité reste un problème très grave
    • Les grandes entreprises prennent souvent des décisions qui sacrifient la qualité au profit d’indicateurs de court terme
      La stratégie du “sortir vite et corriger plus tard” finit par produire exactement ce genre de résultat
    • J’ai déjà vu un rapport de sécurité sur une évasion depuis un conteneur Azure qui révélait une vulnérabilité dans le contrôleur de gestion
      Depuis, je n’ai plus confiance
    • Même avec des crédits gratuits, je pense qu’il vaut mieux payer pour AWS ou GCP
  • Le ton de l’article semble un peu émotionnellement exagéré, ce qui brouille son intention initiale
    La hiérarchie interne chez Azure ou les incidents de niveau Sev2 n’ont rien de particulièrement exceptionnel
    Azure a des problèmes, mais vu l’échelle, il est normal qu’il y ait des aspérités
    La vraie maturité consiste, selon moi, à essayer d’améliorer les choses depuis l’intérieur

    • Écrire directement au conseil d’administration est le genre d’action qui ne peut presque jamais bien se terminer dans une organisation
      Azure est peut-être en mauvais état, mais l’approche de l’auteur a aussi pu poser problème
    • AWS et GCP ont une UX/DX bien meilleure, alors qu’Azure n’explique même pas pourquoi ça ne marche pas
      Mon impression d’Azure est entièrement négative
    • Microsoft est la solution par défaut des administrations, mais proposer une réécriture complète n’est pas réaliste
      L’approche de l’auteur nuit plutôt à sa crédibilité
    • Je suis surpris par le fait que des personnes d’un grade aussi bas que celles mentionnées par l’auteur se soient vu confier des systèmes aussi critiques
    • Il y a beaucoup de gens qui “crient que tout est cassé”, mais c’est peut-être aussi un problème d’inertie organisationnelle
      La fréquence à laquelle les nouveaux employés disent “wtf/day” ressemble à un indicateur de santé de l’organisation
      Même vu de l’extérieur, la qualité d’Azure est au plus bas
      À force de jeter des fonctionnalités à la hâte pour rattraper AWS, ils se sont enfoncés dans un immense bourbier de dette technique
      Même des fonctions de base comme IPv6, azcopy ou les mises à niveau de VM restent instables
  • Un ancien collègue utilise Azure tous les jours, et chaque fois que j’entends l’explosion de ses plaintes, le contenu de ce texte me paraît compréhensible
    Quand j’ai choisi ma spécialisation cloud il y a 12 ans, j’ai essayé Azure brièvement et j’ai eu l’impression d’une plateforme lente et cassée ; ce texte confirme ce jugement

  • Dans la seconde moitié du texte, le passage indiquant que Microsoft a supprimé 15 000 postes en 2025 est frappant
    On dirait un exemple de la réalité qui suit le boom de l’IA

    • Mais je pense que c’est un argument faible dans l’article
      Le contrat OpenAI relevait d’un problème de capacité GPU, et les licenciements sont un sujet distinct
      Le vrai problème, c’est la rotation des ingénieurs et l’absence de responsabilité
      De nouvelles personnes arrivent sur chaque projet, et le sentiment de propriété disparaît
  • Le passage expliquant qu’une compromission de l’hôte permettrait d’accéder à toute la mémoire des VM semble extrêmement dangereux

    • Je n’arrive même pas à imaginer l’environnement dans lequel quelqu’un aurait pu considérer une telle architecture comme une bonne idée
    • Je ne sais pas ce que l’auteur s’attendait à trouver
  • Il y a quelque chose d’ironique à voir côte à côte la citation de CNBC disant que la rémunération de Satya Nadella a augmenté de 22 % pour atteindre 96,5 millions de dollars, et celle d’un astronaute d’Artemis II disant : “Mes deux Outlook ne marchent pas”

    • “Deux Outlook”, c’est déjà un de trop
  • Le contenu de l’article semble exagéré, mais pour avoir moi aussi exploité des systèmes similaires, je me souviens avoir dû me battre en permanence pour préserver la stabilité
    J’ai vu des problèmes comparables dans d’autres entreprises, mais pas à un niveau aussi grave que chez Azure
    Ce type d’organisation semble voué à finir dans une boucle d’autodestruction

  • J’ai utilisé Azure en 2018, et c’était lent, cher, et d’une qualité lamentable
    Sur les forums GitHub, j’essayais avec d’autres utilisateurs de résoudre des problèmes où même les fonctions de base ne marchaient pas
    Cet article répond aux questions que je me posais à l’époque
    Personnellement, j’ai toujours trouvé que Google Cloud était la plateforme la mieux conçue, même si son support humain est plus faible que celui d’AWS

    • Le support de GCP est vraiment lamentable
      Mon interlocuteur a changé trois fois en trois mois, et les demandes de quotas ou les questions sur les limites du système étaient parfois ignorées