GitHub : incident sur les opérations Git

(githubstatus.com)

3 points par GN⁺ 2025-11-20 | 1 commentaires | Partager sur WhatsApp

Le 18 novembre 2025 (UTC), GitHub a subi un échec de toutes les opérations Git, interrompant les clients SSH et HTTP ainsi que l’accès aux fichiers bruts
La cause du problème a été identifiée comme étant l’expiration d’un certificat TLS utilisé pour la communication entre services internes
GitHub a remplacé le certificat expiré et redémarré les services affectés, achevant ainsi un rétablissement complet
Depuis, l’entreprise renforce les alertes de surveillance de l’expiration des certificats et mène une transition vers l’automatisation pour supprimer les certificats gérés manuellement
Cet incident a affecté Git Operations et Codespaces de GitHub, et tous les services sont revenus à la normale après la restauration

Rapport d’incident sur les opérations Git

Entre le 18 novembre 2025 à 20:30 et 21:34 UTC, GitHub a subi un échec de toutes les opérations Git
- Les interactions des clients Git en SSH et HTTP, ainsi que l’accès aux fichiers bruts, ont tous été affectés
- Les produits dépendant des opérations Git ont également subi le même incident
La cause a été identifiée comme un certificat TLS expiré utilisé pour la communication entre services internes
- GitHub a résolu le problème en remplaçant le certificat et en redémarrant les services affectés
- Après le redémarrage des services, un rétablissement complet a été obtenu
Pour éviter qu’un problème similaire ne se reproduise, GitHub a renforcé le système d’alerte sur l’expiration des certificats
- Des vérifications de surveillance et d’automatisation sont également en cours pour d’autres certificats dans les zones concernées
- L’entreprise accélère la suppression des certificats encore gérés manuellement et la mise en place d’un système automatisé de communication entre services

Déroulement de l’incident et étapes de rétablissement

20:39 UTC : signalement d’une dégradation de disponibilité sur les opérations Git et Codespaces
20:52 UTC : confirmation de l’échec de certaines opérations Git en HTTP
21:11 UTC : confirmation de l’échec de toutes les opérations Git
21:25 UTC : dégradation de disponibilité persistante sur Codespaces
21:27 UTC : cause identifiée, lancement du correctif
21:36 UTC : début d’un rétablissement partiel après le déploiement du correctif
21:55 UTC : retour à la normale de tous les services, rétablissement de Codespaces terminé
21:56 UTC : confirmation du fonctionnement normal des opérations Git
21:59 UTC : incident clôturé et rapport publié

Services affectés

Git Operations
- Ensemble des opérations Git via SSH et HTTP
Codespaces
- Dégradation temporaire de disponibilité

Actions de suivi

Renforcement de la surveillance de l’expiration des certificats et de l’automatisation
- Mise en place d’un système d’alerte avant expiration
- Vérification des processus de renouvellement automatique pour tous les certificats internes
Extension de l’automatisation de la sécurité et des opérations
- Suppression de la gestion manuelle des certificats
- Mise en place d’une communication automatisée entre services conforme aux pratiques de sécurité les plus récentes

1 commentaires

GN⁺ 2025-11-20

Avis sur Hacker News

Il est inquiétant de voir les pannes majeures de systèmes logiciels se produire si souvent ces derniers temps
L’an dernier, il n’y en a eu que quatre ayant affecté mon travail, mais c’est déjà la quatrième ce trimestre
J’ai l’impression que la résilience des logiciels réseau disparaît peu à peu
Notre équipe utilise une architecture monolithique, mais avec de nombreuses dépendances comme Redis, S3 et des services d’intégration externes
Nous avons donc simplifié l’ensemble en documentant les conditions de panne, en renforçant l’automatisation des tests et des déploiements, et en migrant du cloud vers des VPS
Résultat : le système est devenu bien plus stable et prévisible
Sans ce travail ingrat mais indispensable, la complexité n’aurait fait qu’augmenter et le système serait devenu encore plus fragile
Les pannes récentes que nous avons subies concernaient AWS us-east-1, Azure Front Door, Cloudflare et GitHub
- Au fond, je pense que le problème, c’est l’argent
  Les clients ne veulent pas dépenser pour la résilience ou une infrastructure redondante
  Depuis 2008, j’ai travaillé sur une dizaine de projets, et dans la plupart des cas l’attitude était : « on va juste compter sur la chance »
- D’accord. La réduction des coûts finit par nous faire « oublier comment construire des systèmes qui tiennent même en cas de panne »
- Pour être volontairement provocateur, je pense aussi que la hausse de l’usage des LLM contribue à ce phénomène
Git est un système de gestion de versions distribué, donc on peut travailler même sans GitHub
GitHub n’est qu’un hub pratique
- Sauf pour les entreprises entièrement dépendantes de GitHub Actions, qui sont complètement bloquées dans un cas comme celui-ci
- C’est un peu la situation : « Cet escalator est temporairement transformé en escalier. Nous vous prions de nous excuser pour la gêne occasionnée. »
- Le fond du problème, c’est que GitHub est en panne, pas git lui-même
- Sans GitHub, on perd sa fonction de hub de collaboration avec les autres
- Si on est sur Hacker News en ce moment, c’est parce qu’on ne peut pas travailler
Le manque de fiabilité de GitHub semble sérieux
Pour ceux qui dépendent de la CI/CD, c’est critique
En interne, on dirait que c’est perçu seulement comme « la CI/CD de notre équipe est cassée », sans prendre en compte le fait que « la moitié du monde est à l’arrêt »
Cette culture en silos et cette attitude du type « ce n’est pas notre problème » finissent par dégrader la fiabilité
En plus, sa position dominante fait que les clients n’ont guère d’autre choix que de continuer à l’utiliser
Cela rappelle l’attitude déjà vue chez Verio ou Verisign : « de toute façon, vous n’irez nulle part ailleurs »
Je me demande si les pannes cloud/SaaS sont vraiment plus fréquentes en ce moment
Je ne sais pas si c’est simplement plus médiatisé, ou si la fréquence a réellement augmenté
Est-ce à cause des coupes budgétaires, des suppressions de postes, de l’adoption de l’IA ou d’une croissance excessive ?
- Microsoft semble penser que tout ira mieux en migrant GitHub sur Azure
- En tant qu’utilisateur de longue date, je ressens clairement une augmentation de la fréquence des pannes
  Avant, c’était une ou deux fois par an ; aujourd’hui, c’est presque tous les mois, et récemment presque toutes les semaines
- Lors d’une panne Cloudflare, quelqu’un a dit que la « culture du code pilotée par l’IA » aggravait ce genre de problèmes
  De petits fragments de code générés par IA peuvent déclencher des pannes en cascade
- Comme le suggère un article de Techrights,
  les licenciements massifs ont pu contribuer à la baisse de fiabilité
- À cause du FOMO (peur de rater quelque chose) lié à l’IA, les calendriers de projet deviennent plus tendus,
  et les 10 % finaux du travail de stabilisation semblent finalement être ignorés
Comme le push ne passait pas, j’ai d’abord cru que le problème venait de moi
J’ai finalement décidé d’abandonner pour aujourd’hui et de réessayer demain
- L’authentification fonctionnait, mais le push non, une expérience vraiment à s’arracher les cheveux
- Même en ajoutant une nouvelle clé SSH, ça n’a servi à rien. Au début, j’avais juste des erreurs bizarres, puis finalement le message « upstream unhealthy »
- J’ai failli moi aussi reconfigurer tout mon environnement depuis zéro
Je n’avais déjà pas envie de travailler aujourd’hui, et après Cloudflare voilà GitHub qui tombe aussi ; on dirait presque un signe qu’il faut se reposer
- Le problème, c’est cette dépendance centralisée à la technologie centrée sur les États-Unis
  Il faut davantage de souveraineté technologique et de décentralisation
Parmi les services que j’ai utilisés ces cinq dernières années, GitHub est celui qui a été le plus instable
Je me demande si GitLab est meilleur. À ce stade, ma confiance dans GitHub est quasiment nulle
- Dans notre entreprise, nous auto-hébergeons GitLab, mais le serveur Gitaly tombe souvent
  C’est probablement lié à notre gros environnement en mono-repo, mais il y a clairement des problèmes de scalabilité
- GitLab a beaucoup de fonctionnalités, mais l’intégration est brouillonne et l’ensemble manque de finition
  Cela dit, le fait de pouvoir réunir dépôt, CI/CD, issues et wiki au même endroit est un avantage
- J’utilise à la fois GitHub.com et un GitLab auto-hébergé ;
  GitHub est vulnérable aux pannes du cloud, tandis que GitLab souffre souvent d’échecs de mise à niveau automatique
  Chacun a ses avantages et ses inconvénients
- Le problème avec GitLab, c’est qu’il est lent et lourd
  Il charge plusieurs Mo de JS, donc sur un réseau lent les pages s’affichent à peine
- En on-premise, on peut obtenir autant de fiabilité qu’on le souhaite
En urgence, on peut modifier directement des fichiers depuis l’interface web de GitHub
Mais actions/checkout@v4 de GH Actions ne fonctionne pas actuellement à cause du problème git
- En réalité, n’importe quel hôte accessible en SSH permet de faire du git push/pull
- Nous étions nous aussi en train de faire un hotfix en production, et nous avons été bloqués. Je ne sais pas ce qui se passe avec Internet ces temps-ci
- CircleCI échoue lui aussi sur les opérations git à cause d’un problème de reconnaissance des clés SSH GitHub
- Cette fois, l’IA de GitHub m’a indiqué de vérifier githubstatus.com, ce qui a été étonnamment utile
- Je me demande s’il est possible de créer une branche depuis l’interface GitHub
En dix ans passés entre grands groupes et startups, j’ai observé un schéma récurrent
startup → réponse aux clients enterprise → refonte complexe → idéalisme → recherche du profit → obésité produit → départ des ingénieurs clés → baisse de qualité
Ce cycle se répète aussi chez les géants du cloud (AWS, Cloudflare, GCP, etc.)
En interne aussi, chaque service est fragmenté en petites unités business qui fonctionnent avant tout selon une logique de rentabilité
Au final, même l’infrastructure de base est affaiblie par la pression sur les marges
L’idée que « AWS ou GCP sont trop gros pour tomber » me paraît dangereuse
- D’accord. Dans la réponse aux besoins enterprise, il est inévitable que le produit devienne plus complexe et plus lourd
  Mais la dette technique et les problèmes de sécurité des startups au début étaient eux aussi très graves
  Au fond, il est naturel que les fissures d’un système apparaissent au cours d’une croissance à grande échelle
La page de statut de GitHub affiche encore la formule « certains utilisateurs peuvent rencontrer des problèmes »
Pourtant, dans les faits, non seulement HTTPS mais aussi tous les push SSH échouent
- On dirait que les responsables de la page de statut n’arrivent pas à sortir de cette formule « certains utilisateurs »
  Une communication transparente, plutôt que des euphémismes façon RP, renforcerait davantage la confiance
  D’autant que les mises à jour de la page de statut arrivent souvent en retard
- Un ami m’a dit qu’il avait réussi à faire un push brièvement, mais pour la plupart des gens c’est toujours l’état erreur fatale

GitHub : incident sur les opérations Git

Rapport d’incident sur les opérations Git

Déroulement de l’incident et étapes de rétablissement

Services affectés

Actions de suivi

À lire aussi

1 commentaires

Avis sur Hacker News