GitHub : incident sur les opérations Git
(githubstatus.com)- Le 18 novembre 2025 (UTC), GitHub a subi un échec de toutes les opérations Git, interrompant les clients SSH et HTTP ainsi que l’accès aux fichiers bruts
- La cause du problème a été identifiée comme étant l’expiration d’un certificat TLS utilisé pour la communication entre services internes
- GitHub a remplacé le certificat expiré et redémarré les services affectés, achevant ainsi un rétablissement complet
- Depuis, l’entreprise renforce les alertes de surveillance de l’expiration des certificats et mène une transition vers l’automatisation pour supprimer les certificats gérés manuellement
- Cet incident a affecté Git Operations et Codespaces de GitHub, et tous les services sont revenus à la normale après la restauration
Rapport d’incident sur les opérations Git
-
Entre le 18 novembre 2025 à 20:30 et 21:34 UTC, GitHub a subi un échec de toutes les opérations Git
- Les interactions des clients Git en SSH et HTTP, ainsi que l’accès aux fichiers bruts, ont tous été affectés
- Les produits dépendant des opérations Git ont également subi le même incident
-
La cause a été identifiée comme un certificat TLS expiré utilisé pour la communication entre services internes
- GitHub a résolu le problème en remplaçant le certificat et en redémarrant les services affectés
- Après le redémarrage des services, un rétablissement complet a été obtenu
-
Pour éviter qu’un problème similaire ne se reproduise, GitHub a renforcé le système d’alerte sur l’expiration des certificats
- Des vérifications de surveillance et d’automatisation sont également en cours pour d’autres certificats dans les zones concernées
- L’entreprise accélère la suppression des certificats encore gérés manuellement et la mise en place d’un système automatisé de communication entre services
Déroulement de l’incident et étapes de rétablissement
- 20:39 UTC : signalement d’une dégradation de disponibilité sur les opérations Git et Codespaces
- 20:52 UTC : confirmation de l’échec de certaines opérations Git en HTTP
- 21:11 UTC : confirmation de l’échec de toutes les opérations Git
- 21:25 UTC : dégradation de disponibilité persistante sur Codespaces
- 21:27 UTC : cause identifiée, lancement du correctif
- 21:36 UTC : début d’un rétablissement partiel après le déploiement du correctif
- 21:55 UTC : retour à la normale de tous les services, rétablissement de Codespaces terminé
- 21:56 UTC : confirmation du fonctionnement normal des opérations Git
- 21:59 UTC : incident clôturé et rapport publié
Services affectés
- Git Operations
- Ensemble des opérations Git via SSH et HTTP
- Codespaces
- Dégradation temporaire de disponibilité
Actions de suivi
- Renforcement de la surveillance de l’expiration des certificats et de l’automatisation
- Mise en place d’un système d’alerte avant expiration
- Vérification des processus de renouvellement automatique pour tous les certificats internes
- Extension de l’automatisation de la sécurité et des opérations
- Suppression de la gestion manuelle des certificats
- Mise en place d’une communication automatisée entre services conforme aux pratiques de sécurité les plus récentes
1 commentaires
Avis sur Hacker News
Il est inquiétant de voir les pannes majeures de systèmes logiciels se produire si souvent ces derniers temps
L’an dernier, il n’y en a eu que quatre ayant affecté mon travail, mais c’est déjà la quatrième ce trimestre
J’ai l’impression que la résilience des logiciels réseau disparaît peu à peu
Notre équipe utilise une architecture monolithique, mais avec de nombreuses dépendances comme Redis, S3 et des services d’intégration externes
Nous avons donc simplifié l’ensemble en documentant les conditions de panne, en renforçant l’automatisation des tests et des déploiements, et en migrant du cloud vers des VPS
Résultat : le système est devenu bien plus stable et prévisible
Sans ce travail ingrat mais indispensable, la complexité n’aurait fait qu’augmenter et le système serait devenu encore plus fragile
Les pannes récentes que nous avons subies concernaient AWS us-east-1, Azure Front Door, Cloudflare et GitHub
Les clients ne veulent pas dépenser pour la résilience ou une infrastructure redondante
Depuis 2008, j’ai travaillé sur une dizaine de projets, et dans la plupart des cas l’attitude était : « on va juste compter sur la chance »
Git est un système de gestion de versions distribué, donc on peut travailler même sans GitHub
GitHub n’est qu’un hub pratique
Le manque de fiabilité de GitHub semble sérieux
Pour ceux qui dépendent de la CI/CD, c’est critique
En interne, on dirait que c’est perçu seulement comme « la CI/CD de notre équipe est cassée », sans prendre en compte le fait que « la moitié du monde est à l’arrêt »
Cette culture en silos et cette attitude du type « ce n’est pas notre problème » finissent par dégrader la fiabilité
En plus, sa position dominante fait que les clients n’ont guère d’autre choix que de continuer à l’utiliser
Cela rappelle l’attitude déjà vue chez Verio ou Verisign : « de toute façon, vous n’irez nulle part ailleurs »
Je me demande si les pannes cloud/SaaS sont vraiment plus fréquentes en ce moment
Je ne sais pas si c’est simplement plus médiatisé, ou si la fréquence a réellement augmenté
Est-ce à cause des coupes budgétaires, des suppressions de postes, de l’adoption de l’IA ou d’une croissance excessive ?
Avant, c’était une ou deux fois par an ; aujourd’hui, c’est presque tous les mois, et récemment presque toutes les semaines
De petits fragments de code générés par IA peuvent déclencher des pannes en cascade
les licenciements massifs ont pu contribuer à la baisse de fiabilité
et les 10 % finaux du travail de stabilisation semblent finalement être ignorés
Comme le push ne passait pas, j’ai d’abord cru que le problème venait de moi
J’ai finalement décidé d’abandonner pour aujourd’hui et de réessayer demain
Je n’avais déjà pas envie de travailler aujourd’hui, et après Cloudflare voilà GitHub qui tombe aussi ; on dirait presque un signe qu’il faut se reposer
Il faut davantage de souveraineté technologique et de décentralisation
Parmi les services que j’ai utilisés ces cinq dernières années, GitHub est celui qui a été le plus instable
Je me demande si GitLab est meilleur. À ce stade, ma confiance dans GitHub est quasiment nulle
C’est probablement lié à notre gros environnement en mono-repo, mais il y a clairement des problèmes de scalabilité
Cela dit, le fait de pouvoir réunir dépôt, CI/CD, issues et wiki au même endroit est un avantage
GitHub est vulnérable aux pannes du cloud, tandis que GitLab souffre souvent d’échecs de mise à niveau automatique
Chacun a ses avantages et ses inconvénients
Il charge plusieurs Mo de JS, donc sur un réseau lent les pages s’affichent à peine
En urgence, on peut modifier directement des fichiers depuis l’interface web de GitHub
Mais
actions/checkout@v4de GH Actions ne fonctionne pas actuellement à cause du problème gitEn dix ans passés entre grands groupes et startups, j’ai observé un schéma récurrent
startup → réponse aux clients enterprise → refonte complexe → idéalisme → recherche du profit → obésité produit → départ des ingénieurs clés → baisse de qualité
Ce cycle se répète aussi chez les géants du cloud (AWS, Cloudflare, GCP, etc.)
En interne aussi, chaque service est fragmenté en petites unités business qui fonctionnent avant tout selon une logique de rentabilité
Au final, même l’infrastructure de base est affaiblie par la pression sur les marges
L’idée que « AWS ou GCP sont trop gros pour tomber » me paraît dangereuse
Mais la dette technique et les problèmes de sécurité des startups au début étaient eux aussi très graves
Au fond, il est naturel que les fissures d’un système apparaissent au cours d’une croissance à grande échelle
La page de statut de GitHub affiche encore la formule « certains utilisateurs peuvent rencontrer des problèmes »
Pourtant, dans les faits, non seulement HTTPS mais aussi tous les push SSH échouent
Une communication transparente, plutôt que des euphémismes façon RP, renforcerait davantage la confiance
D’autant que les mises à jour de la page de statut arrivent souvent en retard