GitHub Actions est tombé en panne
(githubstatus.com)- La page d’état de GitHub affiche actuellement All Systems Operational, et aucun incident n’a été signalé le 27 mai 2026
- Sur les 90 derniers jours, tous les composants majeurs étaient Operational, avec une disponibilité d’Actions de 99,66 % et de 99,55 % pour Pull Requests
- Le 26 mai, Actions et Pages ont subi des échecs de démarrage d’exécution et de téléchargement d’actions en raison d’un problème d’authentification, affectant la plupart des exécutions Actions
- Le 20 mai, les lenteurs d’Actions étaient dues à un health check mal configuré, entraînant des retards sur 4,5 % de l’ensemble des exécutions et sur 30 % des jobs de scale set
- Le 15 mai, la dégradation d’Actions a été provoquée par un problème de routage lors d’un basculement planifié, avec jusqu’à 42 % des exécutions en échec au pic de l’incident
État actuel du service
- La page d’état de GitHub affiche actuellement All Systems Operational
- Le 27 mai 2026, elle indique aucun incident signalé
- Sur les 90 derniers jours, tous les composants majeurs sont en état Operational
- Git Operations : 99.83% de disponibilité
- Webhooks : 99.73% de disponibilité
- API Requests : 99.98% de disponibilité
- Issues : 99.86% de disponibilité
- Pull Requests : 99.55% de disponibilité
- Actions : 99.66% de disponibilité
- Packages : 99.98% de disponibilité
- Pages : 99.96% de disponibilité
- Copilot : 99.91% de disponibilité
- Codespaces : 99.77% de disponibilité
- Copilot AI Model Providers : 100.0% de disponibilité
- Des pages d’état régionales distinctes sont également proposées pour GitHub Enterprise Cloud
Incident Actions et Pages du 26 mai 2026
-
Incident Actions et Pages
- À 10:57 UTC, l’enquête sur une dégradation des performances d’Actions et Pages a commencé
- À 11:19 UTC, une baisse de disponibilité d’Actions a été confirmée
- À 11:53 UTC, un problème d’authentification provoquant des échecs de démarrage des exécutions Actions et de téléchargement d’actions était en cours d’investigation, et la plupart des exécutions Actions étaient alors affectées
- À 12:37 UTC, la cause du problème d’authentification affectant GitHub Actions a été identifiée et les travaux d’atténuation étaient en cours
- À 13:00 UTC, la dégradation d’Actions et Pages a été atténuée, puis le suivi est passé en phase de monitoring pour vérifier la stabilité
- À 13:18 UTC, l’incident a été résolu, et une analyse détaillée de la cause racine sera partagée dès qu’elle sera prête
Incident Actions du 20 mai 2026
-
Incident Actions
- Entre 16:00 et 17:45 UTC, les clients GitHub Actions ont subi des retards de démarrage d’exécution supérieurs à 5 minutes
- Pendant la période affectée, environ 4,5 % de l’ensemble des exécutions ont été retardées, les jobs de scale set étant plus fortement touchés
- 30 % des jobs de scale set ont été retardés et 4 % n’ont pas démarré du tout
- La cause était un health check mal configuré dans un service interne chargé d’assigner les jobs aux runners
- Une brève hausse de latence sur une dépendance amont a déclenché des échecs de health check sur plusieurs pods, qui ont alors été retirés du service, concentrant la charge sur la capacité restante
- Cette charge supplémentaire a entraîné une pression mémoire, et une panne en cascade s’est propagée dans un cluster régional, empêchant l’auto-rétablissement
- La réponse a consisté à augmenter la capacité du cluster régional sain et à détourner le trafic du cluster régional dégradé, après quoi les retards de démarrage des exécutions se sont résorbés
- Pour éviter une récidive, GitHub renforce la configuration des health checks afin d’éviter les scénarios de panne en cascade et évalue des mesures d’atténuation automatiques pour redistribuer le trafic en cas de dégradation régionale
- L’incident a été résolu à 20:14 UTC
Baisse de disponibilité d’Actions du 15 mai 2026
-
Baisse de disponibilité d’Actions
- Entre 07:43 et 08:48 UTC, certains clients GitHub Actions ont rencontré des échecs d’exécution de workflows ou des retards au démarrage
- L’incident a commencé pendant un basculement planifié de l’infrastructure de support utilisée par GitHub Actions
- Pendant ce basculement, les mises à jour automatiques de service discovery ne se sont pas propagées correctement, ce qui a mal routé le trafic et provoqué une hausse des timeouts sur une dépendance clé de l’orchestration des workflows
- Au pic de l’impact, 42 % des exécutions Actions ont échoué
- Les services downstream dépendant de l’exécution des workflows Actions ont également été affectés, notamment GitHub Pages et les services cloud de Copilot
- À 08:12 UTC, les équipes d’intervention ont corrigé manuellement le problème de routage de service discovery
- Les timeouts et le taux d’échec sont rapidement revenus à la normale, et le monitoring s’est poursuivi jusqu’à la stabilisation de tous les services affectés
- Pour éviter une récidive, des garde-fous de basculement vérifiant l’état du service discovery avant la fin du basculement sont en cours de déploiement, ainsi qu’un renforcement des validations avant et après opération, et des améliorations de résilience des dépendances pour réduire les cascades de timeouts lors d’événements d’infrastructure
- L’incident a été résolu à 08:48 UTC
1 commentaires
Commentaires sur Hacker News