À propos de l’interruption de service de Tailscale.com du 7 mars 2024
- Le 7 mars 2024, Tailscale.com a été inaccessible pendant environ 90 minutes en raison de l’expiration d’un certificat TLS.
- Le problème a été rapidement identifié et résolu, et a principalement affecté les supports marketing et la documentation.
- Une interruption de service imprévue est un problème, et nous souhaitons expliquer la cause, l’impact et les mesures prises pour éviter qu’elle ne se reproduise.
Ce qui s’est passé
- En décembre 2023, une refonte majeure du site web a été menée, incluant une migration vers un nouveau fournisseur d’hébergement.
- Comme ce fournisseur d’hébergement ne prenait pas en charge IPv6 par défaut, un proxy distinct a été exploité pour traiter les requêtes IPv6.
- Cette configuration a été considérée comme une « mauvaise configuration » par le fournisseur d’hébergement, et un avertissement a été reçu, sans qu’il soit compris que cela empêcherait le renouvellement automatique du certificat.
- Un probeur chargé de vérifier l’expiration des certificats existait, mais il ne vérifiait que via IPv6, et n’a donc contrôlé que le certificat valide géré par le proxy, sans détecter l’expiration imminente.
Impact
- La plupart des opérations de Tailscale ne nécessitant pas d’accéder au site web principal, de nombreux utilisateurs n’ont pas subi de perturbation dans leur usage habituel.
- La documentation, le blog et d’autres ressources de référence étaient inaccessibles, et bien que la console d’administration et les pages de configuration n’aient pas été affectées, les utilisateurs ne connaissant pas leur adresse d’accès directe ont pu croire qu’elles étaient hors ligne.
- Le script d’installation rapide était inaccessible, ce qui a perturbé certaines installations, y compris les installations automatiques.
- Le domaine qui distribue les paquets Tailscale est resté accessible, et l’impact via le mécanisme
go get de Go a été limité grâce au cache.
Mesures prises pour résoudre le problème
- Une fois le problème identifié, l’enregistrement AAAA « supplémentaire » a été temporairement supprimé et le certificat concerné a été renouvelé manuellement.
- L’enregistrement a ensuite été restauré afin de maintenir l’accessibilité du site et des services via IPv6.
- À court terme, il est prévu de mettre en place plusieurs rappels de calendrier redondants ainsi qu’un horaire dédié aux renouvellements manuels.
- L’infrastructure de probe sera mise à jour afin de vérifier séparément les endpoints IPv4 et IPv6.
- L’objectif est de prendre en charge IPv6 plus directement dans l’infrastructure du site web afin de rendre le proxy inutile.
- Grâce à la conception de Tailscale, la plupart des utilisateurs n’ont pas été affectés par cette interruption dans la plupart des cas d’usage.
L’avis de GN⁺
- Le cas de panne de service chez Tailscale souligne l’importance de la gestion de l’infrastructure IT. Il montre en particulier à quel point des tâches de maintenance de base, comme le renouvellement des certificats, sont cruciales.
- Cet incident met en évidence l’importance du support d’IPv6, tout en suggérant la nécessité d’approches créatives pour résoudre les problèmes de compatibilité avec l’infrastructure existante.
- Parmi les autres services offrant des fonctions similaires, on peut citer Cloudflare et Let's Encrypt, qui proposent le renouvellement automatique des certificats afin d’éviter des problèmes comparables.
- Lors de l’adoption d’une technologie, il faut prendre en compte la compatibilité avec l’infrastructure, les possibilités d’automatisation et la facilité de maintenance. Ce type d’incident montre pourquoi il faut évaluer avec soin les avantages et les inconvénients d’un choix technologique.
- Cet article peut aider les utilisateurs comme les administrateurs à prendre conscience de l’importance des tâches élémentaires d’administration système, comme la gestion de l’expiration des certificats.
1 commentaires
Avis Hacker News
Problème de certificats expirants
Problèmes causés par l’expiration de certificats
Problème de lien entre le site marketing et l’application
Plaintes sur la politique tarifaire
Questions sur le fournisseur du site web
Éloges de la culture d’ingénierie
Question sur la nécessité de terminer TLS
Remarque sarcastique sur les rappels de calendrier
Préoccupations de sécurité
Suggestion sur le monitoring de l’infrastructure et le renouvellement automatique