2 points par GN⁺ 2024-04-01 | 1 commentaires | Partager sur WhatsApp

À propos de l’interruption de service de Tailscale.com du 7 mars 2024

  • Le 7 mars 2024, Tailscale.com a été inaccessible pendant environ 90 minutes en raison de l’expiration d’un certificat TLS.
  • Le problème a été rapidement identifié et résolu, et a principalement affecté les supports marketing et la documentation.
  • Une interruption de service imprévue est un problème, et nous souhaitons expliquer la cause, l’impact et les mesures prises pour éviter qu’elle ne se reproduise.

Ce qui s’est passé

  • En décembre 2023, une refonte majeure du site web a été menée, incluant une migration vers un nouveau fournisseur d’hébergement.
  • Comme ce fournisseur d’hébergement ne prenait pas en charge IPv6 par défaut, un proxy distinct a été exploité pour traiter les requêtes IPv6.
  • Cette configuration a été considérée comme une « mauvaise configuration » par le fournisseur d’hébergement, et un avertissement a été reçu, sans qu’il soit compris que cela empêcherait le renouvellement automatique du certificat.
  • Un probeur chargé de vérifier l’expiration des certificats existait, mais il ne vérifiait que via IPv6, et n’a donc contrôlé que le certificat valide géré par le proxy, sans détecter l’expiration imminente.

Impact

  • La plupart des opérations de Tailscale ne nécessitant pas d’accéder au site web principal, de nombreux utilisateurs n’ont pas subi de perturbation dans leur usage habituel.
  • La documentation, le blog et d’autres ressources de référence étaient inaccessibles, et bien que la console d’administration et les pages de configuration n’aient pas été affectées, les utilisateurs ne connaissant pas leur adresse d’accès directe ont pu croire qu’elles étaient hors ligne.
  • Le script d’installation rapide était inaccessible, ce qui a perturbé certaines installations, y compris les installations automatiques.
  • Le domaine qui distribue les paquets Tailscale est resté accessible, et l’impact via le mécanisme go get de Go a été limité grâce au cache.

Mesures prises pour résoudre le problème

  • Une fois le problème identifié, l’enregistrement AAAA « supplémentaire » a été temporairement supprimé et le certificat concerné a été renouvelé manuellement.
  • L’enregistrement a ensuite été restauré afin de maintenir l’accessibilité du site et des services via IPv6.
  • À court terme, il est prévu de mettre en place plusieurs rappels de calendrier redondants ainsi qu’un horaire dédié aux renouvellements manuels.
  • L’infrastructure de probe sera mise à jour afin de vérifier séparément les endpoints IPv4 et IPv6.
  • L’objectif est de prendre en charge IPv6 plus directement dans l’infrastructure du site web afin de rendre le proxy inutile.
  • Grâce à la conception de Tailscale, la plupart des utilisateurs n’ont pas été affectés par cette interruption dans la plupart des cas d’usage.

L’avis de GN⁺

  • Le cas de panne de service chez Tailscale souligne l’importance de la gestion de l’infrastructure IT. Il montre en particulier à quel point des tâches de maintenance de base, comme le renouvellement des certificats, sont cruciales.
  • Cet incident met en évidence l’importance du support d’IPv6, tout en suggérant la nécessité d’approches créatives pour résoudre les problèmes de compatibilité avec l’infrastructure existante.
  • Parmi les autres services offrant des fonctions similaires, on peut citer Cloudflare et Let's Encrypt, qui proposent le renouvellement automatique des certificats afin d’éviter des problèmes comparables.
  • Lors de l’adoption d’une technologie, il faut prendre en compte la compatibilité avec l’infrastructure, les possibilités d’automatisation et la facilité de maintenance. Ce type d’incident montre pourquoi il faut évaluer avec soin les avantages et les inconvénients d’un choix technologique.
  • Cet article peut aider les utilisateurs comme les administrateurs à prendre conscience de l’importance des tâches élémentaires d’administration système, comme la gestion de l’expiration des certificats.

1 commentaires

 
GN⁺ 2024-04-01
Avis Hacker News
  • Problème de certificats expirants

    Des certificats arrivant à expiration sont à l’origine d’une nouvelle panne DNS. Un utilisateur partage son expérience avec Tailscale, qui lui permet de travailler en toute sécurité depuis n’importe où. Il accède via Tailscale à des serveurs on-premise et à des environnements de production sur AWS, et peut résoudre des problèmes à distance en SSH même si le Wi‑Fi local est lent. Tailscale permet aussi d’accorder et de révoquer facilement les droits d’accès au réseau.

  • Problèmes causés par l’expiration de certificats

    Le problème d’expiration de certificats se reproduit. Dans le cadre du post-mortem, il est recommandé de séparer le site marketing des chemins critiques des opérations client. Il est également souligné que les indisponibilités de sites comme GitHub ou Zendesk sont plus fréquentes qu’on ne le pense.

  • Problème de lien entre le site marketing et l’application

    Quelqu’un raconte avoir mis sur le site marketing un lien vers la page de connexion de l’application, ce qui a créé un problème. Quand le site marketing tombe, les utilisateurs peuvent croire que l’application est elle aussi hors service. Les utilisateurs suivent souvent uniquement le chemin qu’on leur fournit, sans savoir qu’il en existe d’autres.

  • Plaintes sur la politique tarifaire

    L’auteur apprécie le service de Tailscale, mais il est difficile de le vendre à la direction car un contrôle d’accès correct pour un VPN à 18 dollars par mois est jugé trop cher. Les offres d’entrée de gamme sont aussi difficiles à vendre sans contrôle d’accès.

  • Questions sur le fournisseur du site web

    Un commentaire s’interroge sur l’hébergeur du site web et sur la raison pour laquelle l’absence de support IPv6 impose une procédure complexe.

  • Éloges de la culture d’ingénierie

    Un lecteur dit envier le fait d’avoir pu déployer une mise à jour majeure en décembre avec des processus CI/CD et de monitoring fiables. Mais des questions restent en suspens : pourquoi le renouvellement du certificat a échoué à cause d’un problème de configuration IPv6, pourquoi la résolution a pris 90 minutes, et pourquoi il n’y a pas eu de migration vers un fournisseur DNS prenant en charge IPv6.

  • Question sur la nécessité de terminer TLS

    Un commentaire se demande si le proxy doit réellement terminer TLS, et si un simple proxy TCP ne suffirait pas. Avec un proxy TCP, un renouvellement automatique pourrait peut-être être possible.

  • Remarque sarcastique sur les rappels de calendrier

    Un lecteur apprécie la formule pleine d’esprit sur le fait de configurer plusieurs rappels de calendrier redondants comme le faisaient nos ancêtres.

  • Préoccupations de sécurité

    Un commentaire souligne que si Tailscale commet ne serait-ce qu’une petite erreur liée à la sécurité, cela peut paraître trop risqué pour les personnes un peu paranoïaques. Une meilleure solution est jugée nécessaire.

  • Suggestion sur le monitoring de l’infrastructure et le renouvellement automatique

    Il est proposé d’avoir un monitoring de l’infrastructure et d’ajouter du code qui vérifie tous les domaines publics en IPv4 et IPv6 afin d’alerter 19 jours avant l’expiration d’un certificat. Configurer le renouvellement automatique 20 jours avant l’expiration permettrait d’éviter les interruptions liées au SSL.