1 points par GN⁺ 2024-11-27 | 1 commentaires | Partager sur WhatsApp
  • Cette page fournit des mises à jour sur les incidents globaux. Les pannes matérielles courantes ou les incidents d’infrastructure limités n’y figurent pas.
  • Pour voir tous les incidents susceptibles d’affecter des applications personnalisées, vous pouvez consulter la page de statut personnalisée depuis le tableau de bord de votre organisation Fly.

Incidents passés

27 novembre 2024

  • Aucun incident signalé

26 novembre 2024

  • Latence de l’API et erreurs de timeout : résolu. Les performances des API Machines et GraphQL sont revenues à la normale.
  • Dégradation de la connectivité : le déploiement complet des quotas CPU a limité les machines de certains clients. Cela a provoqué des problèmes réseau, et les changements ont été temporairement annulés pour y remédier.
  • Dégradation des performances de l’API : résolu. Le système a été dimensionné et des correctifs ont été appliqués à l’API, avec un fonctionnement désormais normal.

25 novembre 2024

  • Dégradation des performances de l’API : le problème a été identifié et est en cours de correction. Les performances de l’API Machines et du proxy sont dégradées.
  • Restauration du cluster Corrosion : les processus de restauration et de réamorçage sont en cours, avec des opérations encore actives sur certains hôtes.

24 novembre 2024

  • Aucun incident signalé

23 novembre 2024

  • Aucun incident signalé

22 novembre 2024

  • Recherche de logs indisponible : résolu. Cela affectait le panneau de recherche de logs de Fly Metrics ainsi que les logs historiques des applications.

21 novembre 2024

  • Maintenance réseau d’urgence : terminée. Le fournisseur réseau a procédé au remplacement d’un switch.

20 novembre 2024

  • Aucun incident signalé

19 novembre 2024

  • Recherche de logs indisponible : résolu. Cela affectait le panneau de recherche de logs de Fly Metrics ainsi que les logs historiques des applications.

18 novembre 2024

  • Aucun incident signalé

17 novembre 2024

  • Aucun incident signalé

16 novembre 2024

  • Aucun incident signalé

15 novembre 2024

  • Aucun incident signalé

14 novembre 2024

  • Dégradation de la connectivité IPv6 à IAD : résolu. Le problème a été corrigé en collaboration avec le fournisseur amont.

1 commentaires

 
GN⁺ 2024-11-27
Commentaires sur Hacker News
  • Un utilisateur mentionne que le site web qu’il héberge sur fly.io a été indisponible pendant 5 minutes, mais qu’il fonctionne de manière stable depuis. Il utilise un service de monitoring gratuit qui vérifie toutes les 5 minutes.

  • fly.io a publié un post-mortem indiquant qu’en 2016, l’entreprise utilisait un serveur TLS centralisé appelé Consul, remplacé en 2020 par Corrosion. En octobre 2024, la clé de signature de la clé racine de Consul a expiré, coupant les connexions, puis la situation a été rétablie en déployant de nouveaux certificats SSL.

  • À cause des problèmes d’infrastructure de fly.io, ils ont découvert que les clés TLS d’autres services avaient également expiré, tandis que leur outil de logs menait une attaque DDoS contre leur fournisseur réseau. Beaucoup d’efforts ont été nécessaires pour résoudre l’ensemble de ces problèmes.

  • Certains remettent en question la fiabilité de fly.io et estiment que si une plateforme cloud ne garantit pas la fiabilité, il peut être préférable de louer un serveur virtuel.

  • L’API de Fly.io reste inaccessible, et les utilisateurs indiquent qu’ils ne peuvent ni déployer ni accéder à leurs bases de données. Les mises à jour précises peuvent être consultées sur la page de la communauté.

  • Une personne explique qu’après avoir comparé personnellement Fly.io et Railway.com, elle a préféré Railway, notamment pour la qualité du support. Fly.io n’a pas répondu à sa demande concernant la suppression de données.

  • Certains disent avoir connu plusieurs pannes majeures de Fly.io et soulignent que la stabilité du service doit être la priorité absolue.

  • Turso rencontre également des problèmes liés à la panne de Fly.io, ce que son CEO a confirmé sur Discord.

  • Un utilisateur s’interroge sur les prix bas de Fly.io et note que, selon la documentation technique, une instance est liée à un seul serveur physique, de sorte que si ce serveur tombe, il faut restaurer depuis une sauvegarde.

  • Il est mentionné que les pannes ont tendance à se produire pendant les grandes semaines de congés, et que MS 365/Teams/Exchange ont aussi été touchés. Il est suggéré d’arrêter les changements pendant les principales périodes de vacances.

  • Il est également rappelé qu’une série de pannes au début de 2023 était déjà liée à des problèmes autour de Corrosion.