Le NIST a pris 5 microsecondes de retard sur l’UTC après la coupure de courant de la semaine dernière
(jeffgeerling.com)- Le site horaire du NIST à Boulder, dans le Colorado, a été mis à l’arrêt pendant plusieurs jours à cause d’une panne de courant ; en raison d’une panne du groupe électrogène de secours, un écart maximal de 5 μs par rapport à l’UTC a été observé
- Ce site, qui exploite 6 serveurs NTP, a maintenu une dérive inférieure à 5 μs malgré la panne du générateur, avec un impact quasi nul pour les utilisateurs ordinaires
- Des organismes de recherche scientifique et des entreprises de l’aérospatial, qui dépendent d’un timing de haute précision, peuvent en revanche avoir été affectés ; le NIST travaille directement avec eux
- Les systèmes GPS et WWV-Ft. Collins ont assuré correctement leur rôle de secours, démontrant la redondance de l’infrastructure temporelle à l’échelle des États-Unis
- Cet incident met en lumière les risques d’une dépendance au GPS et la fragilité des infrastructures de synchronisation, tout en soulignant la nécessité de développer des systèmes PNT alternatifs
Coupure de courant et apparition d’un écart temporel
- Le campus du NIST à Boulder, Colorado, a subi des vents dépassant 160 km/h (100 mph), poussant le fournisseur d’électricité à couper l’alimentation pour prévenir les risques d’incendie
- L’ensemble du campus a été bouclé, rendant l’accès impossible aux employés, ce qui a retardé la remise en service
- L’un des groupes électrogènes de secours est tombé en panne au bout de deux jours, privant d’alimentation l’ensemble principal d’horloges (clock ensemble) des serveurs NTP
- Jeff Sherman, responsable du Time Realization and Distribution Group, a même envisagé de couper les serveurs pour éviter de diffuser une heure inexacte
- Heureusement, le système d’horloges d’un autre bâtiment a pu transmettre le signal horaire, et certains employés restés sur place ont rétabli la situation en redirigeant l’alimentation de secours
- Le secours par batterie (UPS) a maintenu l’heure jusqu’au remplacement du générateur ; au final, l’écart avec l’UTC est resté inférieur à 5 μs
Exploitation des serveurs NTP et étendue de l’impact
- Le NIST fournit un service horaire sur Internet via 6 serveurs NTP principaux
- D’après le résultat de la commande
sntp time-a-b.nist.gov, l’erreur due à la latence réseau pour un utilisateur ordinaire est d’environ 35 millisecondes (35 000 μs) ; un écart de 5 μs est donc négligeable - Le service a donc été maintenu sans interruption ; la précision était environ 5 000 fois moins bonne qu’en temps normal, mais sans effet pour la plupart des utilisateurs
- Les universités, acteurs de l’aérospatial et instituts de recherche scientifique sont, eux, sensibles au moindre écart ; le NIST travaille directement avec eux sur les corrections nécessaires
- Le système GPS américain a automatiquement basculé vers le campus WWV-Ft. Collins, ce qui a permis de maintenir le service sans interruption générale
Fragilité de l’infrastructure temporelle et technologies alternatives
- L’auteur exploite son propre serveur NTP avec deux horloges GPS basées sur Raspberry Pi et souligne les risques liés à la dépendance au GPS
- La CISA a déjà averti des risques de surdépendance des États-Unis au GPS, et le gouvernement pousse au développement de technologies PNT (Position, Navigation, Timing) alternatives
- Le Broadcast Positioning System (BPS) est évoqué comme candidat possible pour remplacer le GPS
- L’auteur utilise une horloge atomique au rubidium et un GPSDO pour maintenir une précision de l’ordre de quelques nanosecondes, avec la possibilité de conserver l’heure pendant plusieurs mois même en cas de perturbation du signal GPS
- Les secteurs scientifique, RF, médias et finance, entre autres, exigent toutefois une précision à l’échelle de la nanoseconde, et la plupart se réfèrent au temps de référence du NIST
Enseignements et fiabilité du système
- Cet incident prouve que le dispositif de réponse aux sinistres du NIST a effectivement fonctionné, en montrant une exploitation normale malgré un léger écart
- La combinaison de redondances électriques, de multiples horloges et d’un système de secours GPS a permis de préserver la stabilité de l’infrastructure temporelle nationale
- L’auteur insiste sur le fait que les infrastructures de synchronisation sont très fragiles et nécessitent plusieurs niveaux de secours
- Même dans une situation critique à l’échelle de la microseconde, l’équipe du NIST a résolu le problème de manière suffisamment transparente pour que la plupart des utilisateurs ne s’en aperçoivent pas
1 commentaires
Commentaires Hacker News
Le programme Time Over Fiber (TOF) du NIST était ce qui m’a paru le plus intéressant
Ce service fournit une transmission du temps de haute précision via fibre optique, et certains liens directement connectés auraient été affectés
Je n’avais jamais entendu parler d’un tel service, mais j’imagine que cela pourrait servir à la finance (HFT, en lien avec la règle FINRA 4590), à la synchronisation 5G, ou à des bases de données globales comme Google Spanner
Liens associés : annonce du NIST, présentation du programme TOF, FINRA Rule 4590, article sur la synchronisation 5G
Dans les systèmes de trading en temps réel, le GPS suffisait, et la latence comptait davantage qu’une précision à la microseconde
Les exigences réglementaires autorisent aussi un écart d’une seconde, donc un niveau de précision comme celui du TOF n’est pas requis
Par exemple, quand il faut synchroniser très précisément des données sur une vaste zone, comme pour observer simultanément des ondes gravitationnelles et des sursauts gamma
Par exemple, des lieux comme la Schriever Space Force Base servent de point de contrôle principal du GPS
C’est aussi important comme réseau temporel terrestre de secours en cas d’interruption des signaux GNSS
Article lié : le système chinois de synchronisation terrestre haute précision
En réalité, seuls les serveurs de Boulder avaient un problème de synchronisation
Dire que « tout le NIST était hors ligne » est exagéré
D’après la page d’état des serveurs, seuls 5 des 16 serveurs NTP IPv4 ont été affectés, les autres fonctionnaient normalement
La plupart des utilisateurs ne devraient de toute façon pas utiliser directement les serveurs de niveau supérieur, donc l’impact était minime
Personnellement, je recommande pool.ntp.org
N’y a-t-il pas un risque de propagation de l’erreur ? Je me demande si pool.ntp.org est suffisamment distribué pour éviter la corrélation des pannes ou des écarts
Petite précision : UTC est l’abréviation de « Coordinated Universal Time »
L’ordre des lettres a été ajusté pour ne favoriser ni l’anglais ni le français
La cohérence avec les anciens sigles UT0, UT1, UT2, etc., a aussi été prise en compte
C’est un peu hors sujet, mais j’aimerais saluer chrony
Sur divers environnements matériels, il s’est montré bien plus stable que le client NTP par défaut des OS traditionnels
C’est une bonne preuve de ses performances et de sa stabilité
Ce fil est tellement intéressant que je continue à lire
C’est peut-être parce que j’ai pris trop d’Adderall aujourd’hui
J’ai entendu dire que quelques traders HFT que je connais ont gagné des centaines de milliers de dollars grâce à cet incident
J’aimerais savoir s’ils ont exploité le système délibérément, ou s’il s’agissait simplement d’un glitch chanceux
On disait autrefois que « transmettre une heure erronée est pire que ne rien transmettre du tout », donc je ne comprends pas bien pourquoi une heure inexacte a été envoyée cette fois-ci
Selon la liste de diffusion du NIST, le transport sur Internet introduit généralement une incertitude de l’ordre de 1 ms, ce qui n’a rien à voir avec la précision scientifique
À ce moment-là, l’alimentation et l’accès d’administration étaient tous deux coupés, donc il était impossible de savoir de combien l’horloge dérivait
Si une heure erronée s’était propagée juste après le rétablissement de l’alimentation, cela aurait pu provoquer des erreurs de synchronisation dans des systèmes du monde entier
Il valait donc mieux couper proprement (scram) par sécurité
Nouvelle liée : The Time Rift of 2100
Par exemple, il est plus sûr qu’une alarme incendie ne réponde pas du tout plutôt qu’elle annonce à tort qu’« il n’y a aucun problème »
Je ne comprends pas le titre de la vidéo « l’horloge du NIST était à deux doigts de la catastrophe »
Il ne suffisait pas simplement de corriger l’heure depuis un autre campus ?
S’il existe vraiment des cas nécessitant une telle précision, il faudrait l’explication d’un expert
Je me demande quels ont été les cas les plus importants où les gens avaient besoin d’une heure précise
Nous utilisons White Rabbit pour synchroniser à la nanoseconde les systèmes d’alimentation RF et les dispositifs d’acquisition de données
Avec TrueTime, il garantit la cohérence transactionnelle à l’échelle mondiale
Si un satellite GPS se trompait de cette quantité, la précision de positionnement tomberait au niveau du Loran-C
Cette histoire est partie d’un article de NPR
lien original