7 points par GN⁺ 19 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • L’ordinateur de vol d’Orion, le vaisseau habité lunaire, repose sur une architecture bien plus résiliente et capable de contrôle automatique que les systèmes de l’ère Apollo, et gère l’ensemble des fonctions critiques, dont le maintien en vie, l’alimentation électrique et les communications
  • Pour fonctionner sans interruption jusqu’à 250 000 miles de la Terre en orbite lunaire, il a été conçu pour résister aux pannes matérielles et aux effets des radiations grâce à une redondance physique et logique ainsi qu’à plusieurs ordinateurs de vol
  • Chaque Flight Control Module (FCM) est composé d’une paire de processeurs à auto-vérification, pour un total de 8 CPU exécutés en parallèle, avec une conception fail-silent et un algorithme de sélection de sortie fondé sur les priorités afin d’isoler les erreurs
  • Le système reste entièrement synchronisé grâce à une architecture déterministe et à l’Ethernet déclenché par le temps, avec un réseau et une mémoire triplement redondants capables de corriger automatiquement jusqu’aux erreurs d’un seul bit
  • Si tous les systèmes principaux tombent en panne, un Backup Flight Software reposant sur un matériel et un système d’exploitation indépendants reprend le contrôle ; cette architecture est considérée comme un futur modèle de résilience always-on pour les systèmes autonomes

Conception par la NASA de l’ordinateur tolérant aux pannes d’Artemis II

  • L’ordinateur de vol d’Artemis II repose sur une architecture offrant une résilience et des capacités de contrôle automatique bien supérieures à celles de l’ordinateur de navigation de l’ère Apollo
    • L’ordinateur d’Apollo utilisait un processeur à 1 MHz et environ 4 KB de mémoire, et les principaux contrôles reposaient sur des commutateurs manuels ou des relais
    • Dans la capsule Orion d’Artemis II, l’ordinateur gère directement toutes les fonctions critiques, dont le maintien en vie, l’alimentation électrique et les communications
  • Comme un échec de mission à 250 000 miles de la Terre en orbite lunaire serait irrécupérable, le système doit continuer à fonctionner sans interruption malgré les radiations spatiales, les inversions de bits et les défaillances matérielles
    • La NASA se prémunit contre les erreurs matérielles grâce à un câblage physiquement redondant, des plans réseau logiquement redondants et plusieurs ordinateurs de vol
  • The Power of Eight

    • Orion adopte une architecture qui va au-delà de la triple redondance (triple redundancy) traditionnelle
      • Deux Vehicle Management Computer (VMC) embarquent chacun deux Flight Control Module (FCM), pour un total de 4 FCM
      • Chaque FCM est constitué d’une paire de processeurs à auto-vérification (self-checking), ce qui porte à 8 le nombre total de CPU exécutant le logiciel de vol en parallèle
    • Le système repose sur une conception fail-silent : lorsqu’une erreur survient, le CPU fautif cesse immédiatement d’émettre au lieu de produire une sortie incorrecte
    • Au lieu d’un vote majoritaire, il utilise un algorithme de sélection de source fondé sur les priorités pour choisir la sortie d’un canal sain
    • La NASA anticipe des erreurs temporaires lors de la traversée de la ceinture de radiation de Van Allen ; même avec la perte de 3 FCM pendant jusqu’à 22 secondes, la mission peut continuer avec le dernier FCM restant
    • Un FCM passé en mode silencieux peut, après réinitialisation, se resynchroniser avec les autres modules et réintégrer le vol en cours
  • Maintenir un fonctionnement déterministe

    • Pour maintenir plusieurs ordinateurs indépendants en synchronisation complète (lockstep), une architecture déterministe (deterministic architecture) est utilisée
    • Orion utilise un réseau Ethernet déclenché par le temps (time-triggered Ethernet) pour distribuer le temps à l’ensemble du système
      • Le logiciel de vol s’exécute dans des trames majeures (major frame) et trames mineures (minor frame) gérées par l’ordonnanceur ARINC653
      • Le partitionnement temporel et spatial garantit que les entrées et sorties sont parfaitement alignées sur le calendrier du réseau
    • Chaque FCM reçoit les mêmes entrées, exécute le même code et produit les mêmes sorties
    • Chaque seconde, la dérive d’horloge des FCM est mesurée puis recalibrée sur la référence temporelle du réseau
    • Toute application qui ne respecte pas sa date limite (deadline) passe automatiquement en mode silencieux avant d’être resynchronisée
    • Le matériel utilise une mémoire à triple redondance modulaire (TMR) pour corriger automatiquement les erreurs d’un seul bit, et les cartes d’interface réseau comparent aussi deux chemins de trafic afin de basculer en fail-silent en cas d’erreur
    • Le réseau est triplement redondé sur trois plans indépendants, et tous les commutateurs disposent de fonctions d’auto-vérification
  • Système de secours final

    • La NASA se prépare également à une défaillance de mode commun (common mode failure) pouvant affecter simultanément tous les canaux principaux
    • Pour cela, elle embarque un système Backup Flight Software (BFS) distinct
      • Le BFS repose sur un matériel différent, un système d’exploitation différent et un logiciel de vol simplifié développé indépendamment
      • Si le système principal échoue, le BFS reprend automatiquement le contrôle afin de terminer les phases dynamiques de la mission
      • L’équipage peut ensuite tenter de restaurer les FCM principaux
    • La logique fail-silent est indispensable, mais elle doit s’accompagner de watchdogs et d’une supervision multicouche afin qu’aucune erreur ne reste non détectée
    • Le système est aussi conçu pour survivre à une perte totale d’alimentation (dead bus)
      • Au retour de l’alimentation, il passe automatiquement en mode sûr (safe mode)
      • Il oriente ensuite les panneaux solaires vers le Soleil pour rétablir l’énergie, puis place le vaisseau queue vers le Soleil pour stabiliser sa température
      • Il tente ensuite de rétablir les communications avec la Terre et, si nécessaire, l’équipage peut ajuster manuellement les équipements de maintien en vie
  • L’avenir de la fiabilité

    • Le passage d’Apollo à Artemis traduit une augmentation spectaculaire de la complexité logicielle
      • Apollo disposait de sauvegardes mécaniques, tandis que dans Artemis, le logiciel assure l’ensemble du contrôle
    • La NASA utilise un workflow de vérification moderne comprenant la simulation environnementale complète, des stress tests Monte Carlo et de l’injection de pannes (fault injection) à grande échelle
      • À l’aide de supercalculateurs, elle simule l’intégralité de la chronologie de vol et vérifie que le logiciel peut se rétablir en mode fail-silent même en cas de panne matérielle
    • L’architecture à tolérance zéro d’Orion est considérée comme un modèle de résilience always-on pouvant aussi s’appliquer à l’avenir aux véhicules autonomes et aux réseaux de contrôle industriels

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.