- Selon l'analyse des incidents récents survenus sur des avions de la famille A320, il a été confirmé qu'un rayonnement solaire intense peut endommager des données essentielles nécessaires au contrôle de vol
- Airbus a donc identifié qu'un grand nombre d'appareils de la famille A320 actuellement en opération pourrait être touché
- Dans ce cadre, la société a publié une Alert Operators Transmission (AOT) pour mettre en place immédiatement des mesures préventives en coopération avec les autorités aéronautiques, lesquelles devraient être intégrées dans une directive d'urgence de navigabilité (Emergency Airworthiness Directive) de l'EASA
- Airbus reconnaît que ces actions peuvent entraîner un retard ou une perturbation des plannings de vol des passagers et clients, et affirme qu'elle coopère étroitement avec les compagnies aériennes pour y répondre
- La priorité la plus élevée de toutes les actions reste la garantie de la sécurité des vols
Aperçu des mesures préventives de la famille A320
- Une analyse des incidents récents sur les avions de la famille A320 a révélé qu'un fort rayonnement solaire (intense solar radiation) peut endommager des données critiques du système de contrôle de vol
- Ce phénomène peut affecter l'intégrité des données nécessaires aux fonctions de contrôle de vol (flight controls)
- Airbus estime qu'une part importante des avions A320 actuellement en service peut être touchée par ce problème
Mesures préventives et coopération avec les autorités
- Airbus a publié une Alert Operators Transmission (AOT) afin de mettre en œuvre immédiatement des mesures préventives avec les autorités aéronautiques
- L'AOT comprend des instructions pour appliquer des mesures de protection logicielles et/ou matérielles afin de garantir l'exploitation sûre de l'appareil
- Cette mesure devrait être formellement reflétée dans une directive d'urgence de navigabilité (Emergency Airworthiness Directive) de l'Agence européenne de la sécurité aérienne (EASA)
Impact opérationnel et réponses
- Airbus reconnaît que ces mesures peuvent entraîner des retards ou des perturbations partiels des plannings des passagers et des clients
- La société collabore étroitement avec les compagnies aériennes pour faciliter la mise en œuvre de ces mesures, et maintiendra la sécurité comme priorité absolue
- Airbus a exprimé ses excuses pour les désagréments causés
Documents associés
- Une version PDF (126,02 KB) reprenant le même contenu que le communiqué de presse est disponible
- Titre du document : Airbus update on A320 Family precautionary fleet action
- Le lien de téléchargement a été publié sur le site officiel
1 commentaires
Avis Hacker News
Je me demande vraiment sur quelle famille de microcontrôleurs ce problème a été constaté
Si c’était un safety processor avec lockstep, ECC, etc., cela voudrait dire qu’il y a eu des bit flips à un niveau non détecté par l’ECC
S’il s’agit d’une corruption de données, ce n’est peut-être pas un simple redémarrage, mais une situation où plusieurs bits d’un même mot ont basculé simultanément
Si l’environnement n’était pas particulièrement différent, il est aussi possible qu’ils aient réduit des marges comme la marge de tension
Je me demande aussi s’il s’agissait de NVM ou de SRAM
Ce n’était pas un MCU mais un système composé de plusieurs puces, conçu dans les années 90, et une nouvelle version matérielle avec EDAC n’est arrivée qu’en 2002
Dans une telle situation, des bit flips pouvaient tout à fait se produire
Plus de détails dans le rapport de l’ATSB
Les flashes au xénon posaient particulièrement problème
On peut voir des cas associés dans ce message de forum, cette discussion complémentaire, ce blog officiel et cette vidéo YouTube
Les satellites opèrent à des altitudes bien plus élevées qu’un A320, et la plupart utilisent la Triple Modular Redundancy
Voir explication du TMR et concept de SEU
Pour les vols habités, la NASA pousse N jusqu’à 5
Il existe aussi des approches comme désactiver complètement les caches ou rafraîchir en continu la RAM ECC
Il existe également des contre-mesures matérielles pour éviter le latch-up dans les circuits numériques
Quand on travaille depuis longtemps dans l’informatique, on finit par voir plusieurs incidents de bit flip comme celui-là
L’ECC sauve la mise dans la plupart des cas, mais il arrive aussi que le logiciel soit conçu pour détecter et ignorer des valeurs aberrantes
Dans les systèmes temps réel ou critiques pour la sécurité, plusieurs systèmes peuvent aussi voter pour valider les erreurs
Dans les années 90, j’ai passé des mois à cause d’un bit flip dans une ligne de cache CPU
Sur un service traitant un trafic massif, nous avions agrégé des valeurs de type enum, et quelques valeurs impossibles sont apparues
En voyant qu’une chaîne avait été enregistrée de façon erronée avec exactement un bit de différence, nous avons supposé que cela pouvait venir des rayons cosmiques
En réalité, c’était un bug reproductible, et ce n’est qu’après avoir soupçonné le kernel, les drivers et le client qu’il a admis sa propre erreur
Cela dit, c’était un génie, et sur cet incident de l’A320, il avait peut-être vraiment raison
The Aviation Herald donne davantage de détails techniques
« Dans le pire des cas, cette vulnérabilité peut provoquer un mouvement non commandé de la gouverne de profondeur, pouvant dépasser les limites structurelles de l’appareil »
L’industrie aérospatiale met en place depuis longtemps des contre-mesures contre les bit flips
La correction d’Airbus/Thales consiste ici à renforcer les contrôles d’erreur et à redémarrer automatiquement le composant affecté en cas de problème
Plus de détails dans le rapport du BEA
Ça donne une impression très BoFH
« Je suis arrivé tôt un vendredi matin, le téléphone a sonné. J’ai feuilleté la liste des excuses, et là, éruptions solaires me regardait… »
Lien
Je me demande comment cet incident a été diagnostiqué
Je ne sais pas si le FDR (enregistreur de vol) enregistre des erreurs de bas niveau, ou seulement des valeurs d’entrée de haut niveau
Si c’était un bit flip causé par le rayonnement, comment l’ont-ils déterminé ?
Je me demande aussi si quelque chose comme une erreur de vote entre les ordinateurs de vol principaux a pu être enregistré
Il existe un excellent rapport d’analyse a posteriori sur un cas similaire de SEU (single-event upset)
Des réactions du genre « il a volé trop près du soleil »
Je me demande s’il faut vraiment clouer au sol toute la flotte pour ce genre d’incident
S’il s’agit d’un seul événement sur des dizaines de milliers d’appareils pendant plusieurs années, on pourrait peut-être accorder un délai d’environ deux mois pour corriger, non ?
La solution consiste à revenir à une version antérieure ou à remplacer le matériel par une version précédente
Pour Airbus, l’impact direct d’une immobilisation au sol sera sans doute limité, mais en cas d’accident, le risque réputationnel et juridique serait bien plus important
Quelque chose comme : « nous agissons de manière proactive, alors que nos concurrents n’interviennent qu’après un accident »
D’après la couverture médiatique, la mesure prise ici est un rollback de mise à jour logicielle
Je me demande quel était l’objectif de la mise à jour initiale, et à quelle fréquence le logiciel des ordinateurs de vol est mis à jour