- L’analyse des rapports de plantage de Firefox montre que les erreurs matérielles dues à des bit flips représentent une part importante de l’ensemble des crashs
- Sur la dernière semaine, environ 25 000 rapports sur 470 000 ont été détectés comme des cas potentiellement liés à des bit flips
- Il a été confirmé que des défaillances matérielles, et non des bugs logiciels, peuvent être à l’origine de 10 à 15 % des crashs
- L’outil de test mémoire exécuté après un crash n’inspecte qu’un maximum de 1 GiB en moins de 3 secondes, mais détecte malgré tout de nombreux défauts réels
- Ces problèmes touchent tous les appareils, y compris les PC, smartphones, routeurs et imprimantes, et mettent en lumière les limites de la fiabilité du matériel grand public
Crashs de Firefox et détection des bit flips
- Une méthode a été conçue pour détecter les phénomènes de bit flip dans les rapports de plantage de Firefox, puis un outil de test mémoire lancé automatiquement après un crash a été déployé sur les appareils des utilisateurs
- Cet outil s’exécute sur l’appareil de l’utilisateur immédiatement après le crash du navigateur afin de vérifier la présence d’erreurs mémoire
- L’analyse des données collectées a confirmé que l’heuristique de détection des bit flips est efficace, et qu’un grand nombre de crashs proviennent de mémoire défectueuse ou de matériel instable
Résultats statistiques
- Environ 470 000 rapports de plantage ont été reçus au cours de la dernière semaine, ce qui ne couvre qu’une partie des crashs totaux (sur la base de l’opt-in)
- Parmi eux, environ 25 000 cas (soit 5 %) ont été détectés comme des crashs potentiellement liés à des bit flips
- Ce ratio est une estimation prudente, et le taux réel pourrait être plus de deux fois supérieur
- Sur l’ensemble des crashs de Firefox, jusqu’à 10 % seraient dus à des défauts matériels, et environ 15 % si l’on exclut les crashs liés à l’épuisement des ressources, comme le manque de mémoire
- Ces chiffres peuvent être légèrement biaisés, car les utilisateurs disposant d’un matériel défectueux ont tendance à subir des crashs plus fréquents
Résultats des tests mémoire
- L’outil de test mémoire exécuté après le crash inspecte jusqu’à 1 GiB de mémoire en moins de 3 secondes, tout en détectant de nombreux défauts matériels réels
- Dans un crash sur deux présumé causé par un bit flip, un défaut réel a été confirmé
- Malgré sa portée limitée, le test montre que le taux réel d’erreurs est élevé
Impact sur l’ensemble du matériel
- Ces problèmes affectent non seulement les ordinateurs et les smartphones, mais aussi les routeurs, imprimantes et autres appareils électroniques
- De nombreux crashs ont également été signalés sur des appareils comme les MacBook ARM, où la RAM est soudée dans le package CPU
- Sur ces appareils, le remplacement de la RAM est impossible sans équipement spécialisé et sans technicien expérimenté
Discussions de la communauté et informations complémentaires
- Certains utilisateurs ont partagé des cas de RAM défectueuse et leurs expériences avec les tests memtest86, en pointant l’absence de contrôle qualité chez certains fabricants
- La nécessité de la RAM ECC a également été discutée, avec l’idée que la SECDED ECC à elle seule pourrait considérablement prolonger la durée de vie des appareils grand public
- Il est mentionné qu’il existe des études sur les erreurs mémoire en environnement serveur, mais que les conditions diffèrent de celles du matériel grand public, ce qui rend les comparaisons directes difficiles
- L’analyse des données a confirmé une forte corrélation entre le vieillissement des appareils et le taux d’erreurs mémoire
- Les bit flips peuvent provoquer non seulement des crashs, mais aussi des pertes de données permanentes, comme la corruption du système de fichiers ; d’où l’importance soulignée des systèmes de fichiers à base de checksum pour s’en prémunir
Conclusion
- Il apparaît clairement qu’une part importante des crashs de Firefox provient de problèmes matériels plutôt que de défauts logiciels
- La nécessité de détecter les erreurs mémoire et d’adopter l’ECC sur les appareils grand public est mise en avant
- C’est un exemple qui montre que la fiabilité matérielle est directement liée à l’amélioration de la stabilité logicielle
Aucun commentaire pour le moment.