CERN intègre de minuscules modèles d’IA dans des FPGA pour filtrer en temps réel les données du LHC

(theopenreader.org)

8 points par GN⁺ 2026-03-30 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Au Grand collisionneur de hadrons, l’énorme volume de données généré est filtré en temps réel par de minuscules modèles d’IA directement implémentés dans des puces en silicium, afin de ne retenir que les événements scientifiquement significatifs
Pour traiter des flux de données de plusieurs centaines de téraoctets par seconde, le système utilise du matériel basé sur FPGA et ASIC plutôt que des GPU ou TPU, avec des latences de l’ordre de la nanoseconde pour la prise de décision
Grâce à l’outil HLS4ML, des modèles PyTorch ou TensorFlow sont convertis en code C++ synthétisable puis déployés directement sur la puce, avec une architecture fondée sur des tables de correspondance produisant des sorties immédiates sans calcul en virgule flottante
Le Level-1 Trigger du LHC est composé d’environ 1 000 FPGA qui évaluent les données en moins de 50 nanosecondes ; aux étapes suivantes, 25 600 CPU et 400 GPU assurent un filtrage complémentaire
En vue de la mise à niveau High-Luminosity LHC prévue pour 2031, le CERN développe une nouvelle génération de modèles d’IA ultra-compacts, avec un potentiel d’extension vers des applications à très faible latence comme les systèmes autonomes ou l’imagerie médicale

Vue d’ensemble

Le CERN implémente directement de minuscules modèles d’intelligence artificielle dans des puces en silicium pour filtrer en temps réel l’immense volume de données produit par le Grand collisionneur de hadrons (LHC)
- Seuls les événements scientifiquement significatifs sont conservés parmi les données de collision, le reste étant immédiatement supprimé
- Pour traiter des flux atteignant plusieurs centaines de téraoctets par seconde, l’organisation utilise un matériel sur mesure à base de FPGA et d’ASIC plutôt que des GPU ou TPU
Ces modèles d’IA embarqués dans le matériel prennent des décisions directement au niveau du détecteur avec une latence de l’ordre de la microseconde à la nanoseconde
- Ce processus de sélection en temps réel est considéré comme l’une des tâches aux exigences de calcul les plus élevées de la science moderne

Le LHC génère environ 40 000 exaoctets de données brutes par an, soit un volume équivalant à environ un quart de l’Internet actuel
- Des paquets de protons circulent dans un anneau de 27 km à une vitesse proche de celle de la lumière et se croisent toutes les 25 nanosecondes
- Les collisions réelles sont rares, mais chacune produit plusieurs mégaoctets de données
Il est impossible de stocker ou de traiter l’ensemble des données, si bien qu’environ 0,02 % seulement des événements sont conservés
- La première étape de filtrage, le Level-1 Trigger, repose sur environ 1 000 FPGA et évalue les données en moins de 50 nanosecondes
- L’algorithme AXOL1TL s’exécute directement sur ces puces afin d’identifier les événements scientifiquement prometteurs et de rejeter immédiatement les autres

Les modèles d’IA du CERN sont conçus avec une architecture ultra-compacte et très efficace et, contrairement aux grands modèles utilisés dans l’industrie, sont optimisés pour une inférence ultra-faible latence au niveau du détecteur
- Les modèles basés sur PyTorch ou TensorFlow sont convertis en code C++ synthétisable via l’outil open source HLS4ML
- Le code converti est déployé directement sur des FPGA, SoC et ASIC, avec une consommation énergétique et une occupation silicium bien inférieures à celles des GPU ou TPU
Une part importante des ressources de la puce est consacrée non pas aux couches de réseau de neurones, mais à l’implémentation de tables de correspondance précalculées (lookup tables)
- Ces tables stockent à l’avance les résultats de motifs d’entrée courants, ce qui permet de produire une sortie immédiate sans calcul en virgule flottante pour la plupart des signaux du détecteur
- Cette philosophie de conception priorisant le matériel permet d’atteindre des latences de l’ordre de la nanoseconde
La deuxième étape de filtrage, le High-Level Trigger, s’exécute sur une ferme de calcul composée de 25 600 CPU et 400 GPU
- Même après le Level-1 Trigger, elle traite plusieurs téraoctets de données par seconde et compresse le tout en environ 1 pétaoctet de données scientifiques par jour

Le LHC se prépare à la mise à niveau High-Luminosity LHC (HL-LHC), dont la mise en service est prévue en 2031
- Le volume de données par collision devrait être multiplié par 10 par rapport à aujourd’hui, et la taille des événements devrait aussi fortement augmenter
Pour s’y préparer, le CERN travaille sur une nouvelle génération de minuscules modèles d’IA ainsi que sur l’optimisation de leur implémentation sur FPGA et ASIC
- L’ensemble du système de déclenchement temps réel est renforcé afin de maintenir des performances à très faible latence malgré des débits de données bien plus élevés
Cette préparation est considérée comme une base essentielle pour permettre de nouvelles découvertes en physique des particules au cours des prochaines décennies

Alors que l’industrie mondiale de l’IA se concentre sur l’extension des grands modèles, le CERN développe des modèles d’IA parmi les plus petits, rapides et efficaces
- Directement implémentés sur FPGA et ASIC, ils sont vus comme un cas concret d’application de la « Tiny AI »
Dans le système de déclenchement du LHC, ces modèles atteignent un niveau de performance impossible à obtenir avec des accélérateurs IA classiques
- Dans des environnements extrêmes où les décisions doivent être prises à l’échelle de la nanoseconde, ils réalisent une efficacité maximale avec un minimum de ressources
Cette approche pourrait s’étendre au-delà de la physique des particules à des domaines nécessitant une inférence temps réel à très faible latence, comme les systèmes autonomes, le trading haute fréquence, l’imagerie médicale ou l’aérospatial
- À une époque où l’efficacité énergétique et la réduction des ressources de calcul deviennent cruciales, les modèles du CERN proposent une alternative fondée non sur l’augmentation d’échelle, mais sur une spécialisation extrême et une optimisation au niveau matériel