- Au Grand collisionneur de hadrons, l’énorme volume de données généré est filtré en temps réel par de minuscules modèles d’IA directement implémentés dans des puces en silicium, afin de ne retenir que les événements scientifiquement significatifs
- Pour traiter des flux de données de plusieurs centaines de téraoctets par seconde, le système utilise du matériel basé sur FPGA et ASIC plutôt que des GPU ou TPU, avec des latences de l’ordre de la nanoseconde pour la prise de décision
- Grâce à l’outil HLS4ML, des modèles PyTorch ou TensorFlow sont convertis en code C++ synthétisable puis déployés directement sur la puce, avec une architecture fondée sur des tables de correspondance produisant des sorties immédiates sans calcul en virgule flottante
- Le Level-1 Trigger du LHC est composé d’environ 1 000 FPGA qui évaluent les données en moins de 50 nanosecondes ; aux étapes suivantes, 25 600 CPU et 400 GPU assurent un filtrage complémentaire
- En vue de la mise à niveau High-Luminosity LHC prévue pour 2031, le CERN développe une nouvelle génération de modèles d’IA ultra-compacts, avec un potentiel d’extension vers des applications à très faible latence comme les systèmes autonomes ou l’imagerie médicale
Vue d’ensemble
- Le CERN implémente directement de minuscules modèles d’intelligence artificielle dans des puces en silicium pour filtrer en temps réel l’immense volume de données produit par le Grand collisionneur de hadrons (LHC)
- Seuls les événements scientifiquement significatifs sont conservés parmi les données de collision, le reste étant immédiatement supprimé
- Pour traiter des flux atteignant plusieurs centaines de téraoctets par seconde, l’organisation utilise un matériel sur mesure à base de FPGA et d’ASIC plutôt que des GPU ou TPU
- Ces modèles d’IA embarqués dans le matériel prennent des décisions directement au niveau du détecteur avec une latence de l’ordre de la microseconde à la nanoseconde
- Ce processus de sélection en temps réel est considéré comme l’une des tâches aux exigences de calcul les plus élevées de la science moderne
Défi de traitement des données
- Le LHC génère environ 40 000 exaoctets de données brutes par an, soit un volume équivalant à environ un quart de l’Internet actuel
- Des paquets de protons circulent dans un anneau de 27 km à une vitesse proche de celle de la lumière et se croisent toutes les 25 nanosecondes
- Les collisions réelles sont rares, mais chacune produit plusieurs mégaoctets de données
- Il est impossible de stocker ou de traiter l’ensemble des données, si bien qu’environ 0,02 % seulement des événements sont conservés
- La première étape de filtrage, le Level-1 Trigger, repose sur environ 1 000 FPGA et évalue les données en moins de 50 nanosecondes
- L’algorithme AXOL1TL s’exécute directement sur ces puces afin d’identifier les événements scientifiquement prometteurs et de rejeter immédiatement les autres
Approche IA et pile technologique
- Les modèles d’IA du CERN sont conçus avec une architecture ultra-compacte et très efficace et, contrairement aux grands modèles utilisés dans l’industrie, sont optimisés pour une inférence ultra-faible latence au niveau du détecteur
- Les modèles basés sur PyTorch ou TensorFlow sont convertis en code C++ synthétisable via l’outil open source HLS4ML
- Le code converti est déployé directement sur des FPGA, SoC et ASIC, avec une consommation énergétique et une occupation silicium bien inférieures à celles des GPU ou TPU
- Une part importante des ressources de la puce est consacrée non pas aux couches de réseau de neurones, mais à l’implémentation de tables de correspondance précalculées (lookup tables)
- Ces tables stockent à l’avance les résultats de motifs d’entrée courants, ce qui permet de produire une sortie immédiate sans calcul en virgule flottante pour la plupart des signaux du détecteur
- Cette philosophie de conception priorisant le matériel permet d’atteindre des latences de l’ordre de la nanoseconde
- La deuxième étape de filtrage, le High-Level Trigger, s’exécute sur une ferme de calcul composée de 25 600 CPU et 400 GPU
- Même après le Level-1 Trigger, elle traite plusieurs téraoctets de données par seconde et compresse le tout en environ 1 pétaoctet de données scientifiques par jour
Plans futurs
- Le LHC se prépare à la mise à niveau High-Luminosity LHC (HL-LHC), dont la mise en service est prévue en 2031
- Le volume de données par collision devrait être multiplié par 10 par rapport à aujourd’hui, et la taille des événements devrait aussi fortement augmenter
- Pour s’y préparer, le CERN travaille sur une nouvelle génération de minuscules modèles d’IA ainsi que sur l’optimisation de leur implémentation sur FPGA et ASIC
- L’ensemble du système de déclenchement temps réel est renforcé afin de maintenir des performances à très faible latence malgré des débits de données bien plus élevés
- Cette préparation est considérée comme une base essentielle pour permettre de nouvelles découvertes en physique des particules au cours des prochaines décennies
Sens et impact
- Alors que l’industrie mondiale de l’IA se concentre sur l’extension des grands modèles, le CERN développe des modèles d’IA parmi les plus petits, rapides et efficaces
- Directement implémentés sur FPGA et ASIC, ils sont vus comme un cas concret d’application de la « Tiny AI »
- Dans le système de déclenchement du LHC, ces modèles atteignent un niveau de performance impossible à obtenir avec des accélérateurs IA classiques
- Dans des environnements extrêmes où les décisions doivent être prises à l’échelle de la nanoseconde, ils réalisent une efficacité maximale avec un minimum de ressources
- Cette approche pourrait s’étendre au-delà de la physique des particules à des domaines nécessitant une inférence temps réel à très faible latence, comme les systèmes autonomes, le trading haute fréquence, l’imagerie médicale ou l’aérospatial
- À une époque où l’efficacité énergétique et la réduction des ressources de calcul deviennent cruciales, les modèles du CERN proposent une alternative fondée non sur l’augmentation d’échelle, mais sur une spécialisation extrême et une optimisation au niveau matériel
1 commentaires
Avis Hacker News
Je suis l’un des auteurs de l’un des deux modèles de cet article.
Pour clarifier un malentendu, ces modèles ne sont pas gravés directement dans le silicium, mais déployés sur FPGA.
Dans le cas d’axol1tl, les poids sont câblés en dur dans le fabric, mais cela reste reprogrammable.
Des projets comme smartpixel ou le readout HG-Cal du CERN visent, eux, un vrai silicium.
Slides associées : présentation du CERN
Le processus d’approbation des papiers est long, mais une version plus complète devrait sortir dans quelques mois.
Au départ, le modèle était un simple MLP basé sur un VAE et, à partir de la v5, nous avons ajouté un bloc VICREG pour fonctionner à 40 MHz en 2 cycles d’horloge.
Il a ensuite été déployé sur FPGA via hls4ml-da4ml et cet article associé.
Le modèle CICADA repose sur un VAE et distille en apprentissage supervisé le score de détection d’anomalies via une architecture teacher-student.
Slides de référence : présentation de CICADA
Mes recherches portent sur le QAT (quantization-aware training) et le déploiement de réseaux de neurones fondé sur l’arithmétique distribuée.
Articles associés : arXiv:2405.00645, arXiv:2507.04535
Au début de mon doctorat, j’avais moi aussi implémenté un accélérateur GNN sur FPGA et collaboré avec des équipes du CERN/Fermilab.
Depuis, je me suis réorienté vers des travaux sur le HLS et l’EDA, et je me demande quelles sont aujourd’hui les principales limites lorsqu’on implémente un système de trigger en hardware.
Les bugs des outils HLS commerciaux, la difficulté du debug ou encore les temps de build très longs me semblent être de grosses contraintes.
J’aimerais savoir si l’outillage EDA est effectivement le principal goulot d’étranglement, ou si d’autres facteurs techniques pèsent davantage.
Ils ont utilisé un réseau de neurones autoencodeur avec couches convolutionnelles entraîné sur des données expérimentales antérieures.
Article associé
L’article aurait été bien meilleur s’il avait expliqué plus clairement quel algorithme d’IA était utilisé.
En réalité, même le prédicteur de branchement (branch predictor) des CPU modernes utilise des perceptrons.
À l’époque de Delphi, il existait déjà des papiers sur des ANN pour la sélection du Higgs, et ce type d’approche a ensuite mené au LHC.
Je partage quelques vidéos associées.
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
Page Tech Talk de ScyllaDB
Ce projet tourne à 40 MHz, mais l’outil CflexHDL que j’ai créé permet du ray tracing temps réel à 148 MHz.
Vidéo de démonstration
Cet outil est soutenu par la Nlnet Foundation, et une intégration avec les outils IA du CERN est également prévue.
Je voudrais souligner l’importance d’une toolchain open source.
Il y a un peu de surenchère autour de l’IA dans cet article.
On peut essentiellement voir cela comme une puce embarquant une logique hardcodée obtenue via machine learning.
En pratique, c’est plus proche d’une machine à états dédiée à l’inférence, et si l’environnement change, il faut un respin hardware plutôt qu’un réentraînement.
Dans ce genre de situation, on se rend bien compte que le mot « IA » n’est pas qu’un simple adjectif.
Ce qui est intéressant, c’est qu’ici, à l’inverse de l’IA habituelle, le modèle doit justifier son existence en supportant des contraintes hardware.
Dans cet environnement, ce ne sont pas seulement la latence, mais aussi le déterminisme, le budget énergétique et la stabilité sous charge extrême qui comptent davantage.
Dire que « les FPGA sont gravés dans le silicium » sonne bizarre.
Si le CERN faisait un tape-out d’ASIC, ce serait impressionnant.
Présentation associée
Ce n’est pas le type de LLM dont on parle beaucoup en ce moment, mais bien un réseau de neurones implémenté sur FPGA.
Je ne suis d’ailleurs pas certain qu’un ASIC soit adapté dans ce cas.
Merci pour les retours.
J’ai mis à jour l’article pour parler de l’architecture AXOL1TL basée sur un VAE, et j’y ai ajouté cet article arXiv ainsi que la vidéo de présentation de Thea Aarrestad.
Le CERN utilise toujours massivement les GPU et exploite activement des GPU/CPU COTS selon les cas.