8 points par GN⁺ 2026-03-30 | 1 commentaires | Partager sur WhatsApp
  • Au Grand collisionneur de hadrons, l’énorme volume de données généré est filtré en temps réel par de minuscules modèles d’IA directement implémentés dans des puces en silicium, afin de ne retenir que les événements scientifiquement significatifs
  • Pour traiter des flux de données de plusieurs centaines de téraoctets par seconde, le système utilise du matériel basé sur FPGA et ASIC plutôt que des GPU ou TPU, avec des latences de l’ordre de la nanoseconde pour la prise de décision
  • Grâce à l’outil HLS4ML, des modèles PyTorch ou TensorFlow sont convertis en code C++ synthétisable puis déployés directement sur la puce, avec une architecture fondée sur des tables de correspondance produisant des sorties immédiates sans calcul en virgule flottante
  • Le Level-1 Trigger du LHC est composé d’environ 1 000 FPGA qui évaluent les données en moins de 50 nanosecondes ; aux étapes suivantes, 25 600 CPU et 400 GPU assurent un filtrage complémentaire
  • En vue de la mise à niveau High-Luminosity LHC prévue pour 2031, le CERN développe une nouvelle génération de modèles d’IA ultra-compacts, avec un potentiel d’extension vers des applications à très faible latence comme les systèmes autonomes ou l’imagerie médicale

Vue d’ensemble

  • Le CERN implémente directement de minuscules modèles d’intelligence artificielle dans des puces en silicium pour filtrer en temps réel l’immense volume de données produit par le Grand collisionneur de hadrons (LHC)
    • Seuls les événements scientifiquement significatifs sont conservés parmi les données de collision, le reste étant immédiatement supprimé
    • Pour traiter des flux atteignant plusieurs centaines de téraoctets par seconde, l’organisation utilise un matériel sur mesure à base de FPGA et d’ASIC plutôt que des GPU ou TPU
  • Ces modèles d’IA embarqués dans le matériel prennent des décisions directement au niveau du détecteur avec une latence de l’ordre de la microseconde à la nanoseconde
    • Ce processus de sélection en temps réel est considéré comme l’une des tâches aux exigences de calcul les plus élevées de la science moderne

Défi de traitement des données

  • Le LHC génère environ 40 000 exaoctets de données brutes par an, soit un volume équivalant à environ un quart de l’Internet actuel
    • Des paquets de protons circulent dans un anneau de 27 km à une vitesse proche de celle de la lumière et se croisent toutes les 25 nanosecondes
    • Les collisions réelles sont rares, mais chacune produit plusieurs mégaoctets de données
  • Il est impossible de stocker ou de traiter l’ensemble des données, si bien qu’environ 0,02 % seulement des événements sont conservés
    • La première étape de filtrage, le Level-1 Trigger, repose sur environ 1 000 FPGA et évalue les données en moins de 50 nanosecondes
    • L’algorithme AXOL1TL s’exécute directement sur ces puces afin d’identifier les événements scientifiquement prometteurs et de rejeter immédiatement les autres

Approche IA et pile technologique

  • Les modèles d’IA du CERN sont conçus avec une architecture ultra-compacte et très efficace et, contrairement aux grands modèles utilisés dans l’industrie, sont optimisés pour une inférence ultra-faible latence au niveau du détecteur
    • Les modèles basés sur PyTorch ou TensorFlow sont convertis en code C++ synthétisable via l’outil open source HLS4ML
    • Le code converti est déployé directement sur des FPGA, SoC et ASIC, avec une consommation énergétique et une occupation silicium bien inférieures à celles des GPU ou TPU
  • Une part importante des ressources de la puce est consacrée non pas aux couches de réseau de neurones, mais à l’implémentation de tables de correspondance précalculées (lookup tables)
    • Ces tables stockent à l’avance les résultats de motifs d’entrée courants, ce qui permet de produire une sortie immédiate sans calcul en virgule flottante pour la plupart des signaux du détecteur
    • Cette philosophie de conception priorisant le matériel permet d’atteindre des latences de l’ordre de la nanoseconde
  • La deuxième étape de filtrage, le High-Level Trigger, s’exécute sur une ferme de calcul composée de 25 600 CPU et 400 GPU
    • Même après le Level-1 Trigger, elle traite plusieurs téraoctets de données par seconde et compresse le tout en environ 1 pétaoctet de données scientifiques par jour

Plans futurs

  • Le LHC se prépare à la mise à niveau High-Luminosity LHC (HL-LHC), dont la mise en service est prévue en 2031
    • Le volume de données par collision devrait être multiplié par 10 par rapport à aujourd’hui, et la taille des événements devrait aussi fortement augmenter
  • Pour s’y préparer, le CERN travaille sur une nouvelle génération de minuscules modèles d’IA ainsi que sur l’optimisation de leur implémentation sur FPGA et ASIC
    • L’ensemble du système de déclenchement temps réel est renforcé afin de maintenir des performances à très faible latence malgré des débits de données bien plus élevés
  • Cette préparation est considérée comme une base essentielle pour permettre de nouvelles découvertes en physique des particules au cours des prochaines décennies

Sens et impact

  • Alors que l’industrie mondiale de l’IA se concentre sur l’extension des grands modèles, le CERN développe des modèles d’IA parmi les plus petits, rapides et efficaces
    • Directement implémentés sur FPGA et ASIC, ils sont vus comme un cas concret d’application de la « Tiny AI »
  • Dans le système de déclenchement du LHC, ces modèles atteignent un niveau de performance impossible à obtenir avec des accélérateurs IA classiques
    • Dans des environnements extrêmes où les décisions doivent être prises à l’échelle de la nanoseconde, ils réalisent une efficacité maximale avec un minimum de ressources
  • Cette approche pourrait s’étendre au-delà de la physique des particules à des domaines nécessitant une inférence temps réel à très faible latence, comme les systèmes autonomes, le trading haute fréquence, l’imagerie médicale ou l’aérospatial
    • À une époque où l’efficacité énergétique et la réduction des ressources de calcul deviennent cruciales, les modèles du CERN proposent une alternative fondée non sur l’augmentation d’échelle, mais sur une spécialisation extrême et une optimisation au niveau matériel

1 commentaires

 
GN⁺ 2026-03-30
Avis Hacker News
  • Je suis l’un des auteurs de l’un des deux modèles de cet article.
    Pour clarifier un malentendu, ces modèles ne sont pas gravés directement dans le silicium, mais déployés sur FPGA.
    Dans le cas d’axol1tl, les poids sont câblés en dur dans le fabric, mais cela reste reprogrammable.
    Des projets comme smartpixel ou le readout HG-Cal du CERN visent, eux, un vrai silicium.
    Slides associées : présentation du CERN
    Le processus d’approbation des papiers est long, mais une version plus complète devrait sortir dans quelques mois.
    Au départ, le modèle était un simple MLP basé sur un VAE et, à partir de la v5, nous avons ajouté un bloc VICREG pour fonctionner à 40 MHz en 2 cycles d’horloge.
    Il a ensuite été déployé sur FPGA via hls4ml-da4ml et cet article associé.
    Le modèle CICADA repose sur un VAE et distille en apprentissage supervisé le score de détection d’anomalies via une architecture teacher-student.
    Slides de référence : présentation de CICADA
    Mes recherches portent sur le QAT (quantization-aware training) et le déploiement de réseaux de neurones fondé sur l’arithmétique distribuée.
    Articles associés : arXiv:2405.00645, arXiv:2507.04535

    • Travail vraiment fascinant.
      Au début de mon doctorat, j’avais moi aussi implémenté un accélérateur GNN sur FPGA et collaboré avec des équipes du CERN/Fermilab.
      Depuis, je me suis réorienté vers des travaux sur le HLS et l’EDA, et je me demande quelles sont aujourd’hui les principales limites lorsqu’on implémente un système de trigger en hardware.
      Les bugs des outils HLS commerciaux, la difficulté du debug ou encore les temps de build très longs me semblent être de grosses contraintes.
      J’aimerais savoir si l’outillage EDA est effectivement le principal goulot d’étranglement, ou si d’autres facteurs techniques pèsent davantage.
  • Ils ont utilisé un réseau de neurones autoencodeur avec couches convolutionnelles entraîné sur des données expérimentales antérieures.
    Article associé
    L’article aurait été bien meilleur s’il avait expliqué plus clairement quel algorithme d’IA était utilisé.

    • Aujourd’hui, « modèle d’IA » peut parfois vouloir dire en pratique régression linéaire.
    • Comme l’implémentation est surtout sur FPGA, dire que c’est « gravé dans le silicium » semble exagéré.
    • Comme rien n’attire l’attention si ce n’est pas un LLM, c’est dommage que le mot « IA » soit utilisé comme outil marketing.
    • Dans les articles techniques, omettre l’algorithme central est vraiment frustrant.
    • Une fois qu’on comprend qu’il s’agit au fond d’un problème de détection d’anomalies (anomaly detection), tout devient plus clair.
  • En réalité, même le prédicteur de branchement (branch predictor) des CPU modernes utilise des perceptrons.

    • Comme exemples, on peut voir cet article sur le NN dans la puce du Samsung Galaxy S7 et cet article IEEE.
    • Je ne savais pas que ce type de structure existait, et j’aimerais en savoir plus sur la façon dont on les conçoit et les entraîne.
    • C’est dommage qu’aujourd’hui « IA » soit parfois employé pour dire « on ne comprenait pas vraiment le problème, donc on a juste lancé une boîte noire ».
    • Un perceptron reste au fond un prédicteur linéaire, donc quelque chose de simple.
    • Le domaine HEP utilise déjà des FPGA depuis des décennies pour les triggers L0.
      À l’époque de Delphi, il existait déjà des papiers sur des ANN pour la sélection du Higgs, et ce type d’approche a ensuite mené au LHC.
  • Je partage quelques vidéos associées.
    Big Data and AI at the CERN LHC
    Nanosecond AI at the Large Hadron Collider
    Page Tech Talk de ScyllaDB

  • Ce projet tourne à 40 MHz, mais l’outil CflexHDL que j’ai créé permet du ray tracing temps réel à 148 MHz.
    Vidéo de démonstration
    Cet outil est soutenu par la Nlnet Foundation, et une intégration avec les outils IA du CERN est également prévue.
    Je voudrais souligner l’importance d’une toolchain open source.

  • Il y a un peu de surenchère autour de l’IA dans cet article.
    On peut essentiellement voir cela comme une puce embarquant une logique hardcodée obtenue via machine learning.

    • Le ML fait depuis toujours partie de l’IA ; ce n’est pas un concept apparu après ChatGPT.
    • Même les poids d’un LLM contiennent au final une logique apprise.
    • Le terme « IA » sonne comme du marketing.
      En pratique, c’est plus proche d’une machine à états dédiée à l’inférence, et si l’environnement change, il faut un respin hardware plutôt qu’un réentraînement.
      Dans ce genre de situation, on se rend bien compte que le mot « IA » n’est pas qu’un simple adjectif.
  • Ce qui est intéressant, c’est qu’ici, à l’inverse de l’IA habituelle, le modèle doit justifier son existence en supportant des contraintes hardware.
    Dans cet environnement, ce ne sont pas seulement la latence, mais aussi le déterminisme, le budget énergétique et la stabilité sous charge extrême qui comptent davantage.

  • Dire que « les FPGA sont gravés dans le silicium » sonne bizarre.
    Si le CERN faisait un tape-out d’ASIC, ce serait impressionnant.

    • En réalité, le CERN conçoit bien des ASIC custom pour d’autres usages.
      Présentation associée
    • Il est aussi possible qu’ils aient sous-traité la fabrication à un prestataire externe.
    • Au final, il semble que le titre de l’article ait été corrigé.
  • Ce n’est pas le type de LLM dont on parle beaucoup en ce moment, mais bien un réseau de neurones implémenté sur FPGA.

    • Le marketing des entreprises de LLM est tellement fort que j’y ai pensé moi aussi au départ.
    • S’il s’agit d’un FPGA, l’expression « gravé dans le silicium » est inexacte.
      Je ne suis d’ailleurs pas certain qu’un ASIC soit adapté dans ce cas.
  • Merci pour les retours.
    J’ai mis à jour l’article pour parler de l’architecture AXOL1TL basée sur un VAE, et j’y ai ajouté cet article arXiv ainsi que la vidéo de présentation de Thea Aarrestad.

    • En revanche, la phrase selon laquelle « le CERN a abandonné l’IA sur GPU/TPU » est inexacte.
      Le CERN utilise toujours massivement les GPU et exploite activement des GPU/CPU COTS selon les cas.