5 points par GN⁺ 2025-10-21 | 5 commentaires | Partager sur WhatsApp
  • Le système de pooling Aegaeon développé par Alibaba Cloud augmente l'efficacité d'utilisation des GPU de 9 fois et réduit de 82 % le nombre de GPU Nvidia nécessaire à un même service LLM
  • Ce système prend en charge le fait que plusieurs modèles utilisent le même GPU en virtualisant les GPU par token et en les planifiant dynamiquement dans un pool partagé, au lieu de les figer par modèle
  • Dans des tests de service réel incluant des LLM de tailles allant jusqu’à 72B paramètres, le nombre de GPU est tombé à 1,192 → 213
  • Même dans un contexte d'approvisionnement limité des GPU H20, des performances stables ont été maintenues, avec un gain de goodput de 1,5 à 9 fois par rapport à ServerlessLLM et MuxServe
  • La publication est intervenue via une présentation au SOSP 2025 à Séoul, et l'on s'attend à un fort intérêt de la part des entreprises cloud mondiales confrontées à une pénurie de ressources GPU

Système de pooling Aegaeon et son contexte

  • Alibaba Cloud a annoncé, grâce au système de pooling Aegaeon, une réduction de 82 % de l’utilisation des GPU Nvidia lors de tests bêta de plusieurs mois sur son marketplace Model Studio
  • Ces résultats ont été présentés dans un article ayant fait l'objet d'une évaluation par les pairs lors du 2025 ACM Symposium on Operating Systems (SOSP), organisé à Séoul
  • Cette technologie vise à permettre aux fournisseurs de services cloud d'utiliser au maximum leurs ressources existantes dans un environnement où l'approvisionnement en GPU récents comme le Nvidia H20 est limité en Chine

Aegaeon : ordonnanceur dédié à l'inférence pour maximiser l'efficacité GPU

  • Aegaeon n'est pas un système d'amélioration de l'efficacité d'entraînement des modèles, mais un ordonnanceur conçu pour maximiser les ressources GPU au stade d'inférence
    • L'approche classique attribuait un seul GPU fixe à chaque modèle, tandis qu'Aegaeon a été conçu pour être découpé au niveau des tokens afin que plusieurs modèles puissent s'en servir simultanément
    • Il augmente le ‘goodput’ (débit utile) des GPU jusqu'à 9 fois, tout en atteignant un débit stable face à des modèles de requête LLM irréguliers

Résultats des tests et économies

  • Des tests bêta de plusieurs mois impliquant des chercheurs de l'infrastructure de Peking University et d'Alibaba (y compris le CTO Jingrun Zhou) ont validé les performances
    • Pendant la période de test, le nombre de GPU a été réduit de 1,192 à 213 tout en maintenant le même niveau de charge d'inférence LLM
    • Une élevée efficacité a également été observée dans des environnements de services simultanés de plusieurs LLM, y compris des modèles de taille maximale 72B paramètres
  • Les tests ont été effectués sur des GPU H20 qui peuvent être achetés légalement en Chine après les contrôles à l'export des États-Unis
    • Selon le South China Morning Post, le H20 est actuellement utilisé comme accélérateur de substitution majeur en Chine

Architecture technique : deux stratégies clés

  • 1. Multi-model packing : placer plusieurs modèles sur un même GPU pour réduire au minimum les ressources inutilisées entre les requêtes
  • 2. Token-level autoscaling : ajuster en temps réel la charge de calcul en fonction du nombre de tokens de sortie générés, pas en fonction de la requête entière
    • Cela permet d'éliminer les réservations GPU inutiles et d'optimiser au maximum l'efficacité coût/volume de traitement
  • Selon les benchmarks, un gain de performance de 1,5 à 9 fois a été obtenu par rapport à ServerlessLLM et MuxServe

Intégration réseau et stack

  • L'article ne précise pas les détails de la structure réseau (basée sur eRDMA) utilisée, mais
    • Alibaba est connu pour posséder son réseau eRDMA (Elastic RDMA) et une stack GPU à forte intégration
    • Les résultats observés peuvent donc dépendre d'un environnement d'intégration d'infrastructure interne fortement optimisé

Implications

  • Considérée comme une solution stratégique pour extraire le maximum d'efficacité des ressources de puce existantes sur le marché chinois, où l'offre de GPU est limitée
  • Cette approche pourrait devenir un benchmark pour améliorer l'efficacité d'inférence, également pour des hyperscalers comme AWS, Google Cloud et Microsoft Azure
  • Au-delà des limites du matériel GPU lui-même, les technologies de scheduling et de virtualisation logicielles émergent comme un nouvel axe de compétitivité de l'infrastructure IA

5 commentaires

 
jjpark78 2025-10-21

On dirait qu’on entend déjà les bruits de la chute des actions de NVIDIA.

 
jeongsoop 2025-10-21

En général, dans ce cas, au lieu d’acheter seulement un cinquième des GPU, on évolue plutôt vers le traitement de cinq fois plus de données avec la même capacité d’économie de 80 %.

 
shakespeares 2025-10-21

Est-ce vraiment le cas ? N'y aurait-il pas une arrière-pensée ?

 
GN⁺ 2025-10-21
Avis de Hacker News
  • Alibaba Cloud annonce avoir réduit l’usage de GPUs Nvidia pour le service de modèles moins populaires de 82 %, et selon l’étude, sur l’ensemble du marketplace Alibaba Cloud, 17,7 % des GPUs étaient alloués pour seulement 1,35 % des requêtes ; auparavant il fallait 1 192 GPUs, alors qu’aujourd’hui les mêmes requêtes sont traitées avec 213 GPUs
    • Je ne comprends pas exactement comment cela fonctionne ; je me demande si le modèle reste simplement placé au-dessus du GPU en attente lorsqu’il n’est pas utilisé. Je pensais que ce genre de travail était généralement alloué dynamiquement. Réduire le nombre de chargements du modèle est évidemment bénéfique, mais si le modèle + le GPU restent inactifs pendant plusieurs minutes, on pourrait aussi libérer des ressources. En pratique, je ne suis pas dans l’IA, je suis plutôt habitué à allouer des nœuds via SLURM à chaque fois
    • Selon la Figure 1(a) de l’article, les 17,7 % correspondent au ratio sur les 30 000 GPUs au total (soit 5 310 GPUs traitant 1,35 % des requêtes), et cette réduction a été mesurée dans un petit environnement bêta fermé avec seulement 47 modèles ; en extrapolant naïvement sur la base du nombre total de modèles, avec 733 modèles « cold », il faudrait 3 321 GPUs, soit 37,5 % d’économie par rapport à avant, et 6,6 % sur l’ensemble d’un cluster de 30 000 GPUs
    • Dans le passé, les ingénieurs logiciel et système affrontaient les problèmes de front et concevaient de manière créative des algorithmes et des solutions ; les restrictions américaines sur l’industrie des semi-conducteurs poussent les ingénieurs chinois à innover eux aussi et à résoudre les problèmes eux-mêmes, comme le faisait autrefois la Silicon Valley
  • Le point principal, c’est qu’un petit nombre de modèles comme Alibaba, Qwen et DeepSeek concentre la majorité des requêtes d’inférence, tandis que la plupart des autres modèles sont utilisés de manière intermittente, si bien que 17,7 % des ressources GPU sont utilisées pour seulement 1,35 % des requêtes, ce qui est inefficace
    • Ces autres modèles sont probablement nettement plus petits
  • Un meilleur lien est l’article Tom's Hardware, et le papier est disponible ici
    • J’ai remplacé cette URL (qui pointait à l’origine vers l’article de SCMP) par le lien ci-dessus, et je prévois d’ajouter aussi le lien du papier en haut du texte
  • Les efforts américains pour freiner le développement technologique chinois ont réussi à empêcher la Chine de suivre la même voie, mais, ironiquement, ils pourraient la pousser à innover différemment ; si les entreprises chinoises open source cette innovation, cela peut au final mener à une efficacité et à un progrès global plus élevés, et à long terme nous pourrions même être reconnaissants de ce qu’on appelle le « gatekeeping civilisationnel » américain
    • Historiquement, quand on bloque la technologie, la Chine la rattrape ou fait mieux en quelques années ; le regard occidental peut être arrogant, et, en fait, la contribution des scientifiques chinois ou de la fabrication chinoise est substantielle dans le développement de nombreux produits occidentaux, sans lesquels il n’y aurait peut-être rien, et la liste des chercheurs en IA montre aussi une forte présence chinoise
    • Le sentiment anti-immigration aux États-Unis pourrait devenir le plus grand obstacle à l’innovation américaine ; en réalité, les talents qui créent l’innovation quittent le pays, et sans l’avantage d’attirer les meilleurs profils mondiaux, les États-Unis peuvent devenir défavorisés en volume et en autres aspects ; le monde cherche un nouveau leader, et la Chine n’est pas encore là, mais elle pourrait y parvenir dans quelques années, même si sa faiblesse reste un manque d’ambition extérieure et une tendance à se concentrer uniquement sur la région (Taïwan et mer de Chine méridionale)
    • Les États-Unis ne peuvent plus désormais empêcher les progrès chinois ; au sein de la Chine, interdire l’importation de puces rendait déjà la mesure américaine sans effet. Article lié (interdiction en 2025 des puces IA Nvidia pour la Chine) : article CNBC
    • Tout cela me rappelle le Japon d’après la Seconde Guerre mondiale, qui a créé de bons moteurs très efficients ou des voitures légères avec peu de ressources. Comme ce type de contrainte n’existait pas aux États-Unis ou dans une partie de l’Europe, l’écart était énorme, et au final les voitures américaines ont perdu en compétitivité
    • On parle d’« effet boomerang », mais je pense que c’est déjà trop tard ; en 2024 les labs occidentaux étaient dominants, mais en 2025 la Chine a vu émerger successivement des modèles state-of-the-art comme deepseek, qwen, kimi, glm et ernie, et ce sont désormais plus de laboratoires chinois que de laboratoires occidentaux qui publient des modèles de pointe
  • Je m’interroge de plus en plus sur les blogs de recherche et d’ingénierie des entreprises chinoises ; avant, je consultais surtout les blogs des entreprises occidentales, mais on en arrive à un moment où l’on voudrait prendre des case studies de non-FAANG comme benchmark
    • Des articles sur ce type d’optimisation apparaissent aussi sur certains blogs officiels d’entreprises chinoises, mais souvent mêlés à des contenus marketing. On suppose aussi qu’il y en a beaucoup sur les forums locaux, mais ils sont difficiles d’accès pour les anglophones, par exemple : Cas d’optimisation d’un cluster Kubernetes massif sur Alibaba Cloud
  • On dirait qu’ils n’expérimentent qu’avec de très petits modèles ; je me demande si cela est vraiment extensible aux très grands modèles
    • Ce sont tous des LLM, donc pas vraiment minuscules ; dans l’environnement de production actuel, ils servent 28 modèles 1,8–7B (TP=1) et 19 modèles 32–72B (TP=4) via un cluster de 213 GPUs H20 répartis sur plusieurs régions
  • Ce système de GPU virtuel semble être un scheduler (gestionnaire de workloads) séparé ; je suis curieux de savoir combien de latence cela introduit avec le déplacement de données
  • Je me demande si cette approche peut s’appliquer à d’autres workloads
  • Ça semble finalement arrêter des actions inutiles, une utilisation inefficace des ressources
  • Les acteurs disposant de ressources abondantes peuvent déplacer les modèles préentraînés vers du nouveau matériel pour économiser la « taxe NVDA » (le coût lié au monopole Nvidia), mais je pense que la recherche et l’entraînement des modèles eux-mêmes restent difficiles à faire en dehors d’un écosystème Nvidia mature