5 points par GN⁺ 2025-10-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Le système de pooling Aegaeon développé par Alibaba Cloud augmente l'efficacité d'utilisation des GPU de 9 fois et réduit de 82 % le nombre de GPU Nvidia nécessaire à un même service LLM
  • Ce système prend en charge le fait que plusieurs modèles utilisent le même GPU en virtualisant les GPU par token et en les planifiant dynamiquement dans un pool partagé, au lieu de les figer par modèle
  • Dans des tests de service réel incluant des LLM de tailles allant jusqu’à 72B paramètres, le nombre de GPU est tombé à 1,192 → 213
  • Même dans un contexte d'approvisionnement limité des GPU H20, des performances stables ont été maintenues, avec un gain de goodput de 1,5 à 9 fois par rapport à ServerlessLLM et MuxServe
  • La publication est intervenue via une présentation au SOSP 2025 à Séoul, et l'on s'attend à un fort intérêt de la part des entreprises cloud mondiales confrontées à une pénurie de ressources GPU

Système de pooling Aegaeon et son contexte

  • Alibaba Cloud a annoncé, grâce au système de pooling Aegaeon, une réduction de 82 % de l’utilisation des GPU Nvidia lors de tests bêta de plusieurs mois sur son marketplace Model Studio
  • Ces résultats ont été présentés dans un article ayant fait l'objet d'une évaluation par les pairs lors du 2025 ACM Symposium on Operating Systems (SOSP), organisé à Séoul
  • Cette technologie vise à permettre aux fournisseurs de services cloud d'utiliser au maximum leurs ressources existantes dans un environnement où l'approvisionnement en GPU récents comme le Nvidia H20 est limité en Chine

Aegaeon : ordonnanceur dédié à l'inférence pour maximiser l'efficacité GPU

  • Aegaeon n'est pas un système d'amélioration de l'efficacité d'entraînement des modèles, mais un ordonnanceur conçu pour maximiser les ressources GPU au stade d'inférence
    • L'approche classique attribuait un seul GPU fixe à chaque modèle, tandis qu'Aegaeon a été conçu pour être découpé au niveau des tokens afin que plusieurs modèles puissent s'en servir simultanément
    • Il augmente le ‘goodput’ (débit utile) des GPU jusqu'à 9 fois, tout en atteignant un débit stable face à des modèles de requête LLM irréguliers

Résultats des tests et économies

  • Des tests bêta de plusieurs mois impliquant des chercheurs de l'infrastructure de Peking University et d'Alibaba (y compris le CTO Jingrun Zhou) ont validé les performances
    • Pendant la période de test, le nombre de GPU a été réduit de 1,192 à 213 tout en maintenant le même niveau de charge d'inférence LLM
    • Une élevée efficacité a également été observée dans des environnements de services simultanés de plusieurs LLM, y compris des modèles de taille maximale 72B paramètres
  • Les tests ont été effectués sur des GPU H20 qui peuvent être achetés légalement en Chine après les contrôles à l'export des États-Unis
    • Selon le South China Morning Post, le H20 est actuellement utilisé comme accélérateur de substitution majeur en Chine

Architecture technique : deux stratégies clés

  • 1. Multi-model packing : placer plusieurs modèles sur un même GPU pour réduire au minimum les ressources inutilisées entre les requêtes
  • 2. Token-level autoscaling : ajuster en temps réel la charge de calcul en fonction du nombre de tokens de sortie générés, pas en fonction de la requête entière
    • Cela permet d'éliminer les réservations GPU inutiles et d'optimiser au maximum l'efficacité coût/volume de traitement
  • Selon les benchmarks, un gain de performance de 1,5 à 9 fois a été obtenu par rapport à ServerlessLLM et MuxServe

Intégration réseau et stack

  • L'article ne précise pas les détails de la structure réseau (basée sur eRDMA) utilisée, mais
    • Alibaba est connu pour posséder son réseau eRDMA (Elastic RDMA) et une stack GPU à forte intégration
    • Les résultats observés peuvent donc dépendre d'un environnement d'intégration d'infrastructure interne fortement optimisé

Implications

  • Considérée comme une solution stratégique pour extraire le maximum d'efficacité des ressources de puce existantes sur le marché chinois, où l'offre de GPU est limitée
  • Cette approche pourrait devenir un benchmark pour améliorer l'efficacité d'inférence, également pour des hyperscalers comme AWS, Google Cloud et Microsoft Azure
  • Au-delà des limites du matériel GPU lui-même, les technologies de scheduling et de virtualisation logicielles émergent comme un nouvel axe de compétitivité de l'infrastructure IA

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.