2 points par GN⁺ 2025-12-03 | 1 commentaires | Partager sur WhatsApp
  • AWS a annoncé le Trainium3 UltraServer, équipé de la puce Trainium3 gravée en 3 nanomètres, avec une hausse significative des performances d’apprentissage et d’inférence d’IA
  • Le nouveau système offre une vitesse 4 fois plus rapide et 4 fois plus de mémoire que la génération précédente, ainsi qu’une efficacité énergétique supérieure de 40%
  • Il est possible de connecter jusqu’à 1 million de puces Trainium3, ce qui le rend adapté au traitement d’applications d’IA à grande échelle
  • Des clients comme Anthropic, Karakuri, SplashMusic, Decart l’utilisent déjà et ont confirmé une réduction des coûts d’inférence
  • AWS a annoncé que Trainium4 prendra en charge Nvidia NVLink Fusion, ce qui permettra l’interopérabilité avec les GPU Nvidia, ce qui est vu comme un tournant majeur dans la compétition des infrastructures d’IA

Présentation de Trainium3

  • AWS a officiellement présenté le Trainium3 UltraServer lors de l’événement re:Invent 2025
    • Ce système est propulsé par la puce Trainium3 3 nanomètres et la technologie réseau propriétaire d’AWS
    • AWS indique que les performances sont nettement améliorées par rapport à la 2e génération pour l’apprentissage et l’inférence d’IA
  • AWS a indiqué que le système Trainium3 offre une vitesse de traitement 4 fois plus élevée et une capacité mémoire 4 fois plus importante
    • Chaque UltraServer intègre 144 puces
    • En connectant des milliers de serveurs, il est possible d’utiliser jusqu’à 1 million de puces pour une même application
  • La nouvelle puce offre une amélioration de 40% de l’efficacité énergétique, contribuant à réduire la consommation électrique dans les centres de données à grande échelle
    • AWS a souligné qu’elle permettrait également de réduire les coûts des clients d’IA sur le cloud

Principaux clients et cas d’usage

  • Anthropic, Karakuri, la LLM japonaise, SplashMusic et Decart utilisent déjà Trainium3
    • AWS explique que ces clients ont considérablement réduit les coûts d’inférence
  • AWS a précisé que ces gains de performance et de coût constituent une base pour améliorer l’évolutivité des applications d’IA

Feuille de route du prochain chip Trainium4

  • AWS a annoncé que Trainium4 est déjà en cours de développement et prendra en charge la technologie de surconnexion haute vitesse Nvidia NVLink Fusion
    • Cela rendra possible l’interopérabilité avec les GPU Nvidia et permettra une combinaison avec la technologie de rack serveur à faible coût d’AWS
  • Alors que Nvidia CUDA est devenu le standard dans les applications IA les plus importantes, le système Trainium4 pourrait faciliter la migration vers le cloud AWS d’applications basées sur les GPU Nvidia
  • La date de lancement de Trainium4 n’a pas été communiquée ; des informations complémentaires pourraient être annoncées lors du re:Invent de l’an prochain

Portée stratégique de l’efficacité énergétique et de la réduction des coûts

  • AWS met en place des systèmes de « consommation réduite » dans un contexte de hausse rapide de la consommation électrique des centres de données
  • Cette approche est perçue comme une tentative de répondre simultanément à deux objectifs : réduire les coûts d’exploitation et garantir la durabilité
  • La stratégie d’AWS, centrée sur la réduction des coûts, pourrait renforcer son attractivité auprès des clients cloud dans la concurrence des infrastructures IA

Résumé

  • Trainium3 est une puce IA de 3e génération avec de fortes améliorations de performance, mémoire et efficacité
  • Trainium4 vise à élargir l’écosystème AWS grâce à la compatibilité avec Nvidia
  • AWS recherche simultanément une infrastructure IA haute performance, faible coût et écoresponsable, avec l’objectif de renforcer sa compétitivité sur le marché du cloud IA

1 commentaires

 
GN⁺ 2025-12-03
Commentaires sur Hacker News
  • Notre équipe a dit plusieurs fois à notre interlocuteur AWS que nous n’avions aucun intérêt pour les instances Trainium ou Inferentia
    parce qu’il n’existe aucune preuve solide d’une compatibilité stable avec des bibliothèques standard comme Transformers ou PyTorch
    AWS affirme que ça fonctionne bien, mais ce n’est vrai que dans leur « happy path » avec une AMI spécifique et le neuron SDK
    Dès qu’on travaille avec nos dépendances réelles, tout s’effondre
    Les TPU de GCP aussi ne sont devenus vraiment utilisables qu’après que Google a massivement investi dans le support logiciel
    Je n’ai pas le temps de servir de bêta-testeur pour utiliser les puces d’AWS
    • Dès qu’on sort des services cœur d’AWS (S3, Dynamo, Lambda, ECS, etc.), c’est rempli de services bêta
      Il y en a peu qui soient stables, et le reste est plein d’angles rugueux
    • Google a déployé des efforts énormes pour intégrer les TPU dans son écosystème
      J’ai du mal à imaginer Amazon investir à ce niveau
    • Spoiler : à moins d’écrire beaucoup de code sur mesure, ça ne marche pas
  • J’ai vécu l’enfer en essayant de construire moi-même les conteneurs LMI dans SageMaker
    La version de vLLM n’a pas été mise à jour depuis six mois, et les endpoints classiques sont inutilisables à cause d’un timeout de 60 secondes décidé il y a huit ans
    Dans ces conditions, imaginer la souffrance d’un développeur qui voudrait utiliser du silicium sur mesure est terrifiant
  • AWS tient de grands discours sur Trainium, mais il n’y a pas un seul client sur scène pour en faire l’éloge
    Ceux qui l’ont vraiment utilisé disent avoir abandonné à cause de la douleur du déploiement et de l’exploitation
    En interne, ça semble beaucoup utilisé, mais l’adoption externe est quasiment inexistante
    Malgré tout, je vois d’un bon œil le fait qu’Amazon investisse dans ses propres puces
    • Les instances spot Inf1/Inf2 sont si peu demandées qu’elles coûtent 10 à 20 % moins cher que des instances CPU
      Trn1 n’en est pas encore là, donc quelqu’un doit quand même s’en servir
    • J’ai aussi entendu dire qu’Anthropic utilisait beaucoup Trainium
      Ils semblent probablement bénéficier d’un soutien total d’AWS
      Si personne n’investit davantage dans le SDK et l’outillage, personne n’utilisera ce genre de cloud
  • Le concept de block floating point (MXFP8/4) est intéressant
    L’IA pousse de nouveaux types de données de base qui n’avaient pas bougé depuis des décennies
    Article Wikipédia sur le block floating point
  • Il est intéressant de constater que l’article n’explique jamais vraiment ce que fait cette puce
    • L’essentiel, c’est une architecture composée de plusieurs systolic arrays 128x128
      Pour plus de détails, voir la newsletter de Semianalysis
    • Comme son nom l’indique, c’est une puce pour le training
    • En fin de compte, c’est une puce qui exécute des opérations vectorielles
    • On dirait presque que la vraie mission de cette puce est de satisfaire les actionnaires, donc qu’il n’est pas nécessaire de l’expliquer aux développeurs
  • Aucune mention des performances ou des benchmarks
    • On nous dit « 4 fois plus », mais ça ne veut pas dire 4 fois plus rapide, et pour la mémoire annoncée 4 fois plus grande, on n’a aucun point de comparaison
  • La vraie info, c’est la partie sur la « feuille de route favorable à Nvidia »
    Amazon semble vouloir faire dans l’IA ce qu’il fait dans la logistique : réduire les coûts
    Mais la confiance semble faible, et cela ressemble davantage à une stratégie de façade pour préserver la relation avec Nvidia
  • Il est intéressant de voir NVLink se diffuser
    Intel participe aussi, et cela ressemble à un moment du type transition PCI → AGP
    AMD a failli saisir une opportunité à l’époque de HyperTransport, mais l’actuel Infinity Fabric reste cantonné à l’interne
    UALink et CXL attirent aussi l’attention, mais on reste limité par les vitesses de PCIe
    Idéalement, l’intégration réseau devrait être native dans la puce
    Comme à l’époque où les Intel Xeon proposaient du 100Gb Omni-Path quasiment gratuitement
    • NVLink Fusion ressemble au final à un piège de dépendance à Nvidia
      On peut comprendre Intel, qui est dans l’urgence, mais voir AWS suivre la même voie ne semble pas souhaitable
      Si c’était AMD, je penserais qu’il vaudrait mieux intégrer une SolarFlare NIC dans l’I/O die
      De la même façon qu’on peut basculer PCIe/SATA, on pourrait sans doute basculer PCIe/Ethernet, mais UEC est peut-être un marché trop de niche
  • Publication officielle d’Amazon : Présentation de Trainium 3 UltraServer