Amazon dévoile une nouvelle puce IA Trainium3 et annonce une feuille de route de collaboration avec Nvidia

(techcrunch.com)

2 points par GN⁺ 2025-12-03 | 1 commentaires | Partager sur WhatsApp

AWS a annoncé le Trainium3 UltraServer, équipé de la puce Trainium3 gravée en 3 nanomètres, avec une hausse significative des performances d’apprentissage et d’inférence d’IA
Le nouveau système offre une vitesse 4 fois plus rapide et 4 fois plus de mémoire que la génération précédente, ainsi qu’une efficacité énergétique supérieure de 40%
Il est possible de connecter jusqu’à 1 million de puces Trainium3, ce qui le rend adapté au traitement d’applications d’IA à grande échelle
Des clients comme Anthropic, Karakuri, SplashMusic, Decart l’utilisent déjà et ont confirmé une réduction des coûts d’inférence
AWS a annoncé que Trainium4 prendra en charge Nvidia NVLink Fusion, ce qui permettra l’interopérabilité avec les GPU Nvidia, ce qui est vu comme un tournant majeur dans la compétition des infrastructures d’IA

Présentation de Trainium3

AWS a officiellement présenté le Trainium3 UltraServer lors de l’événement re:Invent 2025
- Ce système est propulsé par la puce Trainium3 3 nanomètres et la technologie réseau propriétaire d’AWS
- AWS indique que les performances sont nettement améliorées par rapport à la 2e génération pour l’apprentissage et l’inférence d’IA
AWS a indiqué que le système Trainium3 offre une vitesse de traitement 4 fois plus élevée et une capacité mémoire 4 fois plus importante
- Chaque UltraServer intègre 144 puces
- En connectant des milliers de serveurs, il est possible d’utiliser jusqu’à 1 million de puces pour une même application
La nouvelle puce offre une amélioration de 40% de l’efficacité énergétique, contribuant à réduire la consommation électrique dans les centres de données à grande échelle
- AWS a souligné qu’elle permettrait également de réduire les coûts des clients d’IA sur le cloud

Principaux clients et cas d’usage

Anthropic, Karakuri, la LLM japonaise, SplashMusic et Decart utilisent déjà Trainium3
- AWS explique que ces clients ont considérablement réduit les coûts d’inférence
AWS a précisé que ces gains de performance et de coût constituent une base pour améliorer l’évolutivité des applications d’IA

Feuille de route du prochain chip Trainium4

AWS a annoncé que Trainium4 est déjà en cours de développement et prendra en charge la technologie de surconnexion haute vitesse Nvidia NVLink Fusion
- Cela rendra possible l’interopérabilité avec les GPU Nvidia et permettra une combinaison avec la technologie de rack serveur à faible coût d’AWS
Alors que Nvidia CUDA est devenu le standard dans les applications IA les plus importantes, le système Trainium4 pourrait faciliter la migration vers le cloud AWS d’applications basées sur les GPU Nvidia
La date de lancement de Trainium4 n’a pas été communiquée ; des informations complémentaires pourraient être annoncées lors du re:Invent de l’an prochain

Portée stratégique de l’efficacité énergétique et de la réduction des coûts

AWS met en place des systèmes de « consommation réduite » dans un contexte de hausse rapide de la consommation électrique des centres de données
Cette approche est perçue comme une tentative de répondre simultanément à deux objectifs : réduire les coûts d’exploitation et garantir la durabilité
La stratégie d’AWS, centrée sur la réduction des coûts, pourrait renforcer son attractivité auprès des clients cloud dans la concurrence des infrastructures IA

Résumé

Trainium3 est une puce IA de 3e génération avec de fortes améliorations de performance, mémoire et efficacité
Trainium4 vise à élargir l’écosystème AWS grâce à la compatibilité avec Nvidia
AWS recherche simultanément une infrastructure IA haute performance, faible coût et écoresponsable, avec l’objectif de renforcer sa compétitivité sur le marché du cloud IA

1 commentaires

GN⁺ 2025-12-03

Commentaires sur Hacker News

Notre équipe a dit plusieurs fois à notre interlocuteur AWS que nous n’avions aucun intérêt pour les instances Trainium ou Inferentia
parce qu’il n’existe aucune preuve solide d’une compatibilité stable avec des bibliothèques standard comme Transformers ou PyTorch
AWS affirme que ça fonctionne bien, mais ce n’est vrai que dans leur « happy path » avec une AMI spécifique et le neuron SDK
Dès qu’on travaille avec nos dépendances réelles, tout s’effondre
Les TPU de GCP aussi ne sont devenus vraiment utilisables qu’après que Google a massivement investi dans le support logiciel
Je n’ai pas le temps de servir de bêta-testeur pour utiliser les puces d’AWS
- Dès qu’on sort des services cœur d’AWS (S3, Dynamo, Lambda, ECS, etc.), c’est rempli de services bêta
  Il y en a peu qui soient stables, et le reste est plein d’angles rugueux
- Google a déployé des efforts énormes pour intégrer les TPU dans son écosystème
  J’ai du mal à imaginer Amazon investir à ce niveau
- Spoiler : à moins d’écrire beaucoup de code sur mesure, ça ne marche pas
J’ai vécu l’enfer en essayant de construire moi-même les conteneurs LMI dans SageMaker
La version de vLLM n’a pas été mise à jour depuis six mois, et les endpoints classiques sont inutilisables à cause d’un timeout de 60 secondes décidé il y a huit ans
Dans ces conditions, imaginer la souffrance d’un développeur qui voudrait utiliser du silicium sur mesure est terrifiant
AWS tient de grands discours sur Trainium, mais il n’y a pas un seul client sur scène pour en faire l’éloge
Ceux qui l’ont vraiment utilisé disent avoir abandonné à cause de la douleur du déploiement et de l’exploitation
En interne, ça semble beaucoup utilisé, mais l’adoption externe est quasiment inexistante
Malgré tout, je vois d’un bon œil le fait qu’Amazon investisse dans ses propres puces
- Les instances spot Inf1/Inf2 sont si peu demandées qu’elles coûtent 10 à 20 % moins cher que des instances CPU
  Trn1 n’en est pas encore là, donc quelqu’un doit quand même s’en servir
- J’ai aussi entendu dire qu’Anthropic utilisait beaucoup Trainium
  Ils semblent probablement bénéficier d’un soutien total d’AWS
  Si personne n’investit davantage dans le SDK et l’outillage, personne n’utilisera ce genre de cloud
Le concept de block floating point (MXFP8/4) est intéressant
L’IA pousse de nouveaux types de données de base qui n’avaient pas bougé depuis des décennies
Article Wikipédia sur le block floating point
Il est intéressant de constater que l’article n’explique jamais vraiment ce que fait cette puce
- L’essentiel, c’est une architecture composée de plusieurs systolic arrays 128x128
  Pour plus de détails, voir la newsletter de Semianalysis
- Comme son nom l’indique, c’est une puce pour le training
- En fin de compte, c’est une puce qui exécute des opérations vectorielles
- On dirait presque que la vraie mission de cette puce est de satisfaire les actionnaires, donc qu’il n’est pas nécessaire de l’expliquer aux développeurs
Aucune mention des performances ou des benchmarks
- On nous dit « 4 fois plus », mais ça ne veut pas dire 4 fois plus rapide, et pour la mémoire annoncée 4 fois plus grande, on n’a aucun point de comparaison
La vraie info, c’est la partie sur la « feuille de route favorable à Nvidia »
Amazon semble vouloir faire dans l’IA ce qu’il fait dans la logistique : réduire les coûts
Mais la confiance semble faible, et cela ressemble davantage à une stratégie de façade pour préserver la relation avec Nvidia
Il est intéressant de voir NVLink se diffuser
Intel participe aussi, et cela ressemble à un moment du type transition PCI → AGP
AMD a failli saisir une opportunité à l’époque de HyperTransport, mais l’actuel Infinity Fabric reste cantonné à l’interne
UALink et CXL attirent aussi l’attention, mais on reste limité par les vitesses de PCIe
Idéalement, l’intégration réseau devrait être native dans la puce
Comme à l’époque où les Intel Xeon proposaient du 100Gb Omni-Path quasiment gratuitement
- NVLink Fusion ressemble au final à un piège de dépendance à Nvidia
  On peut comprendre Intel, qui est dans l’urgence, mais voir AWS suivre la même voie ne semble pas souhaitable
  Si c’était AMD, je penserais qu’il vaudrait mieux intégrer une SolarFlare NIC dans l’I/O die
  De la même façon qu’on peut basculer PCIe/SATA, on pourrait sans doute basculer PCIe/Ethernet, mais UEC est peut-être un marché trop de niche
Publication officielle d’Amazon : Présentation de Trainium 3 UltraServer

Amazon dévoile une nouvelle puce IA Trainium3 et annonce une feuille de route de collaboration avec Nvidia

Présentation de Trainium3

Principaux clients et cas d’usage

Feuille de route du prochain chip Trainium4

Portée stratégique de l’efficacité énergétique et de la réduction des coûts

Résumé

À lire aussi

1 commentaires

Commentaires sur Hacker News