- AWS a annoncé le Trainium3 UltraServer, équipé de la puce Trainium3 gravée en 3 nanomètres, avec une hausse significative des performances d’apprentissage et d’inférence d’IA
- Le nouveau système offre une vitesse 4 fois plus rapide et 4 fois plus de mémoire que la génération précédente, ainsi qu’une efficacité énergétique supérieure de 40%
- Il est possible de connecter jusqu’à 1 million de puces Trainium3, ce qui le rend adapté au traitement d’applications d’IA à grande échelle
- Des clients comme Anthropic, Karakuri, SplashMusic, Decart l’utilisent déjà et ont confirmé une réduction des coûts d’inférence
- AWS a annoncé que Trainium4 prendra en charge Nvidia NVLink Fusion, ce qui permettra l’interopérabilité avec les GPU Nvidia, ce qui est vu comme un tournant majeur dans la compétition des infrastructures d’IA
Présentation de Trainium3
- AWS a officiellement présenté le Trainium3 UltraServer lors de l’événement re:Invent 2025
- Ce système est propulsé par la puce Trainium3 3 nanomètres et la technologie réseau propriétaire d’AWS
- AWS indique que les performances sont nettement améliorées par rapport à la 2e génération pour l’apprentissage et l’inférence d’IA
- AWS a indiqué que le système Trainium3 offre une vitesse de traitement 4 fois plus élevée et une capacité mémoire 4 fois plus importante
- Chaque UltraServer intègre 144 puces
- En connectant des milliers de serveurs, il est possible d’utiliser jusqu’à 1 million de puces pour une même application
- La nouvelle puce offre une amélioration de 40% de l’efficacité énergétique, contribuant à réduire la consommation électrique dans les centres de données à grande échelle
- AWS a souligné qu’elle permettrait également de réduire les coûts des clients d’IA sur le cloud
Principaux clients et cas d’usage
- Anthropic, Karakuri, la LLM japonaise, SplashMusic et Decart utilisent déjà Trainium3
- AWS explique que ces clients ont considérablement réduit les coûts d’inférence
- AWS a précisé que ces gains de performance et de coût constituent une base pour améliorer l’évolutivité des applications d’IA
Feuille de route du prochain chip Trainium4
- AWS a annoncé que Trainium4 est déjà en cours de développement et prendra en charge la technologie de surconnexion haute vitesse Nvidia NVLink Fusion
- Cela rendra possible l’interopérabilité avec les GPU Nvidia et permettra une combinaison avec la technologie de rack serveur à faible coût d’AWS
- Alors que Nvidia CUDA est devenu le standard dans les applications IA les plus importantes, le système Trainium4 pourrait faciliter la migration vers le cloud AWS d’applications basées sur les GPU Nvidia
- La date de lancement de Trainium4 n’a pas été communiquée ; des informations complémentaires pourraient être annoncées lors du re:Invent de l’an prochain
Portée stratégique de l’efficacité énergétique et de la réduction des coûts
- AWS met en place des systèmes de « consommation réduite » dans un contexte de hausse rapide de la consommation électrique des centres de données
- Cette approche est perçue comme une tentative de répondre simultanément à deux objectifs : réduire les coûts d’exploitation et garantir la durabilité
- La stratégie d’AWS, centrée sur la réduction des coûts, pourrait renforcer son attractivité auprès des clients cloud dans la concurrence des infrastructures IA
Résumé
- Trainium3 est une puce IA de 3e génération avec de fortes améliorations de performance, mémoire et efficacité
- Trainium4 vise à élargir l’écosystème AWS grâce à la compatibilité avec Nvidia
- AWS recherche simultanément une infrastructure IA haute performance, faible coût et écoresponsable, avec l’objectif de renforcer sa compétitivité sur le marché du cloud IA
1 commentaires
Commentaires sur Hacker News
parce qu’il n’existe aucune preuve solide d’une compatibilité stable avec des bibliothèques standard comme Transformers ou PyTorch
AWS affirme que ça fonctionne bien, mais ce n’est vrai que dans leur « happy path » avec une AMI spécifique et le neuron SDK
Dès qu’on travaille avec nos dépendances réelles, tout s’effondre
Les TPU de GCP aussi ne sont devenus vraiment utilisables qu’après que Google a massivement investi dans le support logiciel
Je n’ai pas le temps de servir de bêta-testeur pour utiliser les puces d’AWS
Il y en a peu qui soient stables, et le reste est plein d’angles rugueux
J’ai du mal à imaginer Amazon investir à ce niveau
La version de vLLM n’a pas été mise à jour depuis six mois, et les endpoints classiques sont inutilisables à cause d’un timeout de 60 secondes décidé il y a huit ans
Dans ces conditions, imaginer la souffrance d’un développeur qui voudrait utiliser du silicium sur mesure est terrifiant
Ceux qui l’ont vraiment utilisé disent avoir abandonné à cause de la douleur du déploiement et de l’exploitation
En interne, ça semble beaucoup utilisé, mais l’adoption externe est quasiment inexistante
Malgré tout, je vois d’un bon œil le fait qu’Amazon investisse dans ses propres puces
Trn1 n’en est pas encore là, donc quelqu’un doit quand même s’en servir
Ils semblent probablement bénéficier d’un soutien total d’AWS
Si personne n’investit davantage dans le SDK et l’outillage, personne n’utilisera ce genre de cloud
L’IA pousse de nouveaux types de données de base qui n’avaient pas bougé depuis des décennies
Article Wikipédia sur le block floating point
Pour plus de détails, voir la newsletter de Semianalysis
Amazon semble vouloir faire dans l’IA ce qu’il fait dans la logistique : réduire les coûts
Mais la confiance semble faible, et cela ressemble davantage à une stratégie de façade pour préserver la relation avec Nvidia
Intel participe aussi, et cela ressemble à un moment du type transition PCI → AGP
AMD a failli saisir une opportunité à l’époque de HyperTransport, mais l’actuel Infinity Fabric reste cantonné à l’interne
UALink et CXL attirent aussi l’attention, mais on reste limité par les vitesses de PCIe
Idéalement, l’intégration réseau devrait être native dans la puce
Comme à l’époque où les Intel Xeon proposaient du 100Gb Omni-Path quasiment gratuitement
On peut comprendre Intel, qui est dans l’urgence, mais voir AWS suivre la même voie ne semble pas souhaitable
Si c’était AMD, je penserais qu’il vaudrait mieux intégrer une SolarFlare NIC dans l’I/O die
De la même façon qu’on peut basculer PCIe/SATA, on pourrait sans doute basculer PCIe/Ethernet, mais UEC est peut-être un marché trop de niche