- Tesla a présenté en open source Tesla Transport Protocol over Ethernet (TTPoE) lors de HotChips 2024
- Tesla a rejoint l'Ultra Ethernet Consortium (UEC) pour partager ce protocole et travailler à la normalisation d'une nouvelle fabric haut débit et à faible latence pour l'IA/ML et les datacenters
- TTPoE vise à être non propriétaire, peu coûteux, avec un contrôle de congestion distribué, des trames EthernetII standard et un protocole d'interconnexion décentralisé
- Caractéristiques de TTPoE
- Comme TCP, il autorise la perte de paquets et la retransmission, tout en garantissant la transmission complète
- Le déploiement initial de TTPoE a eu lieu dans le projet Tesla Dojo v1
- Le protocole fonctionne entièrement dans le matériel et a été déployé sur un superordinateur multi-exaflop (fp16) extrêmement massif avec des dizaines de milliers de endpoints simultanés
- Ce protocole peut établir et faire fonctionner des liens sans intervention du CPU ni de l'OS
- Ce protocole n'est ni complexe ni « intelligent », mais repose sur des principes de base
- Le transport Ethernet consiste fondamentalement à déplacer des données de A vers B et ne devrait être limité que par les contraintes physiques
- Dans des systèmes à très grande échelle, la gestion centralisée de la congestion est une tentative vouée à l'échec, et chaque endpoint doit être résilient et s'autogérer
L'avis de GN⁺
- TTPoE est une tentative intéressante pour dépasser les limites du protocole TCP existant dans les environnements de calcul haute performance
- L'objectif principal semble être de minimiser la latence et de maximiser le débit grâce à l'offload matériel et à une machine à états simplifiée
- TTPoE a le potentiel d'améliorer la vitesse de transfert des données et la latence dans les domaines de l'IA et du ML
- Le fait que Tesla ait publié ce protocole en open source devrait contribuer à accélérer l'innovation dans le domaine du HPC
- Cela dit, il semble difficile que TTPoE remplace complètement TCP sur les réseaux généralistes ; il s'agit plutôt d'une solution optimisée pour des réseaux dédiés de haute qualité. Pour une adoption large de TTPoE, la standardisation et la construction d'un écosystème seront essentielles
- Parmi les protocoles aux fonctionnalités similaires figurent RoCE (RDMA over Converged Ethernet) et NVLink
1 commentaires
Il y a aussi un autre article qui explique TTPoE plus en détail.
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications
Présentation de TTPoE
Pourquoi TTPoE est nécessaire
Caractéristiques de TTPoE
Contrôle de congestion de TTPoE
Implémentation matérielle de TTPoE
Mojo NIC
Résumé