4 points par GN⁺ 2024-09-24 | 1 commentaires | Partager sur WhatsApp
  • Tesla a présenté en open source Tesla Transport Protocol over Ethernet (TTPoE) lors de HotChips 2024
  • Tesla a rejoint l'Ultra Ethernet Consortium (UEC) pour partager ce protocole et travailler à la normalisation d'une nouvelle fabric haut débit et à faible latence pour l'IA/ML et les datacenters
  • TTPoE vise à être non propriétaire, peu coûteux, avec un contrôle de congestion distribué, des trames EthernetII standard et un protocole d'interconnexion décentralisé
  • Caractéristiques de TTPoE
    • Comme TCP, il autorise la perte de paquets et la retransmission, tout en garantissant la transmission complète
    • Le déploiement initial de TTPoE a eu lieu dans le projet Tesla Dojo v1
      • Le protocole fonctionne entièrement dans le matériel et a été déployé sur un superordinateur multi-exaflop (fp16) extrêmement massif avec des dizaines de milliers de endpoints simultanés
    • Ce protocole peut établir et faire fonctionner des liens sans intervention du CPU ni de l'OS
  • Ce protocole n'est ni complexe ni « intelligent », mais repose sur des principes de base
    • Le transport Ethernet consiste fondamentalement à déplacer des données de A vers B et ne devrait être limité que par les contraintes physiques
    • Dans des systèmes à très grande échelle, la gestion centralisée de la congestion est une tentative vouée à l'échec, et chaque endpoint doit être résilient et s'autogérer

L'avis de GN⁺

  • TTPoE est une tentative intéressante pour dépasser les limites du protocole TCP existant dans les environnements de calcul haute performance
  • L'objectif principal semble être de minimiser la latence et de maximiser le débit grâce à l'offload matériel et à une machine à états simplifiée
  • TTPoE a le potentiel d'améliorer la vitesse de transfert des données et la latence dans les domaines de l'IA et du ML
  • Le fait que Tesla ait publié ce protocole en open source devrait contribuer à accélérer l'innovation dans le domaine du HPC
  • Cela dit, il semble difficile que TTPoE remplace complètement TCP sur les réseaux généralistes ; il s'agit plutôt d'une solution optimisée pour des réseaux dédiés de haute qualité. Pour une adoption large de TTPoE, la standardisation et la construction d'un écosystème seront essentielles
  • Parmi les protocoles aux fonctionnalités similaires figurent RoCE (RDMA over Converged Ethernet) et NVLink

1 commentaires

 
xguru 2024-09-24

Il y a aussi un autre article qui explique TTPoE plus en détail.
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications

Présentation de TTPoE

  • Tesla a présenté le superordinateur Dojo au Hot Chips 2023, utilisé pour l’apprentissage automatique avec un accent sur des applications automobiles comme la conduite autonome
  • Les données d’entraînement traitent de la vidéo, ce qui exige une grande bande passante d’E/S, et la taille d’un seul tenseur peut atteindre 1,7 Go dans le cas des applications de vision de Tesla
  • Tesla a constaté que le débit du superordinateur Dojo pouvait être limité par la vitesse à laquelle les machines hôtes poussent les données vers le superordinateur

Pourquoi TTPoE est nécessaire

  • Tesla a résolu ce problème en ajoutant davantage d’hôtes et en trouvant un moyen de connecter à moindre coût ces hôtes supplémentaires au superordinateur
  • Au lieu de solutions réseau de supercalcul classiques comme InfiniBand, Tesla a choisi d’adapter Ethernet à ses besoins avec une couche de transport modifiée
  • TCP est remplacé par Tesla Transport Protocol over Ethernet (TTPoE), conçu pour offrir une latence de l’ordre de la microseconde et permettre un offload matériel simple

Caractéristiques de TTPoE

  • TTPoE a été conçu pour être entièrement traité en matériel et offrir une meilleure latence que le protocole TCP standard
  • La machine à états de TTPoE est fortement simplifiée par rapport à celle de TCP
  • La suppression des états d’attente de TCP réduit la latence
  • TTP supprime l’état TIME_WAIT et fait passer la séquence de fermeture de connexion de trois transmissions à deux
  • Le handshake en 3 étapes de TCP est remplacé par un handshake en 2 étapes afin de réduire la latence d’établissement de connexion

Contrôle de congestion de TTPoE

  • Comme TCP, Tesla utilise la perte de paquets pour le contrôle de congestion
  • Comme le système a été conçu pour fonctionner sur un réseau de base à faible latence, Tesla a pu adopter une approche de force brute face au problème
  • Les implémentations TCP traditionnelles maintiennent une fenêtre de congestion glissante, mais TTP ne le fait pas
  • Le matériel suit les données transmises dans un tampon SRAM, ce qui définit la taille de la fenêtre de congestion
  • Les algorithmes traditionnels de contrôle de congestion de TCP opèrent sur une échelle de temps trop longue pour être efficaces dans les applications du superordinateur Dojo de Tesla

Implémentation matérielle de TTPoE

  • Tesla traite le protocole TTP dans un bloc matériel placé entre la puce et le matériel Ethernet standard
  • Ce bloc matériel MAC a été conçu par des concepteurs CPU et reprend de nombreuses caractéristiques de conception CPU
  • L’intervenant a expliqué qu’il fonctionne comme un cache partagé, et que l’arbitre choisit parmi les requêtes en tenant compte des risques d’ordre
  • L’une des ressources les plus marquantes est un tampon SRAM de transmission de 1 Mo qui, comme mentionné plus haut, définit la fenêtre de congestion

Mojo NIC

  • Le TPP MAC est implémenté dans ce que Tesla appelle une « Dumb-NIC »
  • Elle est qualifiée de « dumb » parce qu’elle est aussi peu coûteuse et aussi simple que possible
  • Tesla cherche à déployer un grand nombre de nœuds hôtes pour alimenter en données le superordinateur Dojo, et l’utilisation de cartes réseau bon marché permet d’y parvenir de manière rentable
  • Le nom Mojo vient de l’idée que des nœuds hôtes supplémentaires apportent davantage de Mojo à Dojo pour maintenir les performances
  • Les cartes Mojo sont installées dans des machines hôtes distantes, et si les ingénieurs ont besoin de plus de bande passante pour alimenter le superordinateur Dojo en données, ils peuvent mobiliser d’autres machines hôtes distantes depuis un pool

Résumé

  • Mojo et le protocole TTPoE offrent un éclairage intéressant sur la manière dont le protocole de contrôle de transmission bien connu (TCP) peut être simplifié pour une utilisation dans des réseaux internes de supercalculateurs de haute qualité
  • En théorie, ce protocole pourrait fonctionner sur Internet, mais des simplifications comme une fenêtre de congestion fixe ne fonctionneraient probablement pas bien sur des liaisons de moindre qualité vers des fournisseurs d’accès à Internet et au-delà
  • Par rapport à d’autres solutions réseau de supercalcul comme InfiniBand, un protocole de transport personnalisé sur Ethernet peut fournir suffisamment de bande passante supplémentaire pour répondre aux besoins de Dojo