Aperçu du projet Dojo de Tesla

(perspectives.mvdirona.com)

11 points par xguru 2021-08-24 | 1 commentaires | Partager sur WhatsApp

Article de James Hamilton, VP chez AWS

Le système de machine learning Dojo est intéressant sous trois aspects

Un réseau à grande échelle

→ Chaque puce D1 fournit 160 Gbps de connectivité (4 canaux de 4 Tbps) et est combinée en MCM à 25 puces (Multi-Chip Modules), pour offrir une bande passante de 360 Gbps (4x 9 Tb)

Un ratio mémoire/calcul extrêmement faible

→ Chaque puce D1 comprend 354 unités fonctionnelles, chacune ne disposant que de 1,25 méga de SRAM et d'aucune DRAM ; une puce D1 dispose donc de moins d'un demi-giga de mémoire (442,5 Mb)

→ Un grand pool de DRAM est placé à l'extrémité d'un ensemble de 5 racks, et les racks de calcul eux-mêmes n'ont pas de DRAM

→ Si l'on se demande comment cela peut fonctionner avec aussi peu de mémoire, c'est probablement grâce à la combinaison d'une énorme bande passante réseau et d'un système conçu pour exécuter des modèles de vision qui utilisent bien moins de mémoire que les tâches classiques d'entraînement ML

Une densité de puissance impressionnante

→ Chaque puce D1 ne consomme que 400 W ; c'est conforme aux estimations les plus récentes pour cette taille, mais le fait de les regrouper dans un MCM très dense de 25 puces permet de limiter la consommation à 15 kW (10 kW pour les D1 et 5 kW pour les régulateurs de tension)

→ Cela signifie qu'un système d'entraînement Dojo de 10 racks entièrement rempli atteint 1,8 mégawatt

→ À titre de comparaison, un data center de taille moyenne fonctionnerait dans une plage de 30 à 40 mégawatts

Détail mineur, mais placer le VRD (Voltage Regulator Down) directement sur la tuile semble être une bonne tentative pour fournir une alimentation inhabituellement élevée de 52 V. Même en tenant compte d'une consommation de 15 kW, cela représente encore 288 A à 52 V
354 unités fonctionnelles sont intégrées dans une puce D1 de 645 mm^2. 25 puces D1 forment un module multi-puce appelé training tile, 12 training tiles composent un rack, et 10 racks remplissent un Exapod.
« Un système remarquablement innovant »

1 commentaires

xguru 2021-08-24

À lire aussi : des articles sur le Tesla AI Day

Impressions sur le Tesla AI Day https://fr.news.hada.io/topic?id=4859
Résumé du contenu du Tesla AI Day.gif https://gall.dcinside.com/mgallery/board/…
Version complète partie 1 du Tesla AI Day avec sous-titres français https://www.youtube.com/watch?v=Ah-TMrKSvic