Construire 1,5 To de VRAM sur Mac Studio - RDMA basé sur Thunderbolt 5
(jeffgeerling.com)- Expérience consistant à utiliser la nouvelle fonctionnalité RDMA (Remote Direct Memory Access) sur Thunderbolt 5 ajoutée à macOS 26.2 pour faire fonctionner plusieurs Mac Studio comme un immense pool mémoire unique
- Utilisation de l’outil open source de clustering Exo 1.0 pour constituer 1,5 To de mémoire unifiée et accélérer l’exécution de grands modèles d’IA
- Le Mac Studio M3 Ultra affiche déjà de hautes performances de calcul et une bonne efficacité sur un nœud unique, et avec le RDMA, la latence d’accès mémoire passe de 300 μs à moins de 50 μs
- Il existe aussi des limites opérationnelles pour le cluster : complexité du câblage Thunderbolt 5, absence de switch, contraintes d’administration de macOS
- La combinaison de RDMA et d’Exo montre le potentiel d’extension des environnements IA et HPC sur Mac, mais la stabilité et la scalabilité doivent encore être améliorées
Aperçu de l’expérience RDMA over Thunderbolt 5
- Test de la fonction RDMA over Thunderbolt de macOS 26.2 à l’aide d’un cluster de Mac Studio fourni par Apple
- Le RDMA permet à plusieurs Mac de fonctionner comme une grande RAM unique, ce qui accélère le traitement de modèles d’IA de grande taille
- L’outil open source de clustering IA Exo 1.0 a été utilisé pour les tests
- Les 4 Mac Studio totalisant 1,5 To de mémoire unifiée représentent un coût d’environ 40 000 dollars
Historique HPC d’Apple et place du M3 Ultra
- Apple n’avait pratiquement plus rien tenté dans le HPC depuis l’époque de Xserve et Xgrid
- Le Mac Studio M3 Ultra offre des performances adaptées à l’exécution locale de modèles d’IA et, grâce au support du RDMA, la latence en cluster tombe de 300 μs à moins de 50 μs
- Il fonctionne silencieusement sous les 250 W et convient aussi aux petits calculs scientifiques et aux travaux créatifs
Configuration matérielle et réseau
- Les 2 unités du bas sont configurées avec 512 Go de RAM / CPU 32 cœurs, et les 2 unités du haut avec 256 Go de RAM
- Thunderbolt 5 fournit une bande passante effective de 50 à 60 Gbit/s, mais l’absence de switch Thunderbolt impose une interconnexion directe entre chaque Mac
- La stabilité réseau est inférieure à celle du Nvidia DGX Spark, qui utilise des ports QSFP
- Il existe un ThunderLok-A pour fixer les câbles Thunderbolt, mais il nécessiterait une modification du châssis du Mac Studio et n’a donc pas été utilisé
Benchmarks de performance du Mac Studio M3 Ultra
- Sur Geekbench, il surpasse le Dell Pro Max (GB10) et l’AMD AI Max+ 395 en mono comme en multicœur
- Sur le benchmark FP64 HPL, il dépasse 1 Tflop, soit environ 2 fois les performances du Nvidia GB10
- Il se montre aussi très performant en inférence de grands modèles d’IA, avec une excellente efficacité à consommation équivalente
- Un seul M3 Ultra devance un cluster à 2 nœuds Dell Pro Max à la fois en performances et en efficacité
Administration du cluster et contraintes de macOS
- macOS ne permet pas les mises à niveau système via SSH et impose une manipulation via l’interface graphique
- L’administration à distance a été réalisée avec Screen Sharing
- Par rapport à Linux, l’automatisation de l’administration d’un cluster est plus difficile, avec en plus l’absence d’outils MDM
Tests HPL et Llama.cpp
- HPL atteint 1,3 Tflops sur un nœud unique, et 3,7 Tflops sur 4 nœuds, soit une amélioration d’environ 3 fois
- Une connexion TCP via Thunderbolt a provoqué des crashs système ; sans RDMA, l’ensemble reste instable
- Dans les tests Llama.cpp, Thunderbolt 5 affiche une latence plus faible que l’Ethernet 2,5 Gbit/s
Activation du RDMA et tests avec Exo 1.0
- Procédure d’activation du RDMA : démarrage en mode de récupération → exécution de la commande
rdma_ctl enable→ redémarrage - Exo 1.0 est le seul outil à prendre en charge le RDMA et permet d’exécuter en mode distribué sur plusieurs Mac des modèles de plus de 600 Go (comme Kimi K2 Thinking)
- Llama.cpp distribue les couches du modèle via une approche RPC, mais de façon inefficace
- Exo améliore les performances à mesure que le nombre de nœuds augmente, atteignant 32 tokens par seconde sur le modèle Qwen3 235B
- Les modèles DeepSeek V3.1 et Kimi K2 Thinking (1 trillion de paramètres) ont également pu être exécutés
Problèmes de stabilité et enjeux open source
- Les tests ont été réalisés sur la base d’un logiciel en préversion (pre-release), ce qui entraîne des instabilités
- Quand le RDMA fonctionne, les performances sont excellentes, mais en cas d’échec, il faut redémarrer l’ensemble du cluster
- L’équipe de développement d’Exo a repris ses activités après une interruption, et le projet est publié sous licence Apache 2.0
- Des inquiétudes sont évoquées au sujet d’un processus de développement non public lié à la collaboration avec Apple
Travaux à venir et questions non résolues
- Sortie éventuelle d’un M5 Ultra et possibilité d’amélioration des performances en machine learning
- Nécessité d’améliorer le clustering via le retour de l’extensibilité PCIe du Mac Pro
- Possibilité de partage de fichiers à haute vitesse avec le support de SMB Direct
- Attente d’un élargissement du support RDMA à d’autres logiciels comme Llama.cpp
Conclusion
- La combinaison de RDMA et d’Exo élargit fortement les possibilités du Mac Studio pour l’IA et le HPC
- Mais les limites structurelles de Thunderbolt 5 et les contraintes d’administration de macOS restent des goulets d’étranglement
- Une amélioration de la scalabilité réseau, notamment via l’adoption de ports QSFP, est nécessaire
- Même une fois l’engouement autour de l’IA retombé, le Mac Studio conserve sa valeur comme station de travail silencieuse et puissante
2 commentaires
Ça me rappelle impala.
Réactions sur Hacker News
Voici ce que j’attends du M5 Max/Ultra
J’aimerais qu’il prenne en charge des liens QSFP (200Gb/s et plus) de niveau DGX au lieu de Thunderbolt. L’architecture RDMA est élégante, mais à ces vitesses-là, sinon, l’intérêt économique diminue
Je voudrais réduire le temps de prefill des prompts avec un accélérateur neuronal. Même sans aller jusqu’au niveau d’une RTX 6000, quelque chose comme une 3090/4090 suffirait
J’attends 1 To de mémoire unifiée sur la version la plus haut de gamme du Mac Studio. Je pense qu’augmenter la mémoire est plus efficace que multiplier les machines
J’aimerais aussi que la bande passante passe à +1 To/s. Elle stagne à 800GB/s depuis les trois dernières générations
Ce serait bien d’avoir aussi une fonction d’overclocking. Le Mac Studio n’est pas un portable, donc consommer plus de 600 W me semblerait acceptable. Aujourd’hui, il est limité à environ 250 W
De plus, cette configuration RDMA ne permet de relier que 4 Mac au maximum, car tous les Mac doivent être connectés directement entre eux. C’est pourquoi je pense qu’Apple devrait investir dans des liens haut débit comme QSFP
Et je me demande aussi s’il est vraiment nécessaire que tous les Mac soient connectés en mesh complet. Thunderbolt ne fonctionne-t-il pas au-dessus de RDMA comme une interface réseau ?
Je me demande pourquoi Apple propose une fonctionnalité comme RDMA, pensée pour les clusters de serveurs, tout en ignorant des améliorations de base comme l’administration à distance ou le format rack
Je me dis qu’ils utilisent peut-être en interne des serveurs à base de puces M, et que cette fonctionnalité en est un sous-produit
Le travail de Jeff est vraiment impressionnant. Les infos sur RDMA via Thunderbolt étaient aussi très intéressantes
Et surtout, merci à Jeff pour son énergie positive et ses contributions constantes
Linux prend en charge RDMA, mais pas encore sur Thunderbolt. Il faudrait sans doute beaucoup de travail pour y arriver
Ce serait formidable de pouvoir relier 2 ou 3 boîtiers Strix Halo bon marché (128GB DDR5-8000, 2 ports USB4) pour faire tourner de gros modèles
À l’heure actuelle, Thunderbolt n’a pas de switch, ce qui limite la taille du cluster
Je me demande si on pourrait utiliser RoCE (RDMA over Converged Ethernet) à la place. J’ai entendu dire que RDMA était 7 à 10 fois plus rapide que TCP
Il existe aussi des adaptateurs Ethernet Thunderbolt de 10G à 80G, mais la latence peut poser problème
S’il y avait un slot PCIe, il suffirait d’insérer une carte Infiniband, mais au final tout dépend du driver
C’est surprenant qu’Apple ait inclus le driver MLX5 jusqu’à iPadOS. Voir ce billet de blog
ibv_devicesJ’aimerais voir des mesures séparées pour la vitesse d’entrée (prefill) et la vitesse de sortie (decode)
Dans un billet d’Exo, il était indiqué que ces deux vitesses différaient sensiblement sur le matériel Mac
Je pense proposer à l’équipe Exo d’ajouter une fonction de benchmark
J’ai trouvé intéressant que Thunderbolt 5 ne soit pas aussi écrasant qu’on pourrait le penser
Face à l’Ethernet 2,5Gbps, le TB5 n’était qu’environ 10 % plus rapide. Le M3 Studio prend en charge l’Ethernet 10Gbps, mais cela n’a pas été testé
Le TB5 impose que tous les CPU soient directement reliés entre eux, d’où la limite à 4 machines. Avec un switch Ethernet, on peut en revanche connecter davantage de nœuds
Chaque nœud du cluster dispose de 512 Go de RAM. Le modèle DeepSeek V3.1 demande 700 Go de RAM
Je trouve curieux qu’en passant d’un nœud à deux, la vitesse d’inférence n’augmente que de 32 %. Même avec 4 nœuds, le gain reste inférieur à 50 %
Il semble y avoir un goulot d’étranglement
Cette architecture où tous les nœuds sont reliés entre eux me rappelle le NUMALink de SGI.
Les supercalculateurs SGI reliaient chaque nœud à tous les autres avec deux liens. Cela faisait beaucoup de câbles, mais évitait d’avoir à se soucier du framing ou du contrôle de congestion
C’est la même logique que dans les systèmes modernes de trading haute fréquence, où l’on place les processus en tenant compte des cœurs CPU et de l’emplacement des DIMM
J’ai aimé plusieurs détails intéressants relevés dans l’article
La mystérieuse disparition d’Exo, le fait que Jeff veuille SMB Direct sur Mac, la vitesse d’inférence du M3 Ultra, et même le desktop Framework AI à 2100 $
J’ai l’impression d’avoir découvert un nouveau terrier de lapin (rabbit hole)