- Expérience consistant à utiliser la nouvelle fonctionnalité RDMA (Remote Direct Memory Access) sur Thunderbolt 5 ajoutée à macOS 26.2 pour faire fonctionner plusieurs Mac Studio comme un immense pool mémoire unique
- Utilisation de l’outil open source de clustering Exo 1.0 pour constituer 1,5 To de mémoire unifiée et accélérer l’exécution de grands modèles d’IA
- Le Mac Studio M3 Ultra affiche déjà de hautes performances de calcul et une bonne efficacité sur un nœud unique, et avec le RDMA, la latence d’accès mémoire passe de 300 μs à moins de 50 μs
- Il existe aussi des limites opérationnelles pour le cluster : complexité du câblage Thunderbolt 5, absence de switch, contraintes d’administration de macOS
- La combinaison de RDMA et d’Exo montre le potentiel d’extension des environnements IA et HPC sur Mac, mais la stabilité et la scalabilité doivent encore être améliorées
Aperçu de l’expérience RDMA over Thunderbolt 5
- Test de la fonction RDMA over Thunderbolt de macOS 26.2 à l’aide d’un cluster de Mac Studio fourni par Apple
- Le RDMA permet à plusieurs Mac de fonctionner comme une grande RAM unique, ce qui accélère le traitement de modèles d’IA de grande taille
- L’outil open source de clustering IA Exo 1.0 a été utilisé pour les tests
- Les 4 Mac Studio totalisant 1,5 To de mémoire unifiée représentent un coût d’environ 40 000 dollars
Historique HPC d’Apple et place du M3 Ultra
- Apple n’avait pratiquement plus rien tenté dans le HPC depuis l’époque de Xserve et Xgrid
- Le Mac Studio M3 Ultra offre des performances adaptées à l’exécution locale de modèles d’IA et, grâce au support du RDMA, la latence en cluster tombe de 300 μs à moins de 50 μs
- Il fonctionne silencieusement sous les 250 W et convient aussi aux petits calculs scientifiques et aux travaux créatifs
Configuration matérielle et réseau
- Les 2 unités du bas sont configurées avec 512 Go de RAM / CPU 32 cœurs, et les 2 unités du haut avec 256 Go de RAM
- Thunderbolt 5 fournit une bande passante effective de 50 à 60 Gbit/s, mais l’absence de switch Thunderbolt impose une interconnexion directe entre chaque Mac
- La stabilité réseau est inférieure à celle du Nvidia DGX Spark, qui utilise des ports QSFP
- Il existe un ThunderLok-A pour fixer les câbles Thunderbolt, mais il nécessiterait une modification du châssis du Mac Studio et n’a donc pas été utilisé
Benchmarks de performance du Mac Studio M3 Ultra
- Sur Geekbench, il surpasse le Dell Pro Max (GB10) et l’AMD AI Max+ 395 en mono comme en multicœur
- Sur le benchmark FP64 HPL, il dépasse 1 Tflop, soit environ 2 fois les performances du Nvidia GB10
- Il se montre aussi très performant en inférence de grands modèles d’IA, avec une excellente efficacité à consommation équivalente
- Un seul M3 Ultra devance un cluster à 2 nœuds Dell Pro Max à la fois en performances et en efficacité
Administration du cluster et contraintes de macOS
- macOS ne permet pas les mises à niveau système via SSH et impose une manipulation via l’interface graphique
- L’administration à distance a été réalisée avec Screen Sharing
- Par rapport à Linux, l’automatisation de l’administration d’un cluster est plus difficile, avec en plus l’absence d’outils MDM
Tests HPL et Llama.cpp
- HPL atteint 1,3 Tflops sur un nœud unique, et 3,7 Tflops sur 4 nœuds, soit une amélioration d’environ 3 fois
- Une connexion TCP via Thunderbolt a provoqué des crashs système ; sans RDMA, l’ensemble reste instable
- Dans les tests Llama.cpp, Thunderbolt 5 affiche une latence plus faible que l’Ethernet 2,5 Gbit/s
Activation du RDMA et tests avec Exo 1.0
- Procédure d’activation du RDMA : démarrage en mode de récupération → exécution de la commande
rdma_ctl enable → redémarrage
- Exo 1.0 est le seul outil à prendre en charge le RDMA et permet d’exécuter en mode distribué sur plusieurs Mac des modèles de plus de 600 Go (comme Kimi K2 Thinking)
- Llama.cpp distribue les couches du modèle via une approche RPC, mais de façon inefficace
- Exo améliore les performances à mesure que le nombre de nœuds augmente, atteignant 32 tokens par seconde sur le modèle Qwen3 235B
- Les modèles DeepSeek V3.1 et Kimi K2 Thinking (1 trillion de paramètres) ont également pu être exécutés
Problèmes de stabilité et enjeux open source
- Les tests ont été réalisés sur la base d’un logiciel en préversion (pre-release), ce qui entraîne des instabilités
- Quand le RDMA fonctionne, les performances sont excellentes, mais en cas d’échec, il faut redémarrer l’ensemble du cluster
- L’équipe de développement d’Exo a repris ses activités après une interruption, et le projet est publié sous licence Apache 2.0
- Des inquiétudes sont évoquées au sujet d’un processus de développement non public lié à la collaboration avec Apple
Travaux à venir et questions non résolues
- Sortie éventuelle d’un M5 Ultra et possibilité d’amélioration des performances en machine learning
- Nécessité d’améliorer le clustering via le retour de l’extensibilité PCIe du Mac Pro
- Possibilité de partage de fichiers à haute vitesse avec le support de SMB Direct
- Attente d’un élargissement du support RDMA à d’autres logiciels comme Llama.cpp
Conclusion
- La combinaison de RDMA et d’Exo élargit fortement les possibilités du Mac Studio pour l’IA et le HPC
- Mais les limites structurelles de Thunderbolt 5 et les contraintes d’administration de macOS restent des goulets d’étranglement
- Une amélioration de la scalabilité réseau, notamment via l’adoption de ports QSFP, est nécessaire
- Même une fois l’engouement autour de l’IA retombé, le Mac Studio conserve sa valeur comme station de travail silencieuse et puissante
Aucun commentaire pour le moment.