6 points par GN⁺ 2025-12-19 | 2 commentaires | Partager sur WhatsApp
  • Expérience consistant à utiliser la nouvelle fonctionnalité RDMA (Remote Direct Memory Access) sur Thunderbolt 5 ajoutée à macOS 26.2 pour faire fonctionner plusieurs Mac Studio comme un immense pool mémoire unique
  • Utilisation de l’outil open source de clustering Exo 1.0 pour constituer 1,5 To de mémoire unifiée et accélérer l’exécution de grands modèles d’IA
  • Le Mac Studio M3 Ultra affiche déjà de hautes performances de calcul et une bonne efficacité sur un nœud unique, et avec le RDMA, la latence d’accès mémoire passe de 300 μs à moins de 50 μs
  • Il existe aussi des limites opérationnelles pour le cluster : complexité du câblage Thunderbolt 5, absence de switch, contraintes d’administration de macOS
  • La combinaison de RDMA et d’Exo montre le potentiel d’extension des environnements IA et HPC sur Mac, mais la stabilité et la scalabilité doivent encore être améliorées

Aperçu de l’expérience RDMA over Thunderbolt 5

  • Test de la fonction RDMA over Thunderbolt de macOS 26.2 à l’aide d’un cluster de Mac Studio fourni par Apple
    • Le RDMA permet à plusieurs Mac de fonctionner comme une grande RAM unique, ce qui accélère le traitement de modèles d’IA de grande taille
  • L’outil open source de clustering IA Exo 1.0 a été utilisé pour les tests
  • Les 4 Mac Studio totalisant 1,5 To de mémoire unifiée représentent un coût d’environ 40 000 dollars

Historique HPC d’Apple et place du M3 Ultra

  • Apple n’avait pratiquement plus rien tenté dans le HPC depuis l’époque de Xserve et Xgrid
  • Le Mac Studio M3 Ultra offre des performances adaptées à l’exécution locale de modèles d’IA et, grâce au support du RDMA, la latence en cluster tombe de 300 μs à moins de 50 μs
  • Il fonctionne silencieusement sous les 250 W et convient aussi aux petits calculs scientifiques et aux travaux créatifs
Publicité

Configuration matérielle et réseau

  • Les 2 unités du bas sont configurées avec 512 Go de RAM / CPU 32 cœurs, et les 2 unités du haut avec 256 Go de RAM
  • Thunderbolt 5 fournit une bande passante effective de 50 à 60 Gbit/s, mais l’absence de switch Thunderbolt impose une interconnexion directe entre chaque Mac
  • La stabilité réseau est inférieure à celle du Nvidia DGX Spark, qui utilise des ports QSFP
  • Il existe un ThunderLok-A pour fixer les câbles Thunderbolt, mais il nécessiterait une modification du châssis du Mac Studio et n’a donc pas été utilisé

Benchmarks de performance du Mac Studio M3 Ultra

  • Sur Geekbench, il surpasse le Dell Pro Max (GB10) et l’AMD AI Max+ 395 en mono comme en multicœur
  • Sur le benchmark FP64 HPL, il dépasse 1 Tflop, soit environ 2 fois les performances du Nvidia GB10
  • Il se montre aussi très performant en inférence de grands modèles d’IA, avec une excellente efficacité à consommation équivalente
  • Un seul M3 Ultra devance un cluster à 2 nœuds Dell Pro Max à la fois en performances et en efficacité

Administration du cluster et contraintes de macOS

  • macOS ne permet pas les mises à niveau système via SSH et impose une manipulation via l’interface graphique
  • L’administration à distance a été réalisée avec Screen Sharing
  • Par rapport à Linux, l’automatisation de l’administration d’un cluster est plus difficile, avec en plus l’absence d’outils MDM

Tests HPL et Llama.cpp

  • HPL atteint 1,3 Tflops sur un nœud unique, et 3,7 Tflops sur 4 nœuds, soit une amélioration d’environ 3 fois
  • Une connexion TCP via Thunderbolt a provoqué des crashs système ; sans RDMA, l’ensemble reste instable
  • Dans les tests Llama.cpp, Thunderbolt 5 affiche une latence plus faible que l’Ethernet 2,5 Gbit/s
Publicité

Activation du RDMA et tests avec Exo 1.0

  • Procédure d’activation du RDMA : démarrage en mode de récupération → exécution de la commande rdma_ctl enable → redémarrage
  • Exo 1.0 est le seul outil à prendre en charge le RDMA et permet d’exécuter en mode distribué sur plusieurs Mac des modèles de plus de 600 Go (comme Kimi K2 Thinking)
  • Llama.cpp distribue les couches du modèle via une approche RPC, mais de façon inefficace
  • Exo améliore les performances à mesure que le nombre de nœuds augmente, atteignant 32 tokens par seconde sur le modèle Qwen3 235B
  • Les modèles DeepSeek V3.1 et Kimi K2 Thinking (1 trillion de paramètres) ont également pu être exécutés

Problèmes de stabilité et enjeux open source

  • Les tests ont été réalisés sur la base d’un logiciel en préversion (pre-release), ce qui entraîne des instabilités
  • Quand le RDMA fonctionne, les performances sont excellentes, mais en cas d’échec, il faut redémarrer l’ensemble du cluster
  • L’équipe de développement d’Exo a repris ses activités après une interruption, et le projet est publié sous licence Apache 2.0
  • Des inquiétudes sont évoquées au sujet d’un processus de développement non public lié à la collaboration avec Apple

Travaux à venir et questions non résolues

  • Sortie éventuelle d’un M5 Ultra et possibilité d’amélioration des performances en machine learning
  • Nécessité d’améliorer le clustering via le retour de l’extensibilité PCIe du Mac Pro
  • Possibilité de partage de fichiers à haute vitesse avec le support de SMB Direct
  • Attente d’un élargissement du support RDMA à d’autres logiciels comme Llama.cpp

Conclusion

  • La combinaison de RDMA et d’Exo élargit fortement les possibilités du Mac Studio pour l’IA et le HPC
  • Mais les limites structurelles de Thunderbolt 5 et les contraintes d’administration de macOS restent des goulets d’étranglement
  • Une amélioration de la scalabilité réseau, notamment via l’adoption de ports QSFP, est nécessaire
  • Même une fois l’engouement autour de l’IA retombé, le Mac Studio conserve sa valeur comme station de travail silencieuse et puissante

2 commentaires

 
kaydash 2025-12-21

Ça me rappelle impala.

 
GN⁺ 2025-12-19
Réactions sur Hacker News
  • Voici ce que j’attends du M5 Max/Ultra
    J’aimerais qu’il prenne en charge des liens QSFP (200Gb/s et plus) de niveau DGX au lieu de Thunderbolt. L’architecture RDMA est élégante, mais à ces vitesses-là, sinon, l’intérêt économique diminue
    Je voudrais réduire le temps de prefill des prompts avec un accélérateur neuronal. Même sans aller jusqu’au niveau d’une RTX 6000, quelque chose comme une 3090/4090 suffirait
    J’attends 1 To de mémoire unifiée sur la version la plus haut de gamme du Mac Studio. Je pense qu’augmenter la mémoire est plus efficace que multiplier les machines
    J’aimerais aussi que la bande passante passe à +1 To/s. Elle stagne à 800GB/s depuis les trois dernières générations
    Ce serait bien d’avoir aussi une fonction d’overclocking. Le Mac Studio n’est pas un portable, donc consommer plus de 600 W me semblerait acceptable. Aujourd’hui, il est limité à environ 250 W
    De plus, cette configuration RDMA ne permet de relier que 4 Mac au maximum, car tous les Mac doivent être connectés directement entre eux. C’est pourquoi je pense qu’Apple devrait investir dans des liens haut débit comme QSFP

    • 1 To de mémoire, carrément ? Il faut quand même nous en laisser un peu, à nous autres simples mortels, de la RAM. Ça fait très « IA, rends l’humanité heureuse ! »
    • Le M4 atteint déjà la vitesse nécessaire par canal, et le M5 fera encore mieux. S’il y a une version Ultra, 1 To/s de bande passante semble tout à fait possible. Le Max étant la moitié de l’Ultra, il n’ira sans doute pas aussi loin
    • Le Mac Studio n’a pas la conception thermique nécessaire pour dissiper durablement 650 W. Ce niveau-là conviendrait plutôt à un design de Mac Pro
    • Les ports USB-C en façade du Mac Studio M3 Ultra sont eux aussi en Thunderbolt 5, ce qui fait 6 ports au total. En regardant les spécifications officielles, je me demande pourquoi cette limite à 4 machines serait nécessaire
    • L’Apple Neural Engine prend déjà en charge les calculs INT8 et FP16. En revanche, les frameworks IA ne l’exploitent pas encore correctement
      Et je me demande aussi s’il est vraiment nécessaire que tous les Mac soient connectés en mesh complet. Thunderbolt ne fonctionne-t-il pas au-dessus de RDMA comme une interface réseau ?
  • Je me demande pourquoi Apple propose une fonctionnalité comme RDMA, pensée pour les clusters de serveurs, tout en ignorant des améliorations de base comme l’administration à distance ou le format rack
    Je me dis qu’ils utilisent peut-être en interne des serveurs à base de puces M, et que cette fonctionnalité en est un sous-produit

    • Peut-être qu’Apple prépare réellement un produit de classe serveur, et qu’ils ont publié RDMA en avance pour que les logiciels tiers puissent s’y adapter
    • Le Mac Studio occupe une place à part pour l’inférence de LLM. À mon avis, RDMA n’est pas là pour les serveurs généralistes, mais pour regrouper 4 Studio en cluster d’inférence LLM
    • J’avais entendu dire qu’Apple avait empilé des M2 Mac Pro en rack pour la fonction Private Compute
    • Je me demande si Apple exploite ses propres datacenters. Je pensais qu’ils sous-traitaient surtout à GCP
    • C’est une question que je me pose depuis longtemps. Pourquoi le tooling de développement est-il aussi pauvre, et quel environnement utilisent-ils en interne ? Relier des Mac Mini avec des câbles Thunderbolt, c’est un peu frustrant
  • Le travail de Jeff est vraiment impressionnant. Les infos sur RDMA via Thunderbolt étaient aussi très intéressantes
    Et surtout, merci à Jeff pour son énergie positive et ses contributions constantes

  • Linux prend en charge RDMA, mais pas encore sur Thunderbolt. Il faudrait sans doute beaucoup de travail pour y arriver
    Ce serait formidable de pouvoir relier 2 ou 3 boîtiers Strix Halo bon marché (128GB DDR5-8000, 2 ports USB4) pour faire tourner de gros modèles

  • À l’heure actuelle, Thunderbolt n’a pas de switch, ce qui limite la taille du cluster
    Je me demande si on pourrait utiliser RoCE (RDMA over Converged Ethernet) à la place. J’ai entendu dire que RDMA était 7 à 10 fois plus rapide que TCP
    Il existe aussi des adaptateurs Ethernet Thunderbolt de 10G à 80G, mais la latence peut poser problème
    S’il y avait un slot PCIe, il suffirait d’insérer une carte Infiniband, mais au final tout dépend du driver

    • On peut aussi convertir Thunderbolt en PCIe pour utiliser une NIC standard. L’Atto Thunderlink n’est en fait qu’un boîtier autour d’une NIC Broadcom
      C’est surprenant qu’Apple ait inclus le driver MLX5 jusqu’à iPadOS. Voir ce billet de blog
    • macOS inclut des drivers pour les cartes Mellanox ConnectX, mais je ne sais pas si elles apparaissent réellement dans ibv_devices
  • J’aimerais voir des mesures séparées pour la vitesse d’entrée (prefill) et la vitesse de sortie (decode)
    Dans un billet d’Exo, il était indiqué que ces deux vitesses différaient sensiblement sur le matériel Mac

    • Il y a quelques données dans cette issue GitHub.
      Je pense proposer à l’équipe Exo d’ajouter une fonction de benchmark
  • J’ai trouvé intéressant que Thunderbolt 5 ne soit pas aussi écrasant qu’on pourrait le penser
    Face à l’Ethernet 2,5Gbps, le TB5 n’était qu’environ 10 % plus rapide. Le M3 Studio prend en charge l’Ethernet 10Gbps, mais cela n’a pas été testé
    Le TB5 impose que tous les CPU soient directement reliés entre eux, d’où la limite à 4 machines. Avec un switch Ethernet, on peut en revanche connecter davantage de nœuds

    • Cette vidéo teste en Ethernet 10Gbps
    • D’après mon ancienne expérience avec llama RPC, l’Ethernet 10G apporte peu de gain. La latence est plus importante, mais elle a elle aussi ses limites
    • llama n’est pas encore très optimisé, donc sa scalabilité reste faible. RDMA a moins d’overhead qu’Ethernet
  • Chaque nœud du cluster dispose de 512 Go de RAM. Le modèle DeepSeek V3.1 demande 700 Go de RAM
    Je trouve curieux qu’en passant d’un nœud à deux, la vitesse d’inférence n’augmente que de 32 %. Même avec 4 nœuds, le gain reste inférieur à 50 %
    Il semble y avoir un goulot d’étranglement

    • La bande passante réseau est de 80Gbps, donc c’est le goulot d’étranglement. L’Infiniband est 10 fois plus rapide
    • Les poids (weights) du modèle sont en lecture seule, donc on peut les mapper en mémoire depuis un SSD. La vraie contrainte, c’est la mémoire des activations. Une architecture MoE peut aider
    • Le RDMA sur TB5 est nettement plus lent qu’un accès direct à la mémoire système
  • Cette architecture où tous les nœuds sont reliés entre eux me rappelle le NUMALink de SGI.
    Les supercalculateurs SGI reliaient chaque nœud à tous les autres avec deux liens. Cela faisait beaucoup de câbles, mais évitait d’avoir à se soucier du framing ou du contrôle de congestion

    • Le matériel SGI implémentait une ccNUMA (cache-coherent NUMA). L’OS IRIX déplaçait les tâches et la mémoire au plus près physiquement pour réduire la latence
      C’est la même logique que dans les systèmes modernes de trading haute fréquence, où l’on place les processus en tenant compte des cœurs CPU et de l’emplacement des DIMM
    • Le rack NVL72 utilise lui aussi une structure similaire, avec des dizaines de liens entre GPU
  • J’ai aimé plusieurs détails intéressants relevés dans l’article
    La mystérieuse disparition d’Exo, le fait que Jeff veuille SMB Direct sur Mac, la vitesse d’inférence du M3 Ultra, et même le desktop Framework AI à 2100 $
    J’ai l’impression d’avoir découvert un nouveau terrier de lapin (rabbit hole)