À partir de macOS 26.2, il devient possible de constituer rapidement des clusters IA via RDMA sur Thunderbolt
(developer.apple.com)- macOS Tahoe 26.2 ajoute une nouvelle fonctionnalité de RDMA sur Thunderbolt 5, rendant possibles des communications à faible latence pour des usages comme l’inférence IA distribuée avec MLX
- Cela revient à « pouvoir considérer les Mac comme des nœuds de calcul distribué à haute vitesse », ce qui permet à macOS de dépasser le simple rôle d’OS de bureau pour s’étendre en plateforme locale d’expérimentation IA et HPC
Qu’est-ce que le RDMA
- RDMA (Remote Direct Memory Access) est un mode de communication dans lequel un ordinateur accède directement à la mémoire d’un autre sans intervention du CPU
- En contournant la pile réseau, les copies noyau et les changements de contexte, il réduit drastiquement la latence et augmente fortement le débit
- Il était jusqu’ici principalement utilisé dans des réseaux de datacenter comme InfiniBand ou RoCE
- Il s’est imposé comme une technologie standard dans le calcul haute performance (HPC), le stockage distribué et l’entraînement ou l’inférence IA à grande échelle
- Son point clé est de « fonctionner si vite sur le réseau qu’on a l’impression d’utiliser la même mémoire »
Ce que signifie le RDMA over Thunderbolt
- Dans macOS 26.2, les communications RDMA sont prises en charge entre des Mac reliés en Thunderbolt 5
- Alors que le RDMA était auparavant limité aux équipements réseau de classe serveur, il devient désormais possible même dans un cluster local de Mac reliés par un simple câble
- Il devient possible d’exploiter directement le modèle RDMA avec la bande passante élevée et la très faible latence de Thunderbolt
- En d’autres termes, cela ouvre « un moyen de relier plusieurs Mac sur un bureau comme s’il s’agissait d’un datacenter »
Pourquoi c’est bien adapté aux workloads IA
- Dans l’inférence ou l’entraînement IA distribués, l’échange de tenseurs entre nœuds devient facilement un goulot d’étranglement
- Dans ce processus, le RDMA évite de consommer du CPU et fournit un schéma de communication proche de GPU ↔ GPU
- L’inférence IA distribuée basée sur MLX mentionnée dans les notes de version repose précisément sur ce type d’architecture pensée pour des communications à faible latence et à haut débit
- Cela élargit les possibilités de répartir un modèle sur plusieurs Mac et de constituer un cluster d’inférence fonctionnant comme une machine unique
- Pour de petites équipes ou des environnements de recherche, « construire un cluster IA avec des Mac sans serveurs » devient une option réaliste
Cas d’usage qui deviennent réellement possibles
- Relier plusieurs Mac Studio / Mac Pro en Thunderbolt pour constituer une ferme locale d’inférence IA
- Lorsqu’un grand modèle est difficile à charger sur un seul GPU, il devient possible d’expérimenter l’inférence par partitionnement de modèle
- Simulations distribuées locales, pipelines de données à haute vitesse, recherche expérimentale sur les systèmes distribués
- Réduction importante du coût de mise en place d’environnements de prototype et de PoC avant le passage au datacenter
4 commentaires
Le réseau Thunderbolt est vraiment très pratique
Avec le daisy chain, pas besoin de hub non plus
On va sans doute voir apparaître pas mal de gens qui relient désormais des Mac entre eux pour monter une ferme d’inférence et proposer un service depuis chez eux.
La note de version officielle d’Apple se limite à une seule ligne indiquant que « RDMA over Thunderbolt » est désormais possible, donc j’ai ajouté une explication complémentaire sur GN+.
Commentaires Hacker News
Je suis le compte Twitter de l’équipe MLX. Ils partagent souvent des exemples où ils relient plusieurs Mac pour exécuter des modèles nécessitant plus de 512 Go de RAM
Par exemple Kimi K2 Thinking (1T paramètres) et DeepSeek R1 (671B). Pour ce dernier, un guide de configuration sur Gist est également fourni
Dans la future version Tahoe 26.2, la parallélisation de tenseurs devrait devenir possible. Chaque couche pourra être shardée sur plusieurs machines, et avec N machines on pourra approcher un gain de vitesse proche de N. La principale difficulté reste toutefois la latence de communication
En revanche, c’est intéressant pour les particuliers qui veulent expérimenter avec des LLM en local, mais je doute que des entreprises bien financées en achètent massivement à la place de GPU
J’ai comparé du matériel d’inférence avec un budget de 50 000 $
Avec le chaos actuel sur le marché de la RAM, il serait vraiment ironique que, grâce à la stabilité de sa chaîne d’approvisionnement, Apple devienne une option au bon rapport qualité-prix pour construire des clusters d’inférence de taille moyenne
Il s’agit donc de regrouper plusieurs Mac Studio en cluster, mais je m’inquiète des contraintes physiques et d’administration
sudo softwareupdate -i -a, on ne peut faire que des mises à jour mineuresJ’aimerais qu’Apple construise son propre cloud basé sur les puces de série M, renforce Metal pour l’IA et propose des modèles auto-hébergés centrés sur la confidentialité. Cela pourrait très bien marcher dans les secteurs qui manipulent beaucoup de données sensibles
Je me demande si cette fonctionnalité peut aussi servir à des workloads distribués généraux autres que l’IA
Référence : Guide d’utilisation distribué de MLX
Article connexe : Engadget - Construire un superordinateur IA avec un cluster de Mac dans macOS Tahoe 26.2
George Hotz a fait tourner un GPU NVIDIA sur Mac via USB4 avec tinygrad
Tweet tinygrad
Je ne comprends pas très bien ce qu’est RDMA, mais est-ce que cela signifie qu’on peut exécuter l’inférence en parallèle en reliant plusieurs Mac ? Si oui, c’est vraiment une fonctionnalité impressionnante