À partir de macOS 26.2, il devient possible de constituer rapidement des clusters IA via RDMA sur Thunderbolt

(developer.apple.com)

11 points par GN⁺ 2025-12-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp

macOS Tahoe 26.2 ajoute une nouvelle fonctionnalité de RDMA sur Thunderbolt 5, rendant possibles des communications à faible latence pour des usages comme l’inférence IA distribuée avec MLX
Cela revient à « pouvoir considérer les Mac comme des nœuds de calcul distribué à haute vitesse », ce qui permet à macOS de dépasser le simple rôle d’OS de bureau pour s’étendre en plateforme locale d’expérimentation IA et HPC

Qu’est-ce que le RDMA

RDMA (Remote Direct Memory Access) est un mode de communication dans lequel un ordinateur accède directement à la mémoire d’un autre sans intervention du CPU
En contournant la pile réseau, les copies noyau et les changements de contexte, il réduit drastiquement la latence et augmente fortement le débit
Il était jusqu’ici principalement utilisé dans des réseaux de datacenter comme InfiniBand ou RoCE
Il s’est imposé comme une technologie standard dans le calcul haute performance (HPC), le stockage distribué et l’entraînement ou l’inférence IA à grande échelle
Son point clé est de « fonctionner si vite sur le réseau qu’on a l’impression d’utiliser la même mémoire »

Dans macOS 26.2, les communications RDMA sont prises en charge entre des Mac reliés en Thunderbolt 5
Alors que le RDMA était auparavant limité aux équipements réseau de classe serveur, il devient désormais possible même dans un cluster local de Mac reliés par un simple câble
Il devient possible d’exploiter directement le modèle RDMA avec la bande passante élevée et la très faible latence de Thunderbolt
En d’autres termes, cela ouvre « un moyen de relier plusieurs Mac sur un bureau comme s’il s’agissait d’un datacenter »

Dans l’inférence ou l’entraînement IA distribués, l’échange de tenseurs entre nœuds devient facilement un goulot d’étranglement
Dans ce processus, le RDMA évite de consommer du CPU et fournit un schéma de communication proche de GPU ↔ GPU
L’inférence IA distribuée basée sur MLX mentionnée dans les notes de version repose précisément sur ce type d’architecture pensée pour des communications à faible latence et à haut débit
Cela élargit les possibilités de répartir un modèle sur plusieurs Mac et de constituer un cluster d’inférence fonctionnant comme une machine unique
Pour de petites équipes ou des environnements de recherche, « construire un cluster IA avec des Mac sans serveurs » devient une option réaliste

Relier plusieurs Mac Studio / Mac Pro en Thunderbolt pour constituer une ferme locale d’inférence IA
Lorsqu’un grand modèle est difficile à charger sur un seul GPU, il devient possible d’expérimenter l’inférence par partitionnement de modèle
Simulations distribuées locales, pipelines de données à haute vitesse, recherche expérimentale sur les systèmes distribués
Réduction importante du coût de mise en place d’environnements de prototype et de PoC avant le passage au datacenter