- macOS Tahoe 26.2 ajoute une nouvelle fonctionnalité de RDMA sur Thunderbolt 5, rendant possibles des communications à faible latence pour des usages comme l’inférence IA distribuée avec MLX
- Cela revient à « pouvoir considérer les Mac comme des nœuds de calcul distribué à haute vitesse », ce qui permet à macOS de dépasser le simple rôle d’OS de bureau pour s’étendre en plateforme locale d’expérimentation IA et HPC
Qu’est-ce que le RDMA
- RDMA (Remote Direct Memory Access) est un mode de communication dans lequel un ordinateur accède directement à la mémoire d’un autre sans intervention du CPU
- En contournant la pile réseau, les copies noyau et les changements de contexte, il réduit drastiquement la latence et augmente fortement le débit
- Il était jusqu’ici principalement utilisé dans des réseaux de datacenter comme InfiniBand ou RoCE
- Il s’est imposé comme une technologie standard dans le calcul haute performance (HPC), le stockage distribué et l’entraînement ou l’inférence IA à grande échelle
- Son point clé est de « fonctionner si vite sur le réseau qu’on a l’impression d’utiliser la même mémoire »
Ce que signifie le RDMA over Thunderbolt
- Dans macOS 26.2, les communications RDMA sont prises en charge entre des Mac reliés en Thunderbolt 5
- Alors que le RDMA était auparavant limité aux équipements réseau de classe serveur, il devient désormais possible même dans un cluster local de Mac reliés par un simple câble
- Il devient possible d’exploiter directement le modèle RDMA avec la bande passante élevée et la très faible latence de Thunderbolt
- En d’autres termes, cela ouvre « un moyen de relier plusieurs Mac sur un bureau comme s’il s’agissait d’un datacenter »
Pourquoi c’est bien adapté aux workloads IA
- Dans l’inférence ou l’entraînement IA distribués, l’échange de tenseurs entre nœuds devient facilement un goulot d’étranglement
- Dans ce processus, le RDMA évite de consommer du CPU et fournit un schéma de communication proche de GPU ↔ GPU
- L’inférence IA distribuée basée sur MLX mentionnée dans les notes de version repose précisément sur ce type d’architecture pensée pour des communications à faible latence et à haut débit
- Cela élargit les possibilités de répartir un modèle sur plusieurs Mac et de constituer un cluster d’inférence fonctionnant comme une machine unique
- Pour de petites équipes ou des environnements de recherche, « construire un cluster IA avec des Mac sans serveurs » devient une option réaliste
Cas d’usage qui deviennent réellement possibles
- Relier plusieurs Mac Studio / Mac Pro en Thunderbolt pour constituer une ferme locale d’inférence IA
- Lorsqu’un grand modèle est difficile à charger sur un seul GPU, il devient possible d’expérimenter l’inférence par partitionnement de modèle
- Simulations distribuées locales, pipelines de données à haute vitesse, recherche expérimentale sur les systèmes distribués
- Réduction importante du coût de mise en place d’environnements de prototype et de PoC avant le passage au datacenter
Aucun commentaire pour le moment.