11 points par GN⁺ 2025-12-13 | 4 commentaires | Partager sur WhatsApp
  • macOS Tahoe 26.2 ajoute une nouvelle fonctionnalité de RDMA sur Thunderbolt 5, rendant possibles des communications à faible latence pour des usages comme l’inférence IA distribuée avec MLX
  • Cela revient à « pouvoir considérer les Mac comme des nœuds de calcul distribué à haute vitesse », ce qui permet à macOS de dépasser le simple rôle d’OS de bureau pour s’étendre en plateforme locale d’expérimentation IA et HPC

Qu’est-ce que le RDMA

  • RDMA (Remote Direct Memory Access) est un mode de communication dans lequel un ordinateur accède directement à la mémoire d’un autre sans intervention du CPU
  • En contournant la pile réseau, les copies noyau et les changements de contexte, il réduit drastiquement la latence et augmente fortement le débit
  • Il était jusqu’ici principalement utilisé dans des réseaux de datacenter comme InfiniBand ou RoCE
  • Il s’est imposé comme une technologie standard dans le calcul haute performance (HPC), le stockage distribué et l’entraînement ou l’inférence IA à grande échelle
  • Son point clé est de « fonctionner si vite sur le réseau qu’on a l’impression d’utiliser la même mémoire »

Ce que signifie le RDMA over Thunderbolt

  • Dans macOS 26.2, les communications RDMA sont prises en charge entre des Mac reliés en Thunderbolt 5
  • Alors que le RDMA était auparavant limité aux équipements réseau de classe serveur, il devient désormais possible même dans un cluster local de Mac reliés par un simple câble
  • Il devient possible d’exploiter directement le modèle RDMA avec la bande passante élevée et la très faible latence de Thunderbolt
  • En d’autres termes, cela ouvre « un moyen de relier plusieurs Mac sur un bureau comme s’il s’agissait d’un datacenter »

Pourquoi c’est bien adapté aux workloads IA

  • Dans l’inférence ou l’entraînement IA distribués, l’échange de tenseurs entre nœuds devient facilement un goulot d’étranglement
  • Dans ce processus, le RDMA évite de consommer du CPU et fournit un schéma de communication proche de GPU ↔ GPU
  • L’inférence IA distribuée basée sur MLX mentionnée dans les notes de version repose précisément sur ce type d’architecture pensée pour des communications à faible latence et à haut débit
  • Cela élargit les possibilités de répartir un modèle sur plusieurs Mac et de constituer un cluster d’inférence fonctionnant comme une machine unique
  • Pour de petites équipes ou des environnements de recherche, « construire un cluster IA avec des Mac sans serveurs » devient une option réaliste

Cas d’usage qui deviennent réellement possibles

  • Relier plusieurs Mac Studio / Mac Pro en Thunderbolt pour constituer une ferme locale d’inférence IA
  • Lorsqu’un grand modèle est difficile à charger sur un seul GPU, il devient possible d’expérimenter l’inférence par partitionnement de modèle
  • Simulations distribuées locales, pipelines de données à haute vitesse, recherche expérimentale sur les systèmes distribués
  • Réduction importante du coût de mise en place d’environnements de prototype et de PoC avant le passage au datacenter

4 commentaires

 
bus710 2025-12-14

Le réseau Thunderbolt est vraiment très pratique
Avec le daisy chain, pas besoin de hub non plus

 
shakespeares 2025-12-13

On va sans doute voir apparaître pas mal de gens qui relient désormais des Mac entre eux pour monter une ferme d’inférence et proposer un service depuis chez eux.

 
xguru 2025-12-13

La note de version officielle d’Apple se limite à une seule ligne indiquant que « RDMA over Thunderbolt » est désormais possible, donc j’ai ajouté une explication complémentaire sur GN+.

 
GN⁺ 2025-12-13
Commentaires Hacker News
  • Je suis le compte Twitter de l’équipe MLX. Ils partagent souvent des exemples où ils relient plusieurs Mac pour exécuter des modèles nécessitant plus de 512 Go de RAM
    Par exemple Kimi K2 Thinking (1T paramètres) et DeepSeek R1 (671B). Pour ce dernier, un guide de configuration sur Gist est également fourni

    • Ces publications montrent des exemples utilisant la parallélisation de pipeline. Avec N machines, on répartit L/N couches sur chaque machine. Il n’y a pas de gain de vitesse, mais cela permet d’exécuter de grands modèles qui ne tiennent pas sur une seule machine
      Dans la future version Tahoe 26.2, la parallélisation de tenseurs devrait devenir possible. Chaque couche pourra être shardée sur plusieurs machines, et avec N machines on pourra approcher un gain de vitesse proche de N. La principale difficulté reste toutefois la latence de communication
    • Nous avons réalisé la semaine dernière un test de parallélisation de tenseurs basé sur RDMA. Lien du test. Une méthode de contournement pour la synchronisation rapide (fast sync) y est aussi mentionnée
    • J’espère que cette approche ne sera pas trop séduisante pour les non-spécialistes. Les performances ne passent pas bien à l’échelle sur les workloads parallèles ou le traitement de contexte
      En revanche, c’est intéressant pour les particuliers qui veulent expérimenter avec des LLM en local, mais je doute que des entreprises bien financées en achètent massivement à la place de GPU
    • Le plus surprenant, c’est la consommation électrique. Environ 50 W pour deux machines réunies ; j’ai presque cru avoir mal lu
  • J’ai comparé du matériel d’inférence avec un budget de 50 000 $

    • Cluster Apple M3 Ultra (50 k$) : maximise la capacité (3 To). C’est la seule option capable de faire tourner des modèles de 3T+ paramètres (comme Kimi K2), mais avec une vitesse faible (~15 t/s)
    • Workstation NVIDIA RTX 6000 (50 k$) : maximise le débit (>80 t/s). Excellente en entraînement comme en inférence, mais limitée à 384 Go de VRAM, donc seulement pour des modèles de moins de 400B
    • Pour obtenir à la fois la même capacité (3 To) et un débit supérieur à 100 t/s, il faudrait un cluster NVIDIA GH200 d’environ 270 000 $. Le cluster Apple offre 87 % de cette capacité pour 18 % du coût
    • On peut aussi faire moins cher. Je fais tourner DeepSeek-R1 sur une workstation Xeon bi-socket (768 Go de RAM) à 2 000 $, avec un débit de 1 à 2 tokens par seconde
    • Je suis curieux du calcul pour le cluster NVIDIA à 50 k$. Si une RTX 6000 coûte environ 8 k$, alors 5 machines donnent environ 40 k$ pour à peu près un demi-To. Malgré cela, les Mac restent efficaces pour l’inférence, et la M5 Ultra devrait offrir un meilleur rapport prix/performances
    • Avec le même budget, on pourrait aussi acheter 25 cartes desktop Framework (128 Go de VRAM chacune, avec Strix Halo). Cela ferait 3 To de VRAM au total, mais le clustering semblerait assez compliqué
    • En tenant compte des gains de vitesse parallèles qui ne sont pas encore implémentés, cela semble être une offre plutôt correcte pour un environnement d’inférence on-premise
    • Apple utilise de la LPDDR5X pour réduire la consommation énergétique et les coûts, tandis que NVIDIA privilégie les performances avec de la GDDR/HBM
  • Avec le chaos actuel sur le marché de la RAM, il serait vraiment ironique que, grâce à la stabilité de sa chaîne d’approvisionnement, Apple devienne une option au bon rapport qualité-prix pour construire des clusters d’inférence de taille moyenne

    • Ce serait un peu gênant si des utilisateurs commerciaux achetaient tous les bons Mac
    • C’est déjà le cas pour certains usages
  • Il s’agit donc de regrouper plusieurs Mac Studio en cluster, mais je m’inquiète des contraintes physiques et d’administration

    1. L’emplacement du bouton d’alimentation est peu pratique, donc gênant en rack
    2. Thunderbolt est très bien pour les périphériques, mais comme interconnexion permanente, la durabilité des ports m’inquiète
    3. La qualité des câbles compte. En TB4/TB5, j’ai eu beaucoup de problèmes sans câbles haut de gamme
    4. L’administration à distance de macOS est moins efficace que celle de Linux. Par exemple, faire une mise à niveau macOS 26.1 → 26.2 sans interface graphique est difficile. Avec sudo softwareupdate -i -a, on ne peut faire que des mises à jour mineures
    • Concernant le point n°2, le dock OWC a des trous de vis pour fixer les câbles. OWC Thunderbolt Dock et l’adaptateur ClingOn permettent de réduire la contrainte sur les ports
    • Le problème du bouton d’alimentation peut être résolu avec le boîtier RackMac Studio, qui prolonge mécaniquement le bouton
    • Utiliser Thunderbolt comme interconnexion serveur n’est pas très élégant, mais une fois fixé dans une baie, il y a au contraire moins de contrainte physique
    • Avec une solution MDM, on peut gérer non seulement les mises à jour logicielles, mais aussi le LOM (gestion d’alimentation à distance). Il existe également des MDM open source
    • La version rack du Mac Pro est encore vendue, mais comme elle n’a pas été mise à jour avec la M3 Ultra, elle semble proche de la fin de vie
  • J’aimerais qu’Apple construise son propre cloud basé sur les puces de série M, renforce Metal pour l’IA et propose des modèles auto-hébergés centrés sur la confidentialité. Cela pourrait très bien marcher dans les secteurs qui manipulent beaucoup de données sensibles

    • Il existe déjà quelque chose d’assez proche avec Private Cloud Compute, mais réservé aux iUsers utilisant les modèles d’Apple
    • En datacenter, le sharding via interconnexions rapides est plus efficace qu’une grande quantité de mémoire par GPU. Les GPU NVIDIA ou AMD gardent l’avantage en puissance de calcul
  • Je me demande si cette fonctionnalité peut aussi servir à des workloads distribués généraux autres que l’IA

    • J’ai testé avec HPL et mpirun : pour l’instant, RDMA n’est pas pris en charge et seul un schéma en anneau est possible. C’est un peu brut, mais ça fonctionne
      Référence : Guide d’utilisation distribué de MLX
  • Article connexe : Engadget - Construire un superordinateur IA avec un cluster de Mac dans macOS Tahoe 26.2

  • George Hotz a fait tourner un GPU NVIDIA sur Mac via USB4 avec tinygrad
    Tweet tinygrad

  • Je ne comprends pas très bien ce qu’est RDMA, mais est-ce que cela signifie qu’on peut exécuter l’inférence en parallèle en reliant plusieurs Mac ? Si oui, c’est vraiment une fonctionnalité impressionnante

    • On pouvait déjà faire de l’inférence sur plusieurs Mac depuis un an, mais désormais cela fonctionne beaucoup plus vite