- Darkbloom est un réseau d’inférence IA distribuée qui relie des Mac Apple Silicon inactifs pour exécuter des calculs d’IA sur des appareils personnels, sans cloud centralisé
- Il supprime la structure à triple marge entre fabricants de GPU, fournisseurs cloud et fournisseurs d’API, permettant jusqu’à 70 % de réduction des coûts
- Toutes les requêtes sont chiffrées de bout en bout, empêchant les opérateurs de voir les données des utilisateurs, avec une confiance assurée par une chaîne d’attestation fondée sur le matériel de sécurité d’Apple
- Il propose une API compatible OpenAI prenant en charge les mêmes fonctions que les SDK existants, comme le chat, la génération d’images et la reconnaissance vocale
- Les opérateurs conservent 95 à 100 % des revenus et peuvent obtenir des revenus en USD via leurs Mac inactifs, sans autre coût supplémentaire que l’électricité
Réseau personnel d’inférence IA utilisant des Mac inactifs
- Darkbloom est un réseau d’inférence IA distribuée développé par Eigen Labs, qui connecte des Mac Apple Silicon inactifs pour exécuter des calculs d’IA
- Aujourd’hui, les calculs d’IA passent par une structure à trois niveaux de marge allant des fabricants de GPU aux hyperscalers, puis aux fournisseurs d’API et enfin aux utilisateurs finaux ; Darkbloom supprime cette chaîne et permet jusqu’à 70 % d’économies
- Les opérateurs du réseau ne peuvent pas voir les données des utilisateurs, et toutes les requêtes sont traitées avec un chiffrement de bout en bout
- L’API est compatible OpenAI et prend en charge les fonctions de chat, génération d’images et reconnaissance vocale de la même manière que les SDK existants
- Les opérateurs conservent 95 à 100 % des revenus, avec presque aucun coût supplémentaire en dehors de l’électricité
Fonctionnalités pour les utilisateurs
- Le coût marginal quasi nul du matériel inutilisé permet de répercuter directement les économies sur les prix pour les utilisateurs
- Une API compatible OpenAI fournit les fonctions de chat, génération d’images et conversion voix-texte
- Toutes les requêtes sont transmises avec un chiffrement de bout en bout
Fonctionnalités pour les propriétaires de matériel
- Les utilisateurs disposant d’un Mac Apple Silicon peuvent exécuter de l’inférence IA pendant les périodes d’inactivité et obtenir des revenus en USD
- Les opérateurs conservent 100 % des revenus d’inférence, tandis que le coût de l’électricité se situe entre $0.01 et $0.03 par heure
- Le reste correspond au bénéfice net
Problème structurel du marché des calculs d’IA
- Le marché actuel des calculs d’IA suit une structure à triple marge : fabricants de GPU → fournisseurs cloud → entreprises d’IA → utilisateurs finaux
- À cause de cela, l’utilisateur final paie plus de 3 fois le coût réel du silicium
- Dans le même temps, plus de 100 millions d’appareils Apple Silicon restent inactifs plus de 18 heures par jour en moyenne
- En connectant ces ressources de calcul inutilisées, il devient possible d’exploiter des actifs distribués à la manière d’Airbnb ou Uber
- Darkbloom transforme ces Mac inactifs en nœuds d’inférence IA afin de remplacer l’infrastructure centralisée
Problème de confiance et défis à résoudre
- Le problème central d’un réseau de calcul distribué est la fiabilité
- Les utilisateurs doivent faire traiter leurs données sur les appareils d’un tiers inconnu, ce qui rend insuffisante une simple sécurité fondée sur des conditions d’utilisation
- Sans confidentialité vérifiable (Verifiable Privacy), l’inférence distribuée est impossible
Approche technique de Darkbloom
-
Suppression des voies d’accès
- Suppression de toutes les voies logicielles permettant à l’opérateur d’accéder aux données
- L’ensemble est composé de quatre couches indépendantes, chacune pouvant être vérifiée
-
Couche de chiffrement
- Les requêtes sont chiffrées sur l’appareil de l’utilisateur avant transmission
- Le Coordinator ne fait que router du texte chiffré, et seule la clé matérielle du nœud cible peut le déchiffrer
-
Couche matérielle
- Chaque nœud possède une clé générée dans le matériel de sécurité d’Apple
- La vérification repose sur une chaîne d’attestation (attestation chain) issue de l’Apple Root CA
-
Couche d’exécution
- Le processus d’inférence est verrouillé au niveau du système d’exploitation
- Connexion de débogueur et inspection mémoire bloquées
- L’opérateur ne peut pas extraire les données du processus en cours d’exécution
-
Couche de sortie
- Toutes les réponses peuvent être vérifiées via la signature de ce matériel
- Toute la chaîne d’attestation est publique et peut être vérifiée indépendamment par n’importe qui
-
En conséquence, l’opérateur exécute l’inférence sans voir les données
- Les prompts sont chiffrés avant transmission
- Le Coordinator les route sans pouvoir en lire le contenu
- Le Provider déchiffre et exécute dans un environnement isolé vérifié
- La chaîne d’attestation est publique, ce qui garantit la transparence
Détails d’implémentation
-
API compatible OpenAI
- Compatibilité totale avec les SDK OpenAI existants
- Il suffit de changer l’URL de base pour utiliser le même code
- Streaming, Function Calling, Image Generation et Speech-to-Text sont tous pris en charge
- Fonctions prises en charge
- Streaming : basé sur SSE, format OpenAI
- Image Generation : FLUX.2 on Metal
- Speech-to-Text : Cohere Transcribe
- Large MoE : prise en charge de modèles allant jusqu’à 239B paramètres
Résultats de comparaison des coûts
- Le coût marginal quasi nul du matériel inutilisé permet une baisse des prix
- Aucun abonnement ni minimum d’utilisation
- Environ 50 % moins cher que OpenRouter
| Modèle | Entrée | Sortie | OpenRouter | Réduction |
|---|---|---|---|---|
| Gemma 4 26B4B | $0.03 | $0.20 | $0.40 | 50% |
| Qwen3.5 27B | $0.10 | $0.78 | $1.56 | 50% |
| Qwen3.5 122B MoE | $0.13 | $1.04 | $2.08 | 50% |
| MiniMax M2.5 239B | $0.06 | $0.50 | $1.00 | 50% |
- Génération d’images : $0.0015/image (50 % de moins que Together.ai)
- Reconnaissance vocale : $0.001/minute (50 % de moins que AssemblyAI)
- Frais de plateforme 0 %, les opérateurs conservent 100 % des revenus
Rentabilité pour les opérateurs
- Fournir un appareil Apple Silicon permet d’obtenir des revenus en USD
- Aucun coût supplémentaire en dehors de l’électricité, avec 100 % des revenus conservés
- Installation via CLI prise en charge, application de barre de menus macOS en cours de développement
-
Méthode d’installation
- Téléchargement du binaire provider via commande terminal et enregistrement comme service launchd
-
Aucune dépendance, mise à jour automatique, exécution en arrière-plan
- macOS 14 ou version ultérieure, Apple Silicon uniquement
-
Revenus estimés
- Possibilité d’estimer les revenus sur la base d’un fonctionnement de 18 heures par jour
- Les revenus réels varient selon la demande du réseau et la popularité des modèles
Recherche et catalogue de modèles
- Un article de recherche explique en détail l’architecture, le modèle de menace, l’analyse de sécurité et le modèle économique
- Il traite d’une architecture d’inférence privée fondée sur la vérification matérielle
- Lien de téléchargement du PDF
-
Modèles disponibles
- Gemma 4 26B : dernier modèle multimodal MoE de Google, 4B de paramètres actifs
- Qwen3.5 27B : modèle de raisonnement haute qualité (distillation de Claude Opus)
- Qwen3.5 122B MoE : 10B de paramètres actifs, qualité maximale par token
- MiniMax M2.5 239B : modèle de code SOTA, 100 tok/s sur Mac Studio
- Cohere Transcribe : conformer 2B, conversion voix-texte de tout premier niveau
2 commentaires
Le concept est intéressant, mais on peut se demander si cela fonctionnera vraiment bien en pratique. Comme certains l’ont aussi souligné sur HN, un marché biface (two-sided market) doit réussir à attirer ses premiers clients des deux côtés, et c’est là que se situe le vrai problème.
Avis Hacker News
J’ai trouvé leur calcul de revenus peu crédible
Si un Mac mini est amorti en 2 à 4 mois puis rapporte ensuite 1 000 à 2 000 dollars par mois, on peut se demander pourquoi ils n’achètent pas simplement des Mac mini pour les faire tourner eux-mêmes
Ce n’est pas le cas pour l’instant, mais ils espèrent que ça le deviendra un jour. C’est pourquoi ils ne recommandent pas d’acheter un nouvel appareil. Si vous le faites tourner sur une machine que vous avez déjà, le coût est presque nul
L’électricité n’est consommée que lorsqu’il y a des requêtes, et elle est compensée à ce moment-là
Si vous avez des questions, vous pouvez envoyer un DM à @gajesh
Les économies d’échelle entrent en jeu et donnent envie de centres toujours plus grands, mais cela coûte cher et les voisins n’apprécient pas non plus
Au final, cela ressemble à une guerre asymétrique contre les hyperscalers
Par exemple, c’est chargé pendant les heures d’ouverture de la bourse, mais calme le reste du temps
Si on ne surprovisionne pas, les clients partent, et si on le fait trop, la rentabilité baisse
En pratique, on serait plutôt autour de 1/8 de taux d’utilisation. En faisant le calcul avec mon M4 Pro mini, ça donne environ 24 dollars par mois pour le modèle Gemma 4
Acheter et entretenir soi-même le matériel coûte bien plus cher. L’investissement de départ est la plus grosse barrière à l’entrée
On peut démarrer sans financement VC, et la différenciation est claire
Cela dit, quelqu’un pourrait implémenter la même chose avec une commission plus élevée, donc il est important d’occuper le marché rapidement
Je l’ai installé moi-même, et ce n’était pas très abouti
Beaucoup d’erreurs, comme l’échec du téléchargement de modèles d’image ou l’échec du chargement de modèles audio/TTS
J’ai servi Gemma pendant 15 minutes, mais il n’y a eu aucune vraie requête d’inférence, seulement plusieurs health checks
Pour l’instant, la demande est insuffisante, donc les prévisions de revenus ne tiennent pas
Pour l’instant, ils semblent se concentrer sur le recrutement de fournisseurs, et attirer des clients payants devient urgent
Pour utiliser ce service, il faut installer un MDM (logiciel de gestion des appareils)
À partir de ce moment-là, cet ordinateur est de fait placé sous leur contrôle
Je ne le recommanderais jamais sur un ordinateur utilisé pour des tâches sensibles comme la banque
Mais leur politique de confidentialité est faible, donc difficile de leur faire confiance
En plus, ça ne vaut pas le risque pour gagner quelques dollars par mois
Ils disent utiliser un TEE (Trusted Execution Environment) pour vérifier l’intégrité du modèle et du code
J’ai déjà travaillé sur quelque chose de similaire chez AWS, mais je doute qu’on puisse protéger la mémoire lors de l’utilisation du GPU
Les articles associés sont disponibles ici
Le plus sûr est de l’utiliser seulement pour des usages non commerciaux comme la classification ou la génération d’images, plutôt qu’avec des données sensibles
La technique de table de pages hyperviseur évoquée dans l’article affirme protéger la mémoire GPU contre le RDMA
Aujourd’hui, sur un MacBook, une confidentialité vérifiable est physiquement impossible
Il y a bien le Secure Enclave, mais pas d’enclave publique comme SGX/TDX/SEV
Au final, ce n’est qu’une sécurité de type durcissement de l’OS, pas un véritable environnement d’exécution confidentiel
macOS a une architecture plutôt fiable si l’on peut faire une attestation distante de la séquence de boot et de la configuration TCC
Ce n’est pas aussi parfait que SGX, mais c’est meilleur en termes d’utilisabilité
En faisant un calcul simple, mon M5 Pro génère 130 tokens par seconde (4 flux) sur Gemma 4 26B
Le tarif de Darkbloom est de 0,20 $ par Mtok, donc en tournant 24h/24 cela ferait environ 67 $ de revenus par mois
En retirant le coût de l’électricité, cela représente environ 9 $ de dépenses mensuelles, soit environ 700 $ d’argent de poche par an
Personnellement, je trouve surtout l’idée intéressante plus que sa rentabilité
Pour l’électricité, ils utilisent une astuce consistant à soustraire les 12 W de consommation au repos, alors que la plupart des gens ne laissent pas leur ordinateur allumé 24h/24
Il y a déjà eu des tentatives de stockage distribué comme Cubbit, mais elles ont échoué
Ce que j’aimerais dire à @eigengajesh, c’est que le Mac Mini M4 Pro existe aussi en version 64 Go
Et il y a plusieurs bugs — échec de chargement de metallib, téléchargement de modèle en 404, incohérence dans la documentation sur le partage des revenus (100 % vs 95 %), etc.
Globalement, beaucoup de documents semblent écrits par un LLM, et il vaudrait mieux peaufiner un peu plus avant de publier
Ce projet me rappelle DataseamGrid, qui avait été déployé autrefois sur les ordinateurs de mon école
C’était un réseau de calcul distribué fondé sur une idée similaire
C’est un concept intéressant. Un marché biface (two-sided marketplace) est difficile à amorcer au départ, mais la curiosité pourrait servir de moteur
En encourageant les gens non seulement à fournir des ressources mais aussi à utiliser eux-mêmes le service, on pourrait mieux équilibrer l’offre et la demande
Une version auto-hébergée pour les entreprises serait intéressante. Beaucoup de sociétés ont un stock de Mac et pourraient les utiliser comme réseau interne d’inférence
La confidentialité basée sur le matériel est intéressante, mais économiquement le coût de chargement représente un gros risque
Par exemple, pour le modèle MiniMax M2.5 239B, même si seulement 11B sur 239B sont activés, il faut quand même charger 120 Go
Le charger depuis un SSD prend des dizaines de secondes
Si la requête est routée vers un autre Mac, cela entraîne à chaque fois une latence de chargement à froid
Garder le modèle en mémoire en permanence augmente le coût électrique, et sinon la latence explose
En particulier, les Mac de 16 à 32 Go ne peuvent tout simplement pas héberger de grands modèles, donc les fournisseurs réellement capables sont extrêmement limités