Darkbloom – Réseau personnel d’inférence IA utilisant des Mac inactifs

(darkbloom.dev)

1 points par GN⁺ 15 일 전 | 2 commentaires | Partager sur WhatsApp

Darkbloom est un réseau d’inférence IA distribuée qui relie des Mac Apple Silicon inactifs pour exécuter des calculs d’IA sur des appareils personnels, sans cloud centralisé
Il supprime la structure à triple marge entre fabricants de GPU, fournisseurs cloud et fournisseurs d’API, permettant jusqu’à 70 % de réduction des coûts
Toutes les requêtes sont chiffrées de bout en bout, empêchant les opérateurs de voir les données des utilisateurs, avec une confiance assurée par une chaîne d’attestation fondée sur le matériel de sécurité d’Apple
Il propose une API compatible OpenAI prenant en charge les mêmes fonctions que les SDK existants, comme le chat, la génération d’images et la reconnaissance vocale
Les opérateurs conservent 95 à 100 % des revenus et peuvent obtenir des revenus en USD via leurs Mac inactifs, sans autre coût supplémentaire que l’électricité

Réseau personnel d’inférence IA utilisant des Mac inactifs

Darkbloom est un réseau d’inférence IA distribuée développé par Eigen Labs, qui connecte des Mac Apple Silicon inactifs pour exécuter des calculs d’IA
Aujourd’hui, les calculs d’IA passent par une structure à trois niveaux de marge allant des fabricants de GPU aux hyperscalers, puis aux fournisseurs d’API et enfin aux utilisateurs finaux ; Darkbloom supprime cette chaîne et permet jusqu’à 70 % d’économies
Les opérateurs du réseau ne peuvent pas voir les données des utilisateurs, et toutes les requêtes sont traitées avec un chiffrement de bout en bout
L’API est compatible OpenAI et prend en charge les fonctions de chat, génération d’images et reconnaissance vocale de la même manière que les SDK existants
Les opérateurs conservent 95 à 100 % des revenus, avec presque aucun coût supplémentaire en dehors de l’électricité

Fonctionnalités pour les utilisateurs

Le coût marginal quasi nul du matériel inutilisé permet de répercuter directement les économies sur les prix pour les utilisateurs
Une API compatible OpenAI fournit les fonctions de chat, génération d’images et conversion voix-texte
Toutes les requêtes sont transmises avec un chiffrement de bout en bout

Fonctionnalités pour les propriétaires de matériel

Les utilisateurs disposant d’un Mac Apple Silicon peuvent exécuter de l’inférence IA pendant les périodes d’inactivité et obtenir des revenus en USD
Les opérateurs conservent 100 % des revenus d’inférence, tandis que le coût de l’électricité se situe entre $0.01 et $0.03 par heure
Le reste correspond au bénéfice net

Problème structurel du marché des calculs d’IA

Le marché actuel des calculs d’IA suit une structure à triple marge : fabricants de GPU → fournisseurs cloud → entreprises d’IA → utilisateurs finaux
À cause de cela, l’utilisateur final paie plus de 3 fois le coût réel du silicium
Dans le même temps, plus de 100 millions d’appareils Apple Silicon restent inactifs plus de 18 heures par jour en moyenne
En connectant ces ressources de calcul inutilisées, il devient possible d’exploiter des actifs distribués à la manière d’Airbnb ou Uber
Darkbloom transforme ces Mac inactifs en nœuds d’inférence IA afin de remplacer l’infrastructure centralisée

Problème de confiance et défis à résoudre

Le problème central d’un réseau de calcul distribué est la fiabilité
Les utilisateurs doivent faire traiter leurs données sur les appareils d’un tiers inconnu, ce qui rend insuffisante une simple sécurité fondée sur des conditions d’utilisation
Sans confidentialité vérifiable (Verifiable Privacy), l’inférence distribuée est impossible

Approche technique de Darkbloom

Suppression des voies d’accès
- Suppression de toutes les voies logicielles permettant à l’opérateur d’accéder aux données
- L’ensemble est composé de quatre couches indépendantes, chacune pouvant être vérifiée
Couche de chiffrement
- Les requêtes sont chiffrées sur l’appareil de l’utilisateur avant transmission
- Le Coordinator ne fait que router du texte chiffré, et seule la clé matérielle du nœud cible peut le déchiffrer
Couche matérielle
- Chaque nœud possède une clé générée dans le matériel de sécurité d’Apple
- La vérification repose sur une chaîne d’attestation (attestation chain) issue de l’Apple Root CA
Couche d’exécution
- Le processus d’inférence est verrouillé au niveau du système d’exploitation
- Connexion de débogueur et inspection mémoire bloquées
- L’opérateur ne peut pas extraire les données du processus en cours d’exécution
Couche de sortie
- Toutes les réponses peuvent être vérifiées via la signature de ce matériel
- Toute la chaîne d’attestation est publique et peut être vérifiée indépendamment par n’importe qui
En conséquence, l’opérateur exécute l’inférence sans voir les données
- Les prompts sont chiffrés avant transmission
- Le Coordinator les route sans pouvoir en lire le contenu
- Le Provider déchiffre et exécute dans un environnement isolé vérifié
- La chaîne d’attestation est publique, ce qui garantit la transparence

Détails d’implémentation

API compatible OpenAI
- Compatibilité totale avec les SDK OpenAI existants
- Il suffit de changer l’URL de base pour utiliser le même code
- Streaming, Function Calling, Image Generation et Speech-to-Text sont tous pris en charge
- Fonctions prises en charge
- Streaming : basé sur SSE, format OpenAI
- Image Generation : FLUX.2 on Metal
- Speech-to-Text : Cohere Transcribe
- Large MoE : prise en charge de modèles allant jusqu’à 239B paramètres

Résultats de comparaison des coûts

Le coût marginal quasi nul du matériel inutilisé permet une baisse des prix
Aucun abonnement ni minimum d’utilisation
Environ 50 % moins cher que OpenRouter

Modèle	Entrée	Sortie	OpenRouter	Réduction
Gemma 4 26B4B	$0.03	$0.20	$0.40	50%
Qwen3.5 27B	$0.10	$0.78	$1.56	50%
Qwen3.5 122B MoE	$0.13	$1.04	$2.08	50%
MiniMax M2.5 239B	$0.06	$0.50	$1.00	50%

Génération d’images : $0.0015/image (50 % de moins que Together.ai)
Reconnaissance vocale : $0.001/minute (50 % de moins que AssemblyAI)
Frais de plateforme 0 %, les opérateurs conservent 100 % des revenus

Rentabilité pour les opérateurs

Fournir un appareil Apple Silicon permet d’obtenir des revenus en USD
Aucun coût supplémentaire en dehors de l’électricité, avec 100 % des revenus conservés
Installation via CLI prise en charge, application de barre de menus macOS en cours de développement
Méthode d’installation
- Téléchargement du binaire provider via commande terminal et enregistrement comme service launchd
- Aucune dépendance, mise à jour automatique, exécution en arrière-plan
  - macOS 14 ou version ultérieure, Apple Silicon uniquement
Revenus estimés
- Possibilité d’estimer les revenus sur la base d’un fonctionnement de 18 heures par jour
- Les revenus réels varient selon la demande du réseau et la popularité des modèles

Recherche et catalogue de modèles

Un article de recherche explique en détail l’architecture, le modèle de menace, l’analyse de sécurité et le modèle économique
Il traite d’une architecture d’inférence privée fondée sur la vérification matérielle
Lien de téléchargement du PDF
Modèles disponibles
- Gemma 4 26B : dernier modèle multimodal MoE de Google, 4B de paramètres actifs
- Qwen3.5 27B : modèle de raisonnement haute qualité (distillation de Claude Opus)
- Qwen3.5 122B MoE : 10B de paramètres actifs, qualité maximale par token
- MiniMax M2.5 239B : modèle de code SOTA, 100 tok/s sur Mac Studio
- Cohere Transcribe : conformer 2B, conversion voix-texte de tout premier niveau

2 commentaires

shw00 12 일 전

Le concept est intéressant, mais on peut se demander si cela fonctionnera vraiment bien en pratique. Comme certains l’ont aussi souligné sur HN, un marché biface (two-sided market) doit réussir à attirer ses premiers clients des deux côtés, et c’est là que se situe le vrai problème.

GN⁺ 15 일 전

Avis Hacker News

J’ai trouvé leur calcul de revenus peu crédible
Si un Mac mini est amorti en 2 à 4 mois puis rapporte ensuite 1 000 à 2 000 dollars par mois, on peut se demander pourquoi ils n’achètent pas simplement des Mac mini pour les faire tourner eux-mêmes
- Le calcul lui-même repose sur des hypothèses optimistes. Il suppose qu’il y a toujours de la demande pour toutes les machines
  Ce n’est pas le cas pour l’instant, mais ils espèrent que ça le deviendra un jour. C’est pourquoi ils ne recommandent pas d’acheter un nouvel appareil. Si vous le faites tourner sur une machine que vous avez déjà, le coût est presque nul
  L’électricité n’est consommée que lorsqu’il y a des requêtes, et elle est compensée à ce moment-là
  Si vous avez des questions, vous pouvez envoyer un DM à @gajesh
- S’ils commencent à acheter eux-mêmes des Mac mini, ils finissent par construire un petit datacenter à cause des problèmes d’alimentation, de refroidissement et de stockage
  Les économies d’échelle entrent en jeu et donnent envie de centres toujours plus grands, mais cela coûte cher et les voisins n’apprécient pas non plus
  Au final, cela ressemble à une guerre asymétrique contre les hyperscalers
- Aucun fournisseur de GPU ne maintient un taux d’utilisation de 100 %. La demande fluctue
  Par exemple, c’est chargé pendant les heures d’ouverture de la bourse, mais calme le reste du temps
  Si on ne surprovisionne pas, les clients partent, et si on le fait trop, la rentabilité baisse
  En pratique, on serait plutôt autour de 1/8 de taux d’utilisation. En faisant le calcul avec mon M4 Pro mini, ça donne environ 24 dollars par mois pour le modèle Gemma 4
- Le point clé, c’est le manque de capital initial. La plupart des gens ont déjà un ordinateur qui ne fait rien, et il suffit de les convaincre d’installer le logiciel
  Acheter et entretenir soi-même le matériel coûte bien plus cher. L’investissement de départ est la plus grosse barrière à l’entrée
- Il y a beaucoup de Mac inutilisés dans le monde, donc constituer une base d’utilisateurs est facile
  On peut démarrer sans financement VC, et la différenciation est claire
  Cela dit, quelqu’un pourrait implémenter la même chose avec une commission plus élevée, donc il est important d’occuper le marché rapidement
Je l’ai installé moi-même, et ce n’était pas très abouti
Beaucoup d’erreurs, comme l’échec du téléchargement de modèles d’image ou l’échec du chargement de modèles audio/TTS
J’ai servi Gemma pendant 15 minutes, mais il n’y a eu aucune vraie requête d’inférence, seulement plusieurs health checks
Pour l’instant, la demande est insuffisante, donc les prévisions de revenus ne tiennent pas
- Le lancement date d’à peine un jour, donc c’est normal qu’il n’y ait pas encore de demande. Il faut un peu de temps
- Je me demande si quelqu’un a fait un test en envoyant réellement un prompt et en recevant une réponse depuis l’autre côté
- La page de statistiques montre qu’il y a beaucoup de fournisseurs, mais presque aucune demande réelle
  Pour l’instant, ils semblent se concentrer sur le recrutement de fournisseurs, et attirer des clients payants devient urgent
- Je pensais qu’au début ils généreraient eux-mêmes des requêtes pour motiver l’hébergement, mais cette fonctionnalité n’existe pas
- J’ai vu la même erreur, avec un avertissement dans les logs indiquant « échec du health check du backend STT ». Même s’il y avait une vraie demande, cela pourrait en être la cause
Pour utiliser ce service, il faut installer un MDM (logiciel de gestion des appareils)
À partir de ce moment-là, cet ordinateur est de fait placé sous leur contrôle
Je ne le recommanderais jamais sur un ordinateur utilisé pour des tâches sensibles comme la banque
- Le MDM de macOS est limité en permissions via AccessRights, donc un accès du type remplacement de certificat SSL n’est pas possible
  Mais leur politique de confidentialité est faible, donc difficile de leur faire confiance
- Le MDM est une ligne rouge absolue. Je ne vais pas transformer mon MacBook en brique potentielle
  En plus, ça ne vaut pas le risque pour gagner quelques dollars par mois
Ils disent utiliser un TEE (Trusted Execution Environment) pour vérifier l’intégrité du modèle et du code
J’ai déjà travaillé sur quelque chose de similaire chez AWS, mais je doute qu’on puisse protéger la mémoire lors de l’utilisation du GPU
Les articles associés sont disponibles ici
- Tout l’article a une odeur de LLM. L’usage excessif de formules nuit à la crédibilité
- En pratique, si l’on envoie des données à un serveur externe, il est impossible d’éviter totalement une certaine rétention des données
  Le plus sûr est de l’utiliser seulement pour des usages non commerciaux comme la classification ou la génération d’images, plutôt qu’avec des données sensibles
- Apple Silicon utilise une mémoire unifiée entre CPU et GPU
  La technique de table de pages hyperviseur évoquée dans l’article affirme protéger la mémoire GPU contre le RDMA
- Les Mac n’ont pas de TEE matériel de type SGX ; ils n’ont que le Secure Enclave
Aujourd’hui, sur un MacBook, une confidentialité vérifiable est physiquement impossible
Il y a bien le Secure Enclave, mais pas d’enclave publique comme SGX/TDX/SEV
Au final, ce n’est qu’une sécurité de type durcissement de l’OS, pas un véritable environnement d’exécution confidentiel
- J’ai déjà créé moi-même un SDK SGX. On peut atteindre un niveau de sécurité assez comparable sur les plateformes Apple
  macOS a une architecture plutôt fiable si l’on peut faire une attestation distante de la séquence de boot et de la configuration TCC
  Ce n’est pas aussi parfait que SGX, mais c’est meilleur en termes d’utilisabilité
- J’ai presque plus confiance dans des nœuds distribués aléatoires que dans un fournisseur centralisé comme OpenAI
- S’il y a suffisamment d’incitations, n’importe quelle clé matérielle finit par être compromise. Leur discours relève presque de l’excès de confiance
En faisant un calcul simple, mon M5 Pro génère 130 tokens par seconde (4 flux) sur Gemma 4 26B
Le tarif de Darkbloom est de 0,20 $ par Mtok, donc en tournant 24h/24 cela ferait environ 67 $ de revenus par mois
En retirant le coût de l’électricité, cela représente environ 9 $ de dépenses mensuelles, soit environ 700 $ d’argent de poche par an
- En réalité, ça consomme bien plus que 50 W. L’électricité coûte cher et l’usure du matériel s’accélère aussi
  Personnellement, je trouve surtout l’idée intéressante plus que sa rentabilité
- Leur calcul retient 414 tok/s pour Gemma 4 26B
  Pour l’électricité, ils utilisent une astuce consistant à soustraire les 12 W de consommation au repos, alors que la plupart des gens ne laissent pas leur ordinateur allumé 24h/24
- 130 tok/s me paraît élevé. Je me demande avec quelle quantization ce chiffre a été obtenu
- Les pannes matérielles ne sont pas prises en compte. J’ai déjà miné avec des GPU et un ventilateur a lâché au bout d’un mois, ce qui m’a fait perdre de l’argent
- Même chez OpenAI, seuls 5 % des utilisateurs sont payants, donc je doute de la viabilité de ce modèle
  Il y a déjà eu des tentatives de stockage distribué comme Cubbit, mais elles ont échoué
Ce que j’aimerais dire à @eigengajesh, c’est que le Mac Mini M4 Pro existe aussi en version 64 Go
Et il y a plusieurs bugs — échec de chargement de metallib, téléchargement de modèle en 404, incohérence dans la documentation sur le partage des revenus (100 % vs 95 %), etc.
Globalement, beaucoup de documents semblent écrits par un LLM, et il vaudrait mieux peaufiner un peu plus avant de publier
Ce projet me rappelle DataseamGrid, qui avait été déployé autrefois sur les ordinateurs de mon école
C’était un réseau de calcul distribué fondé sur une idée similaire
C’est un concept intéressant. Un marché biface (two-sided marketplace) est difficile à amorcer au départ, mais la curiosité pourrait servir de moteur
En encourageant les gens non seulement à fournir des ressources mais aussi à utiliser eux-mêmes le service, on pourrait mieux équilibrer l’offre et la demande
Une version auto-hébergée pour les entreprises serait intéressante. Beaucoup de sociétés ont un stock de Mac et pourraient les utiliser comme réseau interne d’inférence
La confidentialité basée sur le matériel est intéressante, mais économiquement le coût de chargement représente un gros risque
Par exemple, pour le modèle MiniMax M2.5 239B, même si seulement 11B sur 239B sont activés, il faut quand même charger 120 Go
Le charger depuis un SSD prend des dizaines de secondes
Si la requête est routée vers un autre Mac, cela entraîne à chaque fois une latence de chargement à froid
Garder le modèle en mémoire en permanence augmente le coût électrique, et sinon la latence explose
En particulier, les Mac de 16 à 32 Go ne peuvent tout simplement pas héberger de grands modèles, donc les fournisseurs réellement capables sont extrêmement limités

Darkbloom – Réseau personnel d’inférence IA utilisant des Mac inactifs

Réseau personnel d’inférence IA utilisant des Mac inactifs

Fonctionnalités pour les utilisateurs

Fonctionnalités pour les propriétaires de matériel

Problème structurel du marché des calculs d’IA

Problème de confiance et défis à résoudre

Approche technique de Darkbloom

Suppression des voies d’accès

Couche de chiffrement

Couche matérielle

Couche d’exécution

Couche de sortie

En conséquence, l’opérateur exécute l’inférence sans voir les données

Détails d’implémentation

API compatible OpenAI

Résultats de comparaison des coûts

Rentabilité pour les opérateurs

Méthode d’installation

Aucune dépendance, mise à jour automatique, exécution en arrière-plan

Revenus estimés

Recherche et catalogue de modèles

Modèles disponibles

À lire aussi

2 commentaires

Avis Hacker News