1 points par GN⁺ 15 일 전 | 2 commentaires | Partager sur WhatsApp
  • Darkbloom est un réseau d’inférence IA distribuée qui relie des Mac Apple Silicon inactifs pour exécuter des calculs d’IA sur des appareils personnels, sans cloud centralisé
  • Il supprime la structure à triple marge entre fabricants de GPU, fournisseurs cloud et fournisseurs d’API, permettant jusqu’à 70 % de réduction des coûts
  • Toutes les requêtes sont chiffrées de bout en bout, empêchant les opérateurs de voir les données des utilisateurs, avec une confiance assurée par une chaîne d’attestation fondée sur le matériel de sécurité d’Apple
  • Il propose une API compatible OpenAI prenant en charge les mêmes fonctions que les SDK existants, comme le chat, la génération d’images et la reconnaissance vocale
  • Les opérateurs conservent 95 à 100 % des revenus et peuvent obtenir des revenus en USD via leurs Mac inactifs, sans autre coût supplémentaire que l’électricité

Réseau personnel d’inférence IA utilisant des Mac inactifs

  • Darkbloom est un réseau d’inférence IA distribuée développé par Eigen Labs, qui connecte des Mac Apple Silicon inactifs pour exécuter des calculs d’IA
  • Aujourd’hui, les calculs d’IA passent par une structure à trois niveaux de marge allant des fabricants de GPU aux hyperscalers, puis aux fournisseurs d’API et enfin aux utilisateurs finaux ; Darkbloom supprime cette chaîne et permet jusqu’à 70 % d’économies
  • Les opérateurs du réseau ne peuvent pas voir les données des utilisateurs, et toutes les requêtes sont traitées avec un chiffrement de bout en bout
  • L’API est compatible OpenAI et prend en charge les fonctions de chat, génération d’images et reconnaissance vocale de la même manière que les SDK existants
  • Les opérateurs conservent 95 à 100 % des revenus, avec presque aucun coût supplémentaire en dehors de l’électricité

Fonctionnalités pour les utilisateurs

  • Le coût marginal quasi nul du matériel inutilisé permet de répercuter directement les économies sur les prix pour les utilisateurs
  • Une API compatible OpenAI fournit les fonctions de chat, génération d’images et conversion voix-texte
  • Toutes les requêtes sont transmises avec un chiffrement de bout en bout

Fonctionnalités pour les propriétaires de matériel

  • Les utilisateurs disposant d’un Mac Apple Silicon peuvent exécuter de l’inférence IA pendant les périodes d’inactivité et obtenir des revenus en USD
  • Les opérateurs conservent 100 % des revenus d’inférence, tandis que le coût de l’électricité se situe entre $0.01 et $0.03 par heure
  • Le reste correspond au bénéfice net

Problème structurel du marché des calculs d’IA

  • Le marché actuel des calculs d’IA suit une structure à triple marge : fabricants de GPU → fournisseurs cloud → entreprises d’IA → utilisateurs finaux
  • À cause de cela, l’utilisateur final paie plus de 3 fois le coût réel du silicium
  • Dans le même temps, plus de 100 millions d’appareils Apple Silicon restent inactifs plus de 18 heures par jour en moyenne
  • En connectant ces ressources de calcul inutilisées, il devient possible d’exploiter des actifs distribués à la manière d’Airbnb ou Uber
  • Darkbloom transforme ces Mac inactifs en nœuds d’inférence IA afin de remplacer l’infrastructure centralisée

Problème de confiance et défis à résoudre

  • Le problème central d’un réseau de calcul distribué est la fiabilité
  • Les utilisateurs doivent faire traiter leurs données sur les appareils d’un tiers inconnu, ce qui rend insuffisante une simple sécurité fondée sur des conditions d’utilisation
  • Sans confidentialité vérifiable (Verifiable Privacy), l’inférence distribuée est impossible

Approche technique de Darkbloom

  • Suppression des voies d’accès

    • Suppression de toutes les voies logicielles permettant à l’opérateur d’accéder aux données
    • L’ensemble est composé de quatre couches indépendantes, chacune pouvant être vérifiée
  • Couche de chiffrement

    • Les requêtes sont chiffrées sur l’appareil de l’utilisateur avant transmission
    • Le Coordinator ne fait que router du texte chiffré, et seule la clé matérielle du nœud cible peut le déchiffrer
  • Couche matérielle

    • Chaque nœud possède une clé générée dans le matériel de sécurité d’Apple
    • La vérification repose sur une chaîne d’attestation (attestation chain) issue de l’Apple Root CA
  • Couche d’exécution

    • Le processus d’inférence est verrouillé au niveau du système d’exploitation
    • Connexion de débogueur et inspection mémoire bloquées
    • L’opérateur ne peut pas extraire les données du processus en cours d’exécution
  • Couche de sortie

    • Toutes les réponses peuvent être vérifiées via la signature de ce matériel
    • Toute la chaîne d’attestation est publique et peut être vérifiée indépendamment par n’importe qui
  • En conséquence, l’opérateur exécute l’inférence sans voir les données

    • Les prompts sont chiffrés avant transmission
    • Le Coordinator les route sans pouvoir en lire le contenu
    • Le Provider déchiffre et exécute dans un environnement isolé vérifié
    • La chaîne d’attestation est publique, ce qui garantit la transparence

Détails d’implémentation

  • API compatible OpenAI

    • Compatibilité totale avec les SDK OpenAI existants
    • Il suffit de changer l’URL de base pour utiliser le même code
    • Streaming, Function Calling, Image Generation et Speech-to-Text sont tous pris en charge
    • Fonctions prises en charge
    • Streaming : basé sur SSE, format OpenAI
    • Image Generation : FLUX.2 on Metal
    • Speech-to-Text : Cohere Transcribe
    • Large MoE : prise en charge de modèles allant jusqu’à 239B paramètres

Résultats de comparaison des coûts

  • Le coût marginal quasi nul du matériel inutilisé permet une baisse des prix
  • Aucun abonnement ni minimum d’utilisation
  • Environ 50 % moins cher que OpenRouter
Modèle Entrée Sortie OpenRouter Réduction
Gemma 4 26B4B $0.03 $0.20 $0.40 50%
Qwen3.5 27B $0.10 $0.78 $1.56 50%
Qwen3.5 122B MoE $0.13 $1.04 $2.08 50%
MiniMax M2.5 239B $0.06 $0.50 $1.00 50%
  • Génération d’images : $0.0015/image (50 % de moins que Together.ai)
  • Reconnaissance vocale : $0.001/minute (50 % de moins que AssemblyAI)
  • Frais de plateforme 0 %, les opérateurs conservent 100 % des revenus

Rentabilité pour les opérateurs

  • Fournir un appareil Apple Silicon permet d’obtenir des revenus en USD
  • Aucun coût supplémentaire en dehors de l’électricité, avec 100 % des revenus conservés
  • Installation via CLI prise en charge, application de barre de menus macOS en cours de développement
  • Méthode d’installation

    • Téléchargement du binaire provider via commande terminal et enregistrement comme service launchd
    • Aucune dépendance, mise à jour automatique, exécution en arrière-plan

      • macOS 14 ou version ultérieure, Apple Silicon uniquement
  • Revenus estimés

    • Possibilité d’estimer les revenus sur la base d’un fonctionnement de 18 heures par jour
    • Les revenus réels varient selon la demande du réseau et la popularité des modèles

Recherche et catalogue de modèles

  • Un article de recherche explique en détail l’architecture, le modèle de menace, l’analyse de sécurité et le modèle économique
  • Il traite d’une architecture d’inférence privée fondée sur la vérification matérielle
  • Lien de téléchargement du PDF
  • Modèles disponibles

    • Gemma 4 26B : dernier modèle multimodal MoE de Google, 4B de paramètres actifs
    • Qwen3.5 27B : modèle de raisonnement haute qualité (distillation de Claude Opus)
    • Qwen3.5 122B MoE : 10B de paramètres actifs, qualité maximale par token
    • MiniMax M2.5 239B : modèle de code SOTA, 100 tok/s sur Mac Studio
    • Cohere Transcribe : conformer 2B, conversion voix-texte de tout premier niveau

2 commentaires

 
shw00 12 일 전

Le concept est intéressant, mais on peut se demander si cela fonctionnera vraiment bien en pratique. Comme certains l’ont aussi souligné sur HN, un marché biface (two-sided market) doit réussir à attirer ses premiers clients des deux côtés, et c’est là que se situe le vrai problème.

 
GN⁺ 15 일 전
Avis Hacker News
  • J’ai trouvé leur calcul de revenus peu crédible
    Si un Mac mini est amorti en 2 à 4 mois puis rapporte ensuite 1 000 à 2 000 dollars par mois, on peut se demander pourquoi ils n’achètent pas simplement des Mac mini pour les faire tourner eux-mêmes

    • Le calcul lui-même repose sur des hypothèses optimistes. Il suppose qu’il y a toujours de la demande pour toutes les machines
      Ce n’est pas le cas pour l’instant, mais ils espèrent que ça le deviendra un jour. C’est pourquoi ils ne recommandent pas d’acheter un nouvel appareil. Si vous le faites tourner sur une machine que vous avez déjà, le coût est presque nul
      L’électricité n’est consommée que lorsqu’il y a des requêtes, et elle est compensée à ce moment-là
      Si vous avez des questions, vous pouvez envoyer un DM à @gajesh
    • S’ils commencent à acheter eux-mêmes des Mac mini, ils finissent par construire un petit datacenter à cause des problèmes d’alimentation, de refroidissement et de stockage
      Les économies d’échelle entrent en jeu et donnent envie de centres toujours plus grands, mais cela coûte cher et les voisins n’apprécient pas non plus
      Au final, cela ressemble à une guerre asymétrique contre les hyperscalers
    • Aucun fournisseur de GPU ne maintient un taux d’utilisation de 100 %. La demande fluctue
      Par exemple, c’est chargé pendant les heures d’ouverture de la bourse, mais calme le reste du temps
      Si on ne surprovisionne pas, les clients partent, et si on le fait trop, la rentabilité baisse
      En pratique, on serait plutôt autour de 1/8 de taux d’utilisation. En faisant le calcul avec mon M4 Pro mini, ça donne environ 24 dollars par mois pour le modèle Gemma 4
    • Le point clé, c’est le manque de capital initial. La plupart des gens ont déjà un ordinateur qui ne fait rien, et il suffit de les convaincre d’installer le logiciel
      Acheter et entretenir soi-même le matériel coûte bien plus cher. L’investissement de départ est la plus grosse barrière à l’entrée
    • Il y a beaucoup de Mac inutilisés dans le monde, donc constituer une base d’utilisateurs est facile
      On peut démarrer sans financement VC, et la différenciation est claire
      Cela dit, quelqu’un pourrait implémenter la même chose avec une commission plus élevée, donc il est important d’occuper le marché rapidement
  • Je l’ai installé moi-même, et ce n’était pas très abouti
    Beaucoup d’erreurs, comme l’échec du téléchargement de modèles d’image ou l’échec du chargement de modèles audio/TTS
    J’ai servi Gemma pendant 15 minutes, mais il n’y a eu aucune vraie requête d’inférence, seulement plusieurs health checks
    Pour l’instant, la demande est insuffisante, donc les prévisions de revenus ne tiennent pas

    • Le lancement date d’à peine un jour, donc c’est normal qu’il n’y ait pas encore de demande. Il faut un peu de temps
    • Je me demande si quelqu’un a fait un test en envoyant réellement un prompt et en recevant une réponse depuis l’autre côté
    • La page de statistiques montre qu’il y a beaucoup de fournisseurs, mais presque aucune demande réelle
      Pour l’instant, ils semblent se concentrer sur le recrutement de fournisseurs, et attirer des clients payants devient urgent
    • Je pensais qu’au début ils généreraient eux-mêmes des requêtes pour motiver l’hébergement, mais cette fonctionnalité n’existe pas
    • J’ai vu la même erreur, avec un avertissement dans les logs indiquant « échec du health check du backend STT ». Même s’il y avait une vraie demande, cela pourrait en être la cause
  • Pour utiliser ce service, il faut installer un MDM (logiciel de gestion des appareils)
    À partir de ce moment-là, cet ordinateur est de fait placé sous leur contrôle
    Je ne le recommanderais jamais sur un ordinateur utilisé pour des tâches sensibles comme la banque

    • Le MDM de macOS est limité en permissions via AccessRights, donc un accès du type remplacement de certificat SSL n’est pas possible
      Mais leur politique de confidentialité est faible, donc difficile de leur faire confiance
    • Le MDM est une ligne rouge absolue. Je ne vais pas transformer mon MacBook en brique potentielle
      En plus, ça ne vaut pas le risque pour gagner quelques dollars par mois
  • Ils disent utiliser un TEE (Trusted Execution Environment) pour vérifier l’intégrité du modèle et du code
    J’ai déjà travaillé sur quelque chose de similaire chez AWS, mais je doute qu’on puisse protéger la mémoire lors de l’utilisation du GPU
    Les articles associés sont disponibles ici

    • Tout l’article a une odeur de LLM. L’usage excessif de formules nuit à la crédibilité
    • En pratique, si l’on envoie des données à un serveur externe, il est impossible d’éviter totalement une certaine rétention des données
      Le plus sûr est de l’utiliser seulement pour des usages non commerciaux comme la classification ou la génération d’images, plutôt qu’avec des données sensibles
    • Apple Silicon utilise une mémoire unifiée entre CPU et GPU
      La technique de table de pages hyperviseur évoquée dans l’article affirme protéger la mémoire GPU contre le RDMA
    • Les Mac n’ont pas de TEE matériel de type SGX ; ils n’ont que le Secure Enclave
  • Aujourd’hui, sur un MacBook, une confidentialité vérifiable est physiquement impossible
    Il y a bien le Secure Enclave, mais pas d’enclave publique comme SGX/TDX/SEV
    Au final, ce n’est qu’une sécurité de type durcissement de l’OS, pas un véritable environnement d’exécution confidentiel

    • J’ai déjà créé moi-même un SDK SGX. On peut atteindre un niveau de sécurité assez comparable sur les plateformes Apple
      macOS a une architecture plutôt fiable si l’on peut faire une attestation distante de la séquence de boot et de la configuration TCC
      Ce n’est pas aussi parfait que SGX, mais c’est meilleur en termes d’utilisabilité
    • J’ai presque plus confiance dans des nœuds distribués aléatoires que dans un fournisseur centralisé comme OpenAI
    • S’il y a suffisamment d’incitations, n’importe quelle clé matérielle finit par être compromise. Leur discours relève presque de l’excès de confiance
  • En faisant un calcul simple, mon M5 Pro génère 130 tokens par seconde (4 flux) sur Gemma 4 26B
    Le tarif de Darkbloom est de 0,20 $ par Mtok, donc en tournant 24h/24 cela ferait environ 67 $ de revenus par mois
    En retirant le coût de l’électricité, cela représente environ 9 $ de dépenses mensuelles, soit environ 700 $ d’argent de poche par an

    • En réalité, ça consomme bien plus que 50 W. L’électricité coûte cher et l’usure du matériel s’accélère aussi
      Personnellement, je trouve surtout l’idée intéressante plus que sa rentabilité
    • Leur calcul retient 414 tok/s pour Gemma 4 26B
      Pour l’électricité, ils utilisent une astuce consistant à soustraire les 12 W de consommation au repos, alors que la plupart des gens ne laissent pas leur ordinateur allumé 24h/24
    • 130 tok/s me paraît élevé. Je me demande avec quelle quantization ce chiffre a été obtenu
    • Les pannes matérielles ne sont pas prises en compte. J’ai déjà miné avec des GPU et un ventilateur a lâché au bout d’un mois, ce qui m’a fait perdre de l’argent
    • Même chez OpenAI, seuls 5 % des utilisateurs sont payants, donc je doute de la viabilité de ce modèle
      Il y a déjà eu des tentatives de stockage distribué comme Cubbit, mais elles ont échoué
  • Ce que j’aimerais dire à @eigengajesh, c’est que le Mac Mini M4 Pro existe aussi en version 64 Go
    Et il y a plusieurs bugs — échec de chargement de metallib, téléchargement de modèle en 404, incohérence dans la documentation sur le partage des revenus (100 % vs 95 %), etc.
    Globalement, beaucoup de documents semblent écrits par un LLM, et il vaudrait mieux peaufiner un peu plus avant de publier

  • Ce projet me rappelle DataseamGrid, qui avait été déployé autrefois sur les ordinateurs de mon école
    C’était un réseau de calcul distribué fondé sur une idée similaire

  • C’est un concept intéressant. Un marché biface (two-sided marketplace) est difficile à amorcer au départ, mais la curiosité pourrait servir de moteur
    En encourageant les gens non seulement à fournir des ressources mais aussi à utiliser eux-mêmes le service, on pourrait mieux équilibrer l’offre et la demande
    Une version auto-hébergée pour les entreprises serait intéressante. Beaucoup de sociétés ont un stock de Mac et pourraient les utiliser comme réseau interne d’inférence

  • La confidentialité basée sur le matériel est intéressante, mais économiquement le coût de chargement représente un gros risque
    Par exemple, pour le modèle MiniMax M2.5 239B, même si seulement 11B sur 239B sont activés, il faut quand même charger 120 Go
    Le charger depuis un SSD prend des dizaines de secondes
    Si la requête est routée vers un autre Mac, cela entraîne à chaque fois une latence de chargement à froid
    Garder le modèle en mémoire en permanence augmente le coût électrique, et sinon la latence explose
    En particulier, les Mac de 16 à 32 Go ne peuvent tout simplement pas héberger de grands modèles, donc les fournisseurs réellement capables sont extrêmement limités