- Oubliez les coûteux GPU NVIDIA : regroupez vos appareils existants comme des iPhone, iPad, Android, Mac ou Linux pour les utiliser comme un seul GPU puissant
- Prend en charge LLaMA ainsi que divers modèles
- Le « partitionnement dynamique de modèle » répartit le modèle de manière optimale en fonction de la topologie réseau actuelle et des ressources disponibles sur les appareils
- Permet d’exécuter des modèles plus volumineux que ce qu’un seul appareil peut faire tourner
- Découvre automatiquement les autres appareils grâce à la découverte automatique de périphériques
- Fournit une API compatible ChatGPT
- Les appareils sont reliés en mode pair à pair plutôt qu’avec une architecture master-worker (la stratégie de partitionnement par défaut est une répartition pondérée de la mémoire en anneau)
- Moteurs d’inférence pris en charge :
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
- Prend en charge les modules réseau :
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
- Problèmes connus
- La bibliothèque évoluant rapidement, l’implémentation iOS est en retard par rapport à celle en Python
- À long terme, une approche unifiée est prévue afin d’éviter d’avoir à maintenir des implémentations séparées
Le récapitulatif de GN⁺
- exo est un logiciel expérimental capable d’unifier divers appareils en un seul cluster d’IA puissant
- Il propose plusieurs fonctionnalités, comme la découverte automatique des appareils et le partitionnement dynamique des modèles, permettant d’exécuter des modèles plus grands que sur un appareil unique
- Il fournit une API compatible ChatGPT pour exécuter facilement des modèles
- Une approche unifiée est en cours pour résoudre le retard de l’implémentation iOS
1 commentaires
Avis Hacker News
mlx, réservée à Apple Silicon, est nécessaire. Il est indiqué que cela fonctionne sur « iPhone, iPad, Android, Mac, Linux, à peu près n’importe quel appareil », mais je me demande si cela a réellement été testé