- L’article présente Petals, une nouvelle technologie qui permet aux utilisateurs d’exécuter chez eux de grands modèles de langage (LLM), à la manière de BitTorrent.
- Petals prend en charge plusieurs LLM et leurs dérivés, notamment Llama 2 (70B), Falcon (180B) et BLOOM (176B).
- Cette technologie fonctionne en chargeant une partie du modèle sur l’appareil de l’utilisateur, puis en se connectant à un réseau d’autres utilisateurs qui fournissent le reste.
- Elle offre une vitesse d’inférence en batch unique de 6 tokens/s pour Llama 2 et de 4 tokens/s pour Falcon. Cette vitesse est suffisante pour les chatbots et les applications interactives.
- Petals va au-delà des API LLM classiques en permettant aux utilisateurs d’utiliser n’importe quelle méthode de fine-tuning et d’échantillonnage, d’exécuter des chemins personnalisés à travers le modèle ou d’observer les états cachés.
- Petals combine la flexibilité de PyTorch et de 🤗 Transformers avec la praticité d’une API.
- Les utilisateurs peuvent essayer Petals sur Google Colab et consulter la documentation sur GitHub.
- L’article liste les principaux contributeurs du projet et fournit un lien pour contribuer des GPU.
- Les utilisateurs peuvent suivre le développement de Petals via Discord ou un abonnement par e-mail.
- Ce projet fait partie de l’atelier de recherche BigScience.
1 commentaires
Commentaires sur Hacker News