2 points par GN⁺ 2023-09-18 | 1 commentaires | Partager sur WhatsApp
  • L’article présente Petals, une nouvelle technologie qui permet aux utilisateurs d’exécuter chez eux de grands modèles de langage (LLM), à la manière de BitTorrent.
  • Petals prend en charge plusieurs LLM et leurs dérivés, notamment Llama 2 (70B), Falcon (180B) et BLOOM (176B).
  • Cette technologie fonctionne en chargeant une partie du modèle sur l’appareil de l’utilisateur, puis en se connectant à un réseau d’autres utilisateurs qui fournissent le reste.
  • Elle offre une vitesse d’inférence en batch unique de 6 tokens/s pour Llama 2 et de 4 tokens/s pour Falcon. Cette vitesse est suffisante pour les chatbots et les applications interactives.
  • Petals va au-delà des API LLM classiques en permettant aux utilisateurs d’utiliser n’importe quelle méthode de fine-tuning et d’échantillonnage, d’exécuter des chemins personnalisés à travers le modèle ou d’observer les états cachés.
  • Petals combine la flexibilité de PyTorch et de 🤗 Transformers avec la praticité d’une API.
  • Les utilisateurs peuvent essayer Petals sur Google Colab et consulter la documentation sur GitHub.
  • L’article liste les principaux contributeurs du projet et fournit un lien pour contribuer des GPU.
  • Les utilisateurs peuvent suivre le développement de Petals via Discord ou un abonnement par e-mail.
  • Ce projet fait partie de l’atelier de recherche BigScience.

1 commentaires

 
GN⁺ 2023-09-18
Commentaires sur Hacker News
  • Un article sur une nouvelle manière d’exécuter des grands modèles de langage (LLMs) à domicile, d’une façon similaire à BitTorrent
  • Les poids du modèle sont répartis en couches sur plusieurs machines, qui coopèrent pour effectuer l’inférence ou le fine-tuning
  • Un projet appelé Ollama est en cours de développement, hébergeant les poids des modèles dans un registre Docker afin de garantir que les bons poids soient téléchargés à chaque fois
  • L’utilisation de la quantification/QLORA permet d’exécuter de grands modèles à une vitesse acceptable sur du matériel grand public, tout en évitant la latence due au parallélisme entre différents serveurs
  • Le fine-tuning de grands modèles comme 70B est difficile et nécessite des ressources coûteuses, d’où la proposition d’une contribution collective de type « llama training horde »
  • Des inquiétudes existent quant à la vulnérabilité du système, des participants malveillants pouvant modifier les sorties ou renvoyer des résultats absurdes pour perturber le système
  • Petals, qui fait partie du projet, permet aux utilisateurs de partager leur GPU et de contribuer au code, offrant une expérience de développement classique
  • Le système peut fournir un certain nombre de tokens distribués, ce qui peut avantager les utilisateurs d’appareils peu puissants
  • Le projet semble pouvoir changer la donne et rendre ce domaine plus accessible à davantage de développeurs
  • Petals exploite un système d’incitation centralisé similaire aux kudos d’AI Horde, tout en restant par ailleurs un système distribué. Les incitations ne peuvent pas être échangées contre de l’argent et sont destinées à être utilisées au sein du système
  • Certains utilisateurs rencontrent des problèmes de versions de dépendances lorsqu’ils essaient de partager leur GPU
  • Proposition d’utiliser des « tokens » pour les cycles GPU, avec l’idée de suivre le soleil afin de maximiser l’utilisation de l’énergie solaire photovoltaïque