Petals - faire tourner chez soi des modèles de langage de 100B+ dans un style BitTorrent

xguru · 2023-01-03T10:56:19+09:00

Exécuter "collectivement" des modèles de langage géants comme BLOOM-176B Connecter son GPU à Petals Chacun charge une partie du modèle et exécute l'inférence et le fine-tuning avec les autres L'inférence atteint environ 1 seconde par étape (token), soit 10 fois plus rapide que l'offloading, ce qui est suffisant pour les chatbots et autres applications interactives L'inférence parallèle peut atteindre des centaines de tokens par seconde Des travaux sont en cours pour introduire une incitation explicite (Bloom points) pour les personnes qui fournissent du temps GPU

Exécuter "collectivement" des modèles de langage géants comme BLOOM-176B
- Connecter son GPU à Petals
- Chacun charge une partie du modèle et exécute l'inférence et le fine-tuning avec les autres
L'inférence atteint environ 1 seconde par étape (token), soit 10 fois plus rapide que l'offloading, ce qui est suffisant pour les chatbots et autres applications interactives
- L'inférence parallèle peut atteindre des centaines de tokens par seconde
Des travaux sont en cours pour introduire une incitation explicite (Bloom points) pour les personnes qui fournissent du temps GPU

3 commentaires

won9497 2023-01-03

bien !!

won9497 2023-01-03

Euh, ce n’est pas cet article...

xguru 2023-01-03

Même la version bien plus petite, BLOOM-7B, prend apparemment environ 90 secondes si on la fait tourner directement en local sur un Ryzen (16 cœurs) avec 32 Go de RAM.
Si ça fonctionne vraiment aussi bien qu’annoncé, ce serait plutôt intéressant… mais ça donne un peu une impression de blockchain…
(D’après le développeur, cela dit, ils n’utilisent pas de blockchain)

Petals - faire tourner chez soi des modèles de langage de 100B+ dans un style BitTorrent

À lire aussi

3 commentaires