4 points par xguru 2023-01-03 | 3 commentaires | Partager sur WhatsApp
  • Exécuter "collectivement" des modèles de langage géants comme BLOOM-176B
    • Connecter son GPU à Petals
    • Chacun charge une partie du modèle et exécute l'inférence et le fine-tuning avec les autres
  • L'inférence atteint environ 1 seconde par étape (token), soit 10 fois plus rapide que l'offloading, ce qui est suffisant pour les chatbots et autres applications interactives
    • L'inférence parallèle peut atteindre des centaines de tokens par seconde
  • Des travaux sont en cours pour introduire une incitation explicite (Bloom points) pour les personnes qui fournissent du temps GPU

3 commentaires

 
won9497 2023-01-03

bien !!

 
won9497 2023-01-03

Euh, ce n’est pas cet article...

 
xguru 2023-01-03

Même la version bien plus petite, BLOOM-7B, prend apparemment environ 90 secondes si on la fait tourner directement en local sur un Ryzen (16 cœurs) avec 32 Go de RAM.
Si ça fonctionne vraiment aussi bien qu’annoncé, ce serait plutôt intéressant… mais ça donne un peu une impression de blockchain…
(D’après le développeur, cela dit, ils n’utilisent pas de blockchain)