10 points par xguru 2023-06-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Les LLM nécessitent une quantité importante de mémoire et de ressources de calcul
  • La famille ZeRO de DeepSpeed apporte une solution à ce problème et est utilisée pour TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1, etc.
  • Mais dans les scénarios à grande échelle mobilisant de très nombreux GPU, des surcoûts apparaissent, notamment à cause des communications fréquentes entre GPU
  • ZeRO++ réduit alors de 4× le volume total de communication sans affecter la qualité du modèle
    • Accélère le pré-entraînement et le fine-tuning de grands modèles
      • Petites tailles de batch par GPU : débit 2,2× supérieur à ZeRO
      • Même sur des clusters à faible bande passante, les performances se rapprochent de celles obtenues avec 4× plus de bande passante
    • Accélère aussi les modèles de type ChatGPT utilisant le RLHF

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.