- Les LLM nécessitent une quantité importante de mémoire et de ressources de calcul
- La famille ZeRO de DeepSpeed apporte une solution à ce problème et est utilisée pour TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1, etc.
- Mais dans les scénarios à grande échelle mobilisant de très nombreux GPU, des surcoûts apparaissent, notamment à cause des communications fréquentes entre GPU
- ZeRO++ réduit alors de 4× le volume total de communication sans affecter la qualité du modèle
- Accélère le pré-entraînement et le fine-tuning de grands modèles
- Petites tailles de batch par GPU : débit 2,2× supérieur à ZeRO
- Même sur des clusters à faible bande passante, les performances se rapprochent de celles obtenues avec 4× plus de bande passante
- Accélère aussi les modèles de type ChatGPT utilisant le RLHF
Aucun commentaire pour le moment.