Guide des Cloud GPU - quel GPU utiliser pour l’IA, et où ?

xguru · 2023-08-23T11:04:02+09:00

Si vous créez des outils d’IA avec StableDiffusion, Whisper, des LLM open source, etc., ils doivent continuer à s’exécuter quelque part Quel GPU choisir ? Si vous utilisez un Cloud GPU : Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct Si vous voulez les meilleures performances sans contrainte de coût : 2 H100 Si vous recherchez un équilibre entre coût et performances : 2 RTX 6000 Ada (pas A6000 ni RTX6000) Si vous voulez une option économique : 2 A6000 MPT-30B Meilleures performances ou meilleur rapport qualité-prix : 1 H100 Économique : 1 A100 80GB Stable Diffusion Meilleures performances : 1 H100 Rapport qualité-prix : 1 4090 Économique : 1 3090 Whisper Même chose que Stable Diffusion Whisper-Large peut fonctionner avec moins de VRAM, mais la plupart des clouds ne proposent pas ce type de carte Les 4090/3090 fonctionnent aussi très bien, et c’est également possible sur CPU Si vous faites du fine-tuning de grands LLM Cluster de H100 ou cluster de A100 Si vous voulez entraîner de grands LLM Grand cluster de H100 Si vous utilisez un GPU local : C’est presque la même chose que ci-dessus, mais l’entraînement et le fine-tuning de LLM ne sont pas possibles La plupart des LLM ont des versions capables de tourner avec une petite VRAM (Falcon sur 40GB) Faut-il exécuter les modèles en local ou sur un Cloud GPU ? Les deux sont des choix raisonnables Pour exécuter les modèles dans le cloud, les templates de Runpod sont l’option la plus simple L’option la plus simple est d’utiliser une instance hébergée : DreamStudio, RunDiffusion, Playground AI pour Stable Diffusion, etc. Quelle différence entre RTX 6000, A6000 et 6000 Ada ? Ils sont tous les trois complètement différents RTX 6000 (Quadro RTX 6000, 24 GB VRAM, sortie le 2018/08/13) RTX A6000 (48 GB VRAM, sortie le 2020/10/05) RTX 6000 Ada (48 GB VRAM, sortie le 2022/12/03) DGX GH200, GH200, H100 ? 1 DGX GH200 contient 256 GH200 1 GH200 comprend 1 H100 et 1 CPU Grace Le H100 est-il une grosse évolution par rapport au A100 ? Bien sûr. Le gain de vitesse est très important. Le H100 peut aussi s’étendre à un plus grand nombre de GPU que le A100 Donc, pour l’entraînement de LLM, plusieurs H100 sont la meilleure option Et AMD, Intel, Cerebras ? À l’heure actuelle, Nvidia reste le plus simple Quel cloud GPU choisir ? Si vous avez besoin de nombreux A100/H100 : contactez Oracle, FluidStack, Lambda Labs, etc. Si vous avez besoin de quelques A100 : FluidStack ou Runpod Si vous avez besoin de 1 H100 : FluidStack ou Lambda Labs Pour des 3090, 4090, A6000 bon marché : Tensordock Si vous n’avez besoin que d’inférence Stable Diffusion : Salad Si vous avez besoin de différents types de GPU : Runpod ou FluidStack Si vous voulez utiliser des templates ou faire ça en hobby : Runpod Les grands clouds sont chers et complexes Le cloud GPU le plus simple pour démarrer Utiliser des templates sur RunPod Notez que les pods RunPod ne sont pas des VM complètes, mais des conteneurs Docker sur une machine hôte De combien de VRAM, de RAM système et de vCPU avez-vous besoin ? VRAM (Video RAM / GPU RAM) Falcon-40B: 85-100GB MPT-30B: 80GB Stable Diffusion: 16GB+ recommandé Whisper: 12GB+. (Avec la version OpenAI, il faut à peu près cela ; avec la version communautaire, c’est aussi possible sur CPU) RAM système 1 à 2 fois la VRAM vCPU 8 à 16 vCPU suffisent, sauf pour les gros workloads GPU Espace disque Cela dépend du cas d’usage. Si vous ne savez pas, commencez avec 100GB et voyez si cela convient à votre usage

(gpus.llm-utils.org)

37 points par xguru 2023-08-23 | 6 commentaires | Partager sur WhatsApp

Si vous créez des outils d’IA avec StableDiffusion, Whisper, des LLM open source, etc., ils doivent continuer à s’exécuter quelque part

Quel GPU choisir ?

Si vous utilisez un Cloud GPU :

Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct
- Si vous voulez les meilleures performances sans contrainte de coût : 2 H100
- Si vous recherchez un équilibre entre coût et performances : 2 RTX 6000 Ada (pas A6000 ni RTX6000)
- Si vous voulez une option économique : 2 A6000
MPT-30B
- Meilleures performances ou meilleur rapport qualité-prix : 1 H100
- Économique : 1 A100 80GB
Stable Diffusion
- Meilleures performances : 1 H100
- Rapport qualité-prix : 1 4090
- Économique : 1 3090
Whisper
- Même chose que Stable Diffusion
- Whisper-Large peut fonctionner avec moins de VRAM, mais la plupart des clouds ne proposent pas ce type de carte
- Les 4090/3090 fonctionnent aussi très bien, et c’est également possible sur CPU
Si vous faites du fine-tuning de grands LLM
- Cluster de H100 ou cluster de A100
Si vous voulez entraîner de grands LLM
- Grand cluster de H100
  Si vous utilisez un GPU local :
C’est presque la même chose que ci-dessus, mais l’entraînement et le fine-tuning de LLM ne sont pas possibles
La plupart des LLM ont des versions capables de tourner avec une petite VRAM (Falcon sur 40GB)

Faut-il exécuter les modèles en local ou sur un Cloud GPU ?

Les deux sont des choix raisonnables
Pour exécuter les modèles dans le cloud, les templates de Runpod sont l’option la plus simple
L’option la plus simple est d’utiliser une instance hébergée : DreamStudio, RunDiffusion, Playground AI pour Stable Diffusion, etc.

Quelle différence entre RTX 6000, A6000 et 6000 Ada ?

Ils sont tous les trois complètement différents

RTX 6000 (Quadro RTX 6000, 24 GB VRAM, sortie le 2018/08/13)
RTX A6000 (48 GB VRAM, sortie le 2020/10/05)
RTX 6000 Ada (48 GB VRAM, sortie le 2022/12/03)

DGX GH200, GH200, H100 ?

1 DGX GH200 contient 256 GH200
1 GH200 comprend 1 H100 et 1 CPU Grace

Le H100 est-il une grosse évolution par rapport au A100 ?

Bien sûr. Le gain de vitesse est très important. Le H100 peut aussi s’étendre à un plus grand nombre de GPU que le A100
Donc, pour l’entraînement de LLM, plusieurs H100 sont la meilleure option

Et AMD, Intel, Cerebras ?

À l’heure actuelle, Nvidia reste le plus simple

Quel cloud GPU choisir ?

Si vous avez besoin de nombreux A100/H100 : contactez Oracle, FluidStack, Lambda Labs, etc.
Si vous avez besoin de quelques A100 : FluidStack ou Runpod
Si vous avez besoin de 1 H100 : FluidStack ou Lambda Labs
Pour des 3090, 4090, A6000 bon marché : Tensordock
Si vous n’avez besoin que d’inférence Stable Diffusion : Salad
Si vous avez besoin de différents types de GPU : Runpod ou FluidStack
Si vous voulez utiliser des templates ou faire ça en hobby : Runpod
Les grands clouds sont chers et complexes

Le cloud GPU le plus simple pour démarrer

Utiliser des templates sur RunPod
Notez que les pods RunPod ne sont pas des VM complètes, mais des conteneurs Docker sur une machine hôte

De combien de VRAM, de RAM système et de vCPU avez-vous besoin ?

VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: 16GB+ recommandé
- Whisper: 12GB+. (Avec la version OpenAI, il faut à peu près cela ; avec la version communautaire, c’est aussi possible sur CPU)
RAM système
- 1 à 2 fois la VRAM
vCPU
- 8 à 16 vCPU suffisent, sauf pour les gros workloads GPU
Espace disque
Cela dépend du cas d’usage. Si vous ne savez pas, commencez avec 100GB et voyez si cela convient à votre usage

6 commentaires

wlsdk318 2024-01-30

J’utilise Runpod, c’est peu coûteux, facile à utiliser et vraiment génial ! Merci pour ces bonnes informations.

geekbini 2023-08-24

C’est une très bonne information !

ninebow 2023-08-24

Cela reste un détail, mais il semblait manquer environ deux sections en bas, donc je les ai ajoutées. :)

Faut-il du SXM ou du PCIe, et a-t-on besoin de NVLink ?

Si vous n’en êtes pas certain, partez du principe que ce n’est pas important dans un premier temps
Pour aller plus loin : https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

Et l’InfiniBand ?

Inutile si vous utilisez 1 à 2 GPU. Nécessaire si vous utilisez des clusters de plusieurs milliers de GPU.