Guide des Cloud GPU - quel GPU utiliser pour l’IA, et où ?
(gpus.llm-utils.org)- Si vous créez des outils d’IA avec StableDiffusion, Whisper, des LLM open source, etc., ils doivent continuer à s’exécuter quelque part
Quel GPU choisir ?
Si vous utilisez un Cloud GPU :
- Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct
- Si vous voulez les meilleures performances sans contrainte de coût : 2 H100
- Si vous recherchez un équilibre entre coût et performances : 2 RTX 6000 Ada (pas A6000 ni RTX6000)
- Si vous voulez une option économique : 2 A6000
- MPT-30B
- Meilleures performances ou meilleur rapport qualité-prix : 1 H100
- Économique : 1 A100 80GB
- Stable Diffusion
- Meilleures performances : 1 H100
- Rapport qualité-prix : 1 4090
- Économique : 1 3090
- Whisper
- Même chose que Stable Diffusion
- Whisper-Large peut fonctionner avec moins de VRAM, mais la plupart des clouds ne proposent pas ce type de carte
- Les 4090/3090 fonctionnent aussi très bien, et c’est également possible sur CPU
- Si vous faites du fine-tuning de grands LLM
- Cluster de H100 ou cluster de A100
- Si vous voulez entraîner de grands LLM
- Grand cluster de H100
Si vous utilisez un GPU local :
- Grand cluster de H100
- C’est presque la même chose que ci-dessus, mais l’entraînement et le fine-tuning de LLM ne sont pas possibles
- La plupart des LLM ont des versions capables de tourner avec une petite VRAM (Falcon sur 40GB)
Faut-il exécuter les modèles en local ou sur un Cloud GPU ?
- Les deux sont des choix raisonnables
- Pour exécuter les modèles dans le cloud, les templates de Runpod sont l’option la plus simple
- L’option la plus simple est d’utiliser une instance hébergée : DreamStudio, RunDiffusion, Playground AI pour Stable Diffusion, etc.
Quelle différence entre RTX 6000, A6000 et 6000 Ada ?
Ils sont tous les trois complètement différents
- RTX 6000 (Quadro RTX 6000, 24 GB VRAM, sortie le 2018/08/13)
- RTX A6000 (48 GB VRAM, sortie le 2020/10/05)
- RTX 6000 Ada (48 GB VRAM, sortie le 2022/12/03)
DGX GH200, GH200, H100 ?
- 1 DGX GH200 contient 256 GH200
- 1 GH200 comprend 1 H100 et 1 CPU Grace
Le H100 est-il une grosse évolution par rapport au A100 ?
- Bien sûr. Le gain de vitesse est très important. Le H100 peut aussi s’étendre à un plus grand nombre de GPU que le A100
- Donc, pour l’entraînement de LLM, plusieurs H100 sont la meilleure option
Et AMD, Intel, Cerebras ?
- À l’heure actuelle, Nvidia reste le plus simple
Quel cloud GPU choisir ?
- Si vous avez besoin de nombreux A100/H100 : contactez Oracle, FluidStack, Lambda Labs, etc.
- Si vous avez besoin de quelques A100 : FluidStack ou Runpod
- Si vous avez besoin de 1 H100 : FluidStack ou Lambda Labs
- Pour des 3090, 4090, A6000 bon marché : Tensordock
- Si vous n’avez besoin que d’inférence Stable Diffusion : Salad
- Si vous avez besoin de différents types de GPU : Runpod ou FluidStack
- Si vous voulez utiliser des templates ou faire ça en hobby : Runpod
- Les grands clouds sont chers et complexes
Le cloud GPU le plus simple pour démarrer
- Utiliser des templates sur RunPod
- Notez que les pods RunPod ne sont pas des VM complètes, mais des conteneurs Docker sur une machine hôte
De combien de VRAM, de RAM système et de vCPU avez-vous besoin ?
- VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: 16GB+ recommandé
- Whisper: 12GB+. (Avec la version OpenAI, il faut à peu près cela ; avec la version communautaire, c’est aussi possible sur CPU)
- RAM système
- 1 à 2 fois la VRAM
- vCPU
- 8 à 16 vCPU suffisent, sauf pour les gros workloads GPU
- Espace disque
- Cela dépend du cas d’usage. Si vous ne savez pas, commencez avec 100GB et voyez si cela convient à votre usage
6 commentaires
J’utilise Runpod, c’est peu coûteux, facile à utiliser et vraiment génial ! Merci pour ces bonnes informations.
C’est une très bonne information !
Cela reste un détail, mais il semblait manquer environ deux sections en bas, donc je les ai ajoutées. :)
Faut-il du SXM ou du PCIe, et a-t-on besoin de NVLink ?
Et l’InfiniBand ?
Merci pour cet excellent article !
Pour les personnes concernées, ce sera vraiment une information précieuse.
Oh, c’est une ressource vraiment très utile.