37 points par xguru 2023-08-23 | 6 commentaires | Partager sur WhatsApp
  • Si vous créez des outils d’IA avec StableDiffusion, Whisper, des LLM open source, etc., ils doivent continuer à s’exécuter quelque part

Quel GPU choisir ?

Si vous utilisez un Cloud GPU :

  • Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct
    • Si vous voulez les meilleures performances sans contrainte de coût : 2 H100
    • Si vous recherchez un équilibre entre coût et performances : 2 RTX 6000 Ada (pas A6000 ni RTX6000)
    • Si vous voulez une option économique : 2 A6000
  • MPT-30B
    • Meilleures performances ou meilleur rapport qualité-prix : 1 H100
    • Économique : 1 A100 80GB
  • Stable Diffusion
    • Meilleures performances : 1 H100
    • Rapport qualité-prix : 1 4090
    • Économique : 1 3090
  • Whisper
    • Même chose que Stable Diffusion
    • Whisper-Large peut fonctionner avec moins de VRAM, mais la plupart des clouds ne proposent pas ce type de carte
    • Les 4090/3090 fonctionnent aussi très bien, et c’est également possible sur CPU
  • Si vous faites du fine-tuning de grands LLM
    • Cluster de H100 ou cluster de A100
  • Si vous voulez entraîner de grands LLM
    • Grand cluster de H100
      Si vous utilisez un GPU local :
  • C’est presque la même chose que ci-dessus, mais l’entraînement et le fine-tuning de LLM ne sont pas possibles
  • La plupart des LLM ont des versions capables de tourner avec une petite VRAM (Falcon sur 40GB)

Faut-il exécuter les modèles en local ou sur un Cloud GPU ?

  • Les deux sont des choix raisonnables
  • Pour exécuter les modèles dans le cloud, les templates de Runpod sont l’option la plus simple
  • L’option la plus simple est d’utiliser une instance hébergée : DreamStudio, RunDiffusion, Playground AI pour Stable Diffusion, etc.

Quelle différence entre RTX 6000, A6000 et 6000 Ada ?

Ils sont tous les trois complètement différents

  • RTX 6000 (Quadro RTX 6000, 24 GB VRAM, sortie le 2018/08/13)
  • RTX A6000 (48 GB VRAM, sortie le 2020/10/05)
  • RTX 6000 Ada (48 GB VRAM, sortie le 2022/12/03)

DGX GH200, GH200, H100 ?

  • 1 DGX GH200 contient 256 GH200
  • 1 GH200 comprend 1 H100 et 1 CPU Grace

Le H100 est-il une grosse évolution par rapport au A100 ?

  • Bien sûr. Le gain de vitesse est très important. Le H100 peut aussi s’étendre à un plus grand nombre de GPU que le A100
  • Donc, pour l’entraînement de LLM, plusieurs H100 sont la meilleure option

Et AMD, Intel, Cerebras ?

  • À l’heure actuelle, Nvidia reste le plus simple

Quel cloud GPU choisir ?

  • Si vous avez besoin de nombreux A100/H100 : contactez Oracle, FluidStack, Lambda Labs, etc.
  • Si vous avez besoin de quelques A100 : FluidStack ou Runpod
  • Si vous avez besoin de 1 H100 : FluidStack ou Lambda Labs
  • Pour des 3090, 4090, A6000 bon marché : Tensordock
  • Si vous n’avez besoin que d’inférence Stable Diffusion : Salad
  • Si vous avez besoin de différents types de GPU : Runpod ou FluidStack
  • Si vous voulez utiliser des templates ou faire ça en hobby : Runpod
  • Les grands clouds sont chers et complexes

Le cloud GPU le plus simple pour démarrer

De combien de VRAM, de RAM système et de vCPU avez-vous besoin ?

  • VRAM (Video RAM / GPU RAM)
    • Falcon-40B: 85-100GB
    • MPT-30B: 80GB
    • Stable Diffusion: 16GB+ recommandé
    • Whisper: 12GB+. (Avec la version OpenAI, il faut à peu près cela ; avec la version communautaire, c’est aussi possible sur CPU)
  • RAM système
    • 1 à 2 fois la VRAM
  • vCPU
    • 8 à 16 vCPU suffisent, sauf pour les gros workloads GPU
  • Espace disque
  • Cela dépend du cas d’usage. Si vous ne savez pas, commencez avec 100GB et voyez si cela convient à votre usage

6 commentaires

 
wlsdk318 2024-01-30

J’utilise Runpod, c’est peu coûteux, facile à utiliser et vraiment génial ! Merci pour ces bonnes informations.

 
geekbini 2023-08-24

C’est une très bonne information !

 
ninebow 2023-08-24

Cela reste un détail, mais il semblait manquer environ deux sections en bas, donc je les ai ajoutées. :)


Faut-il du SXM ou du PCIe, et a-t-on besoin de NVLink ?

Et l’InfiniBand ?

  • Inutile si vous utilisez 1 à 2 GPU. Nécessaire si vous utilisez des clusters de plusieurs milliers de GPU.
 
ninebow 2023-08-24

Merci pour cet excellent article !

 
nicewook 2023-08-23

Pour les personnes concernées, ce sera vraiment une information précieuse.

 
ragingwind 2023-08-23

Oh, c’est une ressource vraiment très utile.