Les idées reçues sur les GPU

(fly.io)

7 points par GN⁺ 2025-02-15 | 1 commentaires | Partager sur WhatsApp

Fly.io construit un cloud public sur son propre matériel et a développé Fly GPU Machines avec l’objectif de proposer de l’inférence IA/ML exploitant des GPU
Fly GPU Machines est une VM qui exécute des conteneurs Docker/OCI, conçue pour permettre des calculs CUDA rapides grâce au mappage direct de GPU NVIDIA
L’importance de l’IA/ML a été plus grande que prévu, mais les offres GPU semblent ne pas avoir réellement reflété les besoins du marché

Difficultés techniques liées à l’adoption des GPU

Fly GPU Machines a été conçu avec Cloud Hypervisor d’Intel plutôt que Firecracker afin de prendre en charge le PCI passthrough
L’écosystème NVIDIA ne prend pas en charge les hyperviseurs de micro-VM, ce qui complique la sécurisation des GPU et l’optimisation de leurs performances
Les GPU étaient une source d’inquiétude pour l’équipe sécurité : les transferts DMA (Direct Memory Access) multidirectionnels et les opérations contrôlées par l’utilisateur créaient des risques de sécurité élevés
Du matériel serveur séparé a été utilisé pour isoler les charges de travail GPU et non-GPU, ce qui a conduit à une structure de coûts inefficace
Pour la validation de sécurité, de vastes évaluations ont été menées avec Atredis et Tetrel, avec un coût et un temps très élevés

Tâtonnements techniques

Au lieu de suivre l’approche recommandée par NVIDIA (mettre en place un cluster K8s ou utiliser QEMU), Fly a tenté de préserver le temps de démarrage rapide de Fly Machines
Tentative échouée d’utiliser les pilotes de GPU virtuel (vGPU) de NVIDIA avec Intel Cloud Hypervisor
L’environnement fermé des pilotes NVIDIA a rendu difficile la conception d’une architecture permettant d’exploiter efficacement les GPU
Il fallait optimiser le chargement des poids de modèles sur GPU, mais il était difficile de résoudre ce problème tout en conservant une bonne expérience développeur (DX)
Beaucoup de GPU ont été achetés, mais les résultats n’ont pas été à la hauteur des attentes

Pourquoi le modèle économique autour des GPU a échoué

Les développeurs généralistes veulent des LLM plus que des GPU
- Utiliser les API de LLM comme OpenAI ou Anthropic est plus simple que d’optimiser des modèles d’IA/ML, et l’écart de performance n’est pas si important
- La plupart des développeurs accordent de l’importance aux performances en « tokens per second », et s’intéressent peu aux optimisations à l’échelle de la milliseconde qu’apportent les GPU
Les entreprises qui réalisent des travaux d’IA à grande échelle ont besoin d’une capacité de calcul GPU énorme, et même un seul GPU A100 ne suffit pas
- Les grands laboratoires et entreprises d’IA veulent des clusters H100 basés sur SXM
Il existe peut-être un marché pour de petits GPU destinés à des charges ML légères, mais NVIDIA MIG est difficile à exploiter dans un environnement entièrement virtualisé
Les GPU L40S sont utilisés de manière utile, mais n’ont pas constitué un moteur de croissance du cœur de métier de Fly.io

Enseignements tirés

Au départ (en 2022), on s’attendait à l’émergence de nombreux modèles d’IA différents, mais aujourd’hui le marché converge vers un petit nombre de LLM comme OpenAI et Anthropic
Fly.io suit le principe de « concevoir des fonctionnalités pour 10 000 développeurs »
- Les GPU n’étaient qu’une fonctionnalité pour le 10 001e développeur, ce qui a rendu difficile leur positionnement comme produit principal
Une startup apprend à travers de multiples tentatives, et l’adoption des GPU a été un pari raté parmi d’autres
Les investissements liés aux GPU ne sont pas une perte totale, et une partie du matériel pourra être revendue plus tard
Il est possible de réduire la prise en charge des GPU tout en préservant la sécurité et l’expérience développeur de Fly Machines
Le runtime initial de edge computing JavaScript de Fly.io n’était pas non plus ce que le marché voulait, et comme l’entreprise a fini par pivoter vers la prise en charge des conteneurs, les GPU ont eux aussi été un choix qui ne correspondait pas aux besoins du marché
Les startups trouvent souvent la bonne réponse à partir d’hypothèses erronées, et ce cas des GPU n’est qu’une étape de ce processus

1 commentaires

GN⁺ 2025-02-15

Avis Hacker News

Les développeurs veulent des LLMs plutôt que des GPU ou des modèles d’IA/ML. Les ingénieurs systèmes se soucient de CUDA et des GPU, mais pas les développeurs logiciels
- Il existe une grande fracture parmi les développeurs logiciels. Certains veulent comprendre où le code s’exécute et comment il fonctionne
- Un autre groupe veut simplement s’en sortir avec un git push et ne veut pas comprendre des choses comme le DNS ou Linux
- Des entreprises comme fly.io séduisent ces derniers. Les instances GPU séduisent les premiers
- Il faut aborder ces deux marchés différemment. On peut vendre beaucoup d’abstraction et d’automatisation aux seconds
Depuis 2012, la loi de Moore est en pratique terminée. L’exécution monothread s’est arrêtée à 2 GHz
- Entre 2012 et 2022, avec le passage au cloud, on n’a pas remarqué la stagnation du monothread
- En 2022, les data centers ont compris qu’ils n’avaient pas besoin d’acheter des puces de nouvelle génération avec davantage de cœurs
- Les LLMs sont parallélisables à 100 %, donc on peut de nouveau y investir du capital
- En 2024, le silicium à l’échelle du wafer va apparaître. Il pourra exécuter des modèles Llama 10 fois plus vite qu’un A100
- Le logiciel doit trouver comment exploiter cette performance
Les machines GPU de fly sont très rapides et fiables, et ne sont pas chères par rapport aux alternatives
- La DX est excellente. Pas besoin d’apprendre de nouvelles commandes
- On aimerait que les prix soient plus bas et que ce soit disponible dans davantage de régions
J’ai acheté une 4090, mais 24 Go de VRAM ne suffisent pas
- Deux 3090 ou plus avec une alimentation personnalisée auraient été un meilleur choix
- Les performances et la qualité restent insuffisantes
Les clients qui choisissent Fly seront probablement les derniers à utiliser des serveurs GPU dédiés sur le long terme
- Ils utiliseront probablement des solutions serverless
C’est dommage qu’il n’y ait pas de tranches de GPU. Un coût de 1�000 $ par mois est difficile à justifier
- Connecter un GPU grand public AMD à un Raspberry Pi pourrait être plus économique
« Nous avions tort » est l’une des paroles les plus nobles et les plus belles en anglais
Fly.io attire des développeurs similaires à ceux de la plateforme Workers de Cloudflare
- Ils veulent la vitesse de développement d’un environnement PaaS
- Cloudflare a conservé une approche PaaS avec les GPU et a construit Workers AI
Il a fallu un mois pour configurer un endpoint serverless sur Runpod, et c’était cher et peu fiable
- Il était possible d’utiliser des crédits Google Cloud pour livrer le produit aux clients
- Il existe une demande pour des fournisseurs de GPU. Il n’est pas certain que Fly puisse entrer sur ce marché

Les idées reçues sur les GPU

Difficultés techniques liées à l’adoption des GPU

Tâtonnements techniques

Pourquoi le modèle économique autour des GPU a échoué

Enseignements tirés

À lire aussi

1 commentaires

Avis Hacker News