- Fly.io construit un cloud public sur son propre matériel et a développé Fly GPU Machines avec l’objectif de proposer de l’inférence IA/ML exploitant des GPU
- Fly GPU Machines est une VM qui exécute des conteneurs Docker/OCI, conçue pour permettre des calculs CUDA rapides grâce au mappage direct de GPU NVIDIA
- L’importance de l’IA/ML a été plus grande que prévu, mais les offres GPU semblent ne pas avoir réellement reflété les besoins du marché
Difficultés techniques liées à l’adoption des GPU
- Fly GPU Machines a été conçu avec Cloud Hypervisor d’Intel plutôt que Firecracker afin de prendre en charge le PCI passthrough
- L’écosystème NVIDIA ne prend pas en charge les hyperviseurs de micro-VM, ce qui complique la sécurisation des GPU et l’optimisation de leurs performances
- Les GPU étaient une source d’inquiétude pour l’équipe sécurité : les transferts DMA (Direct Memory Access) multidirectionnels et les opérations contrôlées par l’utilisateur créaient des risques de sécurité élevés
- Du matériel serveur séparé a été utilisé pour isoler les charges de travail GPU et non-GPU, ce qui a conduit à une structure de coûts inefficace
- Pour la validation de sécurité, de vastes évaluations ont été menées avec Atredis et Tetrel, avec un coût et un temps très élevés
Tâtonnements techniques
- Au lieu de suivre l’approche recommandée par NVIDIA (mettre en place un cluster K8s ou utiliser QEMU), Fly a tenté de préserver le temps de démarrage rapide de Fly Machines
- Tentative échouée d’utiliser les pilotes de GPU virtuel (vGPU) de NVIDIA avec Intel Cloud Hypervisor
- L’environnement fermé des pilotes NVIDIA a rendu difficile la conception d’une architecture permettant d’exploiter efficacement les GPU
- Il fallait optimiser le chargement des poids de modèles sur GPU, mais il était difficile de résoudre ce problème tout en conservant une bonne expérience développeur (DX)
- Beaucoup de GPU ont été achetés, mais les résultats n’ont pas été à la hauteur des attentes
Pourquoi le modèle économique autour des GPU a échoué
- Les développeurs généralistes veulent des LLM plus que des GPU
- Utiliser les API de LLM comme OpenAI ou Anthropic est plus simple que d’optimiser des modèles d’IA/ML, et l’écart de performance n’est pas si important
- La plupart des développeurs accordent de l’importance aux performances en « tokens per second », et s’intéressent peu aux optimisations à l’échelle de la milliseconde qu’apportent les GPU
- Les entreprises qui réalisent des travaux d’IA à grande échelle ont besoin d’une capacité de calcul GPU énorme, et même un seul GPU A100 ne suffit pas
- Les grands laboratoires et entreprises d’IA veulent des clusters H100 basés sur SXM
- Il existe peut-être un marché pour de petits GPU destinés à des charges ML légères, mais NVIDIA MIG est difficile à exploiter dans un environnement entièrement virtualisé
- Les GPU L40S sont utilisés de manière utile, mais n’ont pas constitué un moteur de croissance du cœur de métier de Fly.io
Enseignements tirés
- Au départ (en 2022), on s’attendait à l’émergence de nombreux modèles d’IA différents, mais aujourd’hui le marché converge vers un petit nombre de LLM comme OpenAI et Anthropic
- Fly.io suit le principe de « concevoir des fonctionnalités pour 10 000 développeurs »
- Les GPU n’étaient qu’une fonctionnalité pour le 10 001e développeur, ce qui a rendu difficile leur positionnement comme produit principal
- Une startup apprend à travers de multiples tentatives, et l’adoption des GPU a été un pari raté parmi d’autres
- Les investissements liés aux GPU ne sont pas une perte totale, et une partie du matériel pourra être revendue plus tard
- Il est possible de réduire la prise en charge des GPU tout en préservant la sécurité et l’expérience développeur de Fly Machines
- Le runtime initial de edge computing JavaScript de Fly.io n’était pas non plus ce que le marché voulait, et comme l’entreprise a fini par pivoter vers la prise en charge des conteneurs, les GPU ont eux aussi été un choix qui ne correspondait pas aux besoins du marché
- Les startups trouvent souvent la bonne réponse à partir d’hypothèses erronées, et ce cas des GPU n’est qu’une étape de ce processus
1 commentaires
Avis Hacker News
Les développeurs veulent des LLMs plutôt que des GPU ou des modèles d’IA/ML. Les ingénieurs systèmes se soucient de CUDA et des GPU, mais pas les développeurs logiciels
git pushet ne veut pas comprendre des choses comme le DNS ou LinuxDepuis 2012, la loi de Moore est en pratique terminée. L’exécution monothread s’est arrêtée à 2 GHz
Les machines GPU de fly sont très rapides et fiables, et ne sont pas chères par rapport aux alternatives
J’ai acheté une 4090, mais 24 Go de VRAM ne suffisent pas
Les clients qui choisissent Fly seront probablement les derniers à utiliser des serveurs GPU dédiés sur le long terme
C’est dommage qu’il n’y ait pas de tranches de GPU. Un coût de 1�000 $ par mois est difficile à justifier
« Nous avions tort » est l’une des paroles les plus nobles et les plus belles en anglais
Fly.io attire des développeurs similaires à ceux de la plateforme Workers de Cloudflare
Il a fallu un mois pour configurer un endpoint serverless sur Runpod, et c’était cher et peu fiable