7 points par GN⁺ 2025-02-15 | 1 commentaires | Partager sur WhatsApp
  • Fly.io construit un cloud public sur son propre matériel et a développé Fly GPU Machines avec l’objectif de proposer de l’inférence IA/ML exploitant des GPU
  • Fly GPU Machines est une VM qui exécute des conteneurs Docker/OCI, conçue pour permettre des calculs CUDA rapides grâce au mappage direct de GPU NVIDIA
  • L’importance de l’IA/ML a été plus grande que prévu, mais les offres GPU semblent ne pas avoir réellement reflété les besoins du marché

Difficultés techniques liées à l’adoption des GPU

  • Fly GPU Machines a été conçu avec Cloud Hypervisor d’Intel plutôt que Firecracker afin de prendre en charge le PCI passthrough
  • L’écosystème NVIDIA ne prend pas en charge les hyperviseurs de micro-VM, ce qui complique la sécurisation des GPU et l’optimisation de leurs performances
  • Les GPU étaient une source d’inquiétude pour l’équipe sécurité : les transferts DMA (Direct Memory Access) multidirectionnels et les opérations contrôlées par l’utilisateur créaient des risques de sécurité élevés
  • Du matériel serveur séparé a été utilisé pour isoler les charges de travail GPU et non-GPU, ce qui a conduit à une structure de coûts inefficace
  • Pour la validation de sécurité, de vastes évaluations ont été menées avec Atredis et Tetrel, avec un coût et un temps très élevés

Tâtonnements techniques

  • Au lieu de suivre l’approche recommandée par NVIDIA (mettre en place un cluster K8s ou utiliser QEMU), Fly a tenté de préserver le temps de démarrage rapide de Fly Machines
  • Tentative échouée d’utiliser les pilotes de GPU virtuel (vGPU) de NVIDIA avec Intel Cloud Hypervisor
  • L’environnement fermé des pilotes NVIDIA a rendu difficile la conception d’une architecture permettant d’exploiter efficacement les GPU
  • Il fallait optimiser le chargement des poids de modèles sur GPU, mais il était difficile de résoudre ce problème tout en conservant une bonne expérience développeur (DX)
  • Beaucoup de GPU ont été achetés, mais les résultats n’ont pas été à la hauteur des attentes

Pourquoi le modèle économique autour des GPU a échoué

  • Les développeurs généralistes veulent des LLM plus que des GPU
    • Utiliser les API de LLM comme OpenAI ou Anthropic est plus simple que d’optimiser des modèles d’IA/ML, et l’écart de performance n’est pas si important
    • La plupart des développeurs accordent de l’importance aux performances en « tokens per second », et s’intéressent peu aux optimisations à l’échelle de la milliseconde qu’apportent les GPU
  • Les entreprises qui réalisent des travaux d’IA à grande échelle ont besoin d’une capacité de calcul GPU énorme, et même un seul GPU A100 ne suffit pas
    • Les grands laboratoires et entreprises d’IA veulent des clusters H100 basés sur SXM
  • Il existe peut-être un marché pour de petits GPU destinés à des charges ML légères, mais NVIDIA MIG est difficile à exploiter dans un environnement entièrement virtualisé
  • Les GPU L40S sont utilisés de manière utile, mais n’ont pas constitué un moteur de croissance du cœur de métier de Fly.io

Enseignements tirés

  • Au départ (en 2022), on s’attendait à l’émergence de nombreux modèles d’IA différents, mais aujourd’hui le marché converge vers un petit nombre de LLM comme OpenAI et Anthropic
  • Fly.io suit le principe de « concevoir des fonctionnalités pour 10 000 développeurs »
    • Les GPU n’étaient qu’une fonctionnalité pour le 10 001e développeur, ce qui a rendu difficile leur positionnement comme produit principal
  • Une startup apprend à travers de multiples tentatives, et l’adoption des GPU a été un pari raté parmi d’autres
  • Les investissements liés aux GPU ne sont pas une perte totale, et une partie du matériel pourra être revendue plus tard
  • Il est possible de réduire la prise en charge des GPU tout en préservant la sécurité et l’expérience développeur de Fly Machines
  • Le runtime initial de edge computing JavaScript de Fly.io n’était pas non plus ce que le marché voulait, et comme l’entreprise a fini par pivoter vers la prise en charge des conteneurs, les GPU ont eux aussi été un choix qui ne correspondait pas aux besoins du marché
  • Les startups trouvent souvent la bonne réponse à partir d’hypothèses erronées, et ce cas des GPU n’est qu’une étape de ce processus

1 commentaires

 
GN⁺ 2025-02-15
Avis Hacker News
  • Les développeurs veulent des LLMs plutôt que des GPU ou des modèles d’IA/ML. Les ingénieurs systèmes se soucient de CUDA et des GPU, mais pas les développeurs logiciels

    • Il existe une grande fracture parmi les développeurs logiciels. Certains veulent comprendre où le code s’exécute et comment il fonctionne
    • Un autre groupe veut simplement s’en sortir avec un git push et ne veut pas comprendre des choses comme le DNS ou Linux
    • Des entreprises comme fly.io séduisent ces derniers. Les instances GPU séduisent les premiers
    • Il faut aborder ces deux marchés différemment. On peut vendre beaucoup d’abstraction et d’automatisation aux seconds
  • Depuis 2012, la loi de Moore est en pratique terminée. L’exécution monothread s’est arrêtée à 2 GHz

    • Entre 2012 et 2022, avec le passage au cloud, on n’a pas remarqué la stagnation du monothread
    • En 2022, les data centers ont compris qu’ils n’avaient pas besoin d’acheter des puces de nouvelle génération avec davantage de cœurs
    • Les LLMs sont parallélisables à 100 %, donc on peut de nouveau y investir du capital
    • En 2024, le silicium à l’échelle du wafer va apparaître. Il pourra exécuter des modèles Llama 10 fois plus vite qu’un A100
    • Le logiciel doit trouver comment exploiter cette performance
  • Les machines GPU de fly sont très rapides et fiables, et ne sont pas chères par rapport aux alternatives

    • La DX est excellente. Pas besoin d’apprendre de nouvelles commandes
    • On aimerait que les prix soient plus bas et que ce soit disponible dans davantage de régions
  • J’ai acheté une 4090, mais 24 Go de VRAM ne suffisent pas

    • Deux 3090 ou plus avec une alimentation personnalisée auraient été un meilleur choix
    • Les performances et la qualité restent insuffisantes
  • Les clients qui choisissent Fly seront probablement les derniers à utiliser des serveurs GPU dédiés sur le long terme

    • Ils utiliseront probablement des solutions serverless
  • C’est dommage qu’il n’y ait pas de tranches de GPU. Un coût de 1�000 $ par mois est difficile à justifier

    • Connecter un GPU grand public AMD à un Raspberry Pi pourrait être plus économique
  • « Nous avions tort » est l’une des paroles les plus nobles et les plus belles en anglais

  • Fly.io attire des développeurs similaires à ceux de la plateforme Workers de Cloudflare

    • Ils veulent la vitesse de développement d’un environnement PaaS
    • Cloudflare a conservé une approche PaaS avec les GPU et a construit Workers AI
  • Il a fallu un mois pour configurer un endpoint serverless sur Runpod, et c’était cher et peu fiable

    • Il était possible d’utiliser des crédits Google Cloud pour livrer le produit aux clients
    • Il existe une demande pour des fournisseurs de GPU. Il n’est pas certain que Fly puisse entrer sur ce marché