2 points par GN⁺ 2023-07-31 | 1 commentaires | Partager sur WhatsApp
  • San Francisco Compute est un groupe qui réunit des startups et des laboratoires de recherche pour acheter et partager en commun des ressources de calcul destinées à l’entraînement de modèles à grande échelle.
  • Au lieu que chaque startup achète son propre cluster de GPU, le groupe achète un cluster dont le nombre total de GPU est proportionnel au nombre de startups.
  • Sur la base de la propriété, un ordonnanceur de tâches attribue équitablement les ressources de calcul à toutes les startups.
  • Cela permet aux startups d’utiliser 512 GPU pendant une semaine pour accélérer l’entraînement d’un modèle, tout en évitant la contrainte de devoir occuper en continu 128 GPU pendant un mois.
  • S’il existe des ressources de calcul inutilisées, l’ordonnanceur peut attribuer aux startups davantage de ressources que leur quota équitable.
  • Ce modèle est similaire à celui utilisé par de grands laboratoires comme OpenAI et Deepmind, mais il est plus accessible aux startups, qui disposent généralement de clusters plus petits et de contrats de longue durée.
  • L’objectif est de proposer des ressources de calcul à environ $2.00 par GPU H100, avec une allocation flexible et des contrats de courte durée.
  • Les startups peuvent rejoindre le groupe en remplissant un formulaire ou en contactant les organisateurs.
  • Les startups peuvent quitter le cluster après un préavis, et de nouvelles startups peuvent être ajoutées par vagues.
  • Le groupe peut prévoir une légère surcapacité afin d’accueillir de petites expérimentations ou les demandes d’amis à bon prix.
  • Le financement de l’achat du cluster peut être réparti avec l’aide de banques.
  • Le groupe prévoit de mettre en ligne 512 GPU H100 sous 4 à 6 semaines et pourra ajouter davantage de ressources si la demande est forte.
  • Une mailing list de débogage de l’infrastructure et un groupe Slack sont proposés comme espaces où les membres peuvent demander de l’aide sur les problèmes d’infrastructure.

1 commentaires

 
GN⁺ 2023-07-31
Commentaires Hacker News
  • Un commentateur souhaite la réussite du projet et mentionne des projets similaires auxquels il a déjà participé
  • Un commentateur revient sur l’évolution de la disponibilité des TPU et sur les difficultés rencontrées dans des projets précédents
  • Un commentateur se montre optimiste à propos du projet actuel et conseille à l’équipe d’accueillir activement les idées des autres
  • Un commentateur compare le modèle économique du projet à celui de fournisseurs cloud comme AWS et Azure
  • Suggestion d’héberger l’infrastructure en dehors de la Californie en raison des coûts élevés
  • Question sur la comparaison du projet avec Lambda Labs
  • Question sur les usages potentiels du projet pour les étudiants à l’université et en cycle graduate
  • Recommandation d’utiliser vast.ai pour le machine learning en amateur
  • Mention de l’idée d’une coopérative de GPU
  • Question sur l’origine du nom du projet et sur les plans de participation de la communauté
  • Question sur le financement de l’achat des H100
  • Les commentaires incluent deux messages d’erreur