- San Francisco Compute est un groupe qui réunit des startups et des laboratoires de recherche pour acheter et partager en commun des ressources de calcul destinées à l’entraînement de modèles à grande échelle.
- Au lieu que chaque startup achète son propre cluster de GPU, le groupe achète un cluster dont le nombre total de GPU est proportionnel au nombre de startups.
- Sur la base de la propriété, un ordonnanceur de tâches attribue équitablement les ressources de calcul à toutes les startups.
- Cela permet aux startups d’utiliser 512 GPU pendant une semaine pour accélérer l’entraînement d’un modèle, tout en évitant la contrainte de devoir occuper en continu 128 GPU pendant un mois.
- S’il existe des ressources de calcul inutilisées, l’ordonnanceur peut attribuer aux startups davantage de ressources que leur quota équitable.
- Ce modèle est similaire à celui utilisé par de grands laboratoires comme OpenAI et Deepmind, mais il est plus accessible aux startups, qui disposent généralement de clusters plus petits et de contrats de longue durée.
- L’objectif est de proposer des ressources de calcul à environ $2.00 par GPU H100, avec une allocation flexible et des contrats de courte durée.
- Les startups peuvent rejoindre le groupe en remplissant un formulaire ou en contactant les organisateurs.
- Les startups peuvent quitter le cluster après un préavis, et de nouvelles startups peuvent être ajoutées par vagues.
- Le groupe peut prévoir une légère surcapacité afin d’accueillir de petites expérimentations ou les demandes d’amis à bon prix.
- Le financement de l’achat du cluster peut être réparti avec l’aide de banques.
- Le groupe prévoit de mettre en ligne 512 GPU H100 sous 4 à 6 semaines et pourra ajouter davantage de ressources si la demande est forte.
- Une mailing list de débogage de l’infrastructure et un groupe Slack sont proposés comme espaces où les membres peuvent demander de l’aide sur les problèmes d’infrastructure.
1 commentaires
Commentaires Hacker News