Lancement HN : Regatta Storage (YC F24) – la technologie qui transforme S3 en système de fichiers cloud de type POSIX avec une expérience locale
(news.ycombinator.com)-
Présentation de Regatta Storage
- Regatta Storage est un nouveau système de fichiers cloud qui offre une capacité illimitée, des performances comparables au local et une synchronisation automatique vers un stockage compatible S3
- Il rend immédiatement accessibles les grands jeux de données de S3 avec des outils comme Spark, Pytorch et pandas
- Il est possible d’essayer gratuitement le service en créant un compte
-
Contexte du développement
- Le fondateur a développé Regatta en s’appuyant sur son expérience de construction et d’exploitation du stockage cloud chez Amazon EFS et Netflix
- Il appréciait la simplicité et la capacité de montée en charge d’EFS, mais Netflix utilisait peu EFS
- Des problèmes de performance apparaissaient lors du déplacement de charges de travail du disque local vers NFS
- Regatta a été conçu pour résoudre des problèmes du marché du stockage cloud que ni le stockage bloc ni le stockage fichier ne parvenaient à traiter
-
Caractéristiques de Regatta
- Un système de fichiers cloud à tarification à l’usage, qui monte automatiquement en charge avec les applications
- Synchronisation automatique avec S3 dans des formats de fichiers natifs, ce qui permet de se connecter à des jeux de données existants et d’utiliser directement les données de fichiers depuis S3
- Les données inutilisées sont retirées du cache Regatta, de sorte que l’on ne paie que le coût du stockage S3
- L’équipe développe un protocole de fichiers personnalisé offrant des performances de type local pour les charges de travail à petits fichiers et une montée en charge comparable à Lustre pour les traitements de données distribués
-
Implémentation technique
- Les clients montent le système de fichiers Regatta via NFSv3, et l’instance de cache se connecte au bucket S3 du client
- Le système offre des performances de lecture et d’écriture en cache en dessous de la milliseconde, tout en maintenant une forte cohérence
- Des opérations complexes comme le renommage de répertoires sont effectuées rapidement et de manière fiable, puis propagées de façon asynchrone vers le bucket S3
-
Cas d’usage et attentes
- Utilisé pour créer des serveurs Jupyter Notebook serverless destinés aux chercheurs en IA
- Employé comme couche de cache distribuée au-dessus de S3 pour accéder à des fichiers communs avec une faible latence
- Utilisé pour remplacer des volumes de démarrage Ceph afin de réduire les coûts
- L’équipe accueille avec intérêt les retours des utilisateurs et les idées sur les orientations futures, et attend l’avis de la communauté
1 commentaires
Commentaires Hacker News
La différence entre Rclone et Regatta Storage, c’est que Regatta fournit une forte cohérence lors des opérations de modification du système de fichiers grâce à une couche de cache haute performance. Rclone ne dispose d’aucune couche garantissant la cohérence entre clients parallèles
L’un des produits les plus impressionnants issus de YC, et plusieurs questions se posent sur son fonctionnement
Utilisation de GCP Filestore pour héberger DuckDB, avec une demande d’informations sur le prix et les performances de Regatta
Intérêt comme disque de sauvegarde pour SQLite/DuckDB/parquet, avec souhait de lectures mises en cache sur le stockage NVMe local de l’instance
L’utilisation de NFS comme protocole semble être une bonne idée
Inquiétude quant à la possibilité qu’AWS copie ce produit et le propose à un prix inférieur
Expérience d’une démonstration réussie en 2008 devant le CEO d’Adobe, où une photo prise avec un iPhone apparaissait automatiquement comme fichier sur un Mac
Je me demande s’il est possible de construire un stockage SQL ACID en temps réel avec Lambda + SQLite + Regatta
On ne voit pas clairement comment les conflits de mise à jour de fichiers sont gérés
Il existe des alternatives notables comme s3fs, rclone, goofys, etc.