5 points par GN⁺ 2024-11-19 | 1 commentaires | Partager sur WhatsApp
  • Présentation de Regatta Storage

    • Regatta Storage est un nouveau système de fichiers cloud qui offre une capacité illimitée, des performances comparables au local et une synchronisation automatique vers un stockage compatible S3
    • Il rend immédiatement accessibles les grands jeux de données de S3 avec des outils comme Spark, Pytorch et pandas
    • Il est possible d’essayer gratuitement le service en créant un compte
  • Contexte du développement

    • Le fondateur a développé Regatta en s’appuyant sur son expérience de construction et d’exploitation du stockage cloud chez Amazon EFS et Netflix
    • Il appréciait la simplicité et la capacité de montée en charge d’EFS, mais Netflix utilisait peu EFS
    • Des problèmes de performance apparaissaient lors du déplacement de charges de travail du disque local vers NFS
    • Regatta a été conçu pour résoudre des problèmes du marché du stockage cloud que ni le stockage bloc ni le stockage fichier ne parvenaient à traiter
  • Caractéristiques de Regatta

    • Un système de fichiers cloud à tarification à l’usage, qui monte automatiquement en charge avec les applications
    • Synchronisation automatique avec S3 dans des formats de fichiers natifs, ce qui permet de se connecter à des jeux de données existants et d’utiliser directement les données de fichiers depuis S3
    • Les données inutilisées sont retirées du cache Regatta, de sorte que l’on ne paie que le coût du stockage S3
    • L’équipe développe un protocole de fichiers personnalisé offrant des performances de type local pour les charges de travail à petits fichiers et une montée en charge comparable à Lustre pour les traitements de données distribués
  • Implémentation technique

    • Les clients montent le système de fichiers Regatta via NFSv3, et l’instance de cache se connecte au bucket S3 du client
    • Le système offre des performances de lecture et d’écriture en cache en dessous de la milliseconde, tout en maintenant une forte cohérence
    • Des opérations complexes comme le renommage de répertoires sont effectuées rapidement et de manière fiable, puis propagées de façon asynchrone vers le bucket S3
  • Cas d’usage et attentes

    • Utilisé pour créer des serveurs Jupyter Notebook serverless destinés aux chercheurs en IA
    • Employé comme couche de cache distribuée au-dessus de S3 pour accéder à des fichiers communs avec une faible latence
    • Utilisé pour remplacer des volumes de démarrage Ceph afin de réduire les coûts
    • L’équipe accueille avec intérêt les retours des utilisateurs et les idées sur les orientations futures, et attend l’avis de la communauté

1 commentaires

 
GN⁺ 2024-11-19
Commentaires Hacker News
  • La différence entre Rclone et Regatta Storage, c’est que Regatta fournit une forte cohérence lors des opérations de modification du système de fichiers grâce à une couche de cache haute performance. Rclone ne dispose d’aucune couche garantissant la cohérence entre clients parallèles

    • Regatta Storage fournit une forte cohérence lors des opérations de modification du système de fichiers grâce à une couche de cache haute performance
    • Rclone ne dispose d’aucune couche garantissant la cohérence entre clients parallèles
  • L’un des produits les plus impressionnants issus de YC, et plusieurs questions se posent sur son fonctionnement

    • Je me demande s’il y a une baisse de performance lorsqu’on traite 50 Go de données avec un disque local de 10 Go
    • Je me demande s’il est possible d’obtenir de bonnes performances sur d’autres clouds qu’AWS
    • Je m’interroge sur l’approche utilisant les montages FUSE et NFS
    • Je me demande s’il est possible d’exécuter Clickhouse ou Postgres sur un volume Regatta
    • Je me demande quelle est leur position sur l’open source
    • Je me demande s’il est possible de le monter sur plusieurs serveurs, et quelles en sont les limites
  • Utilisation de GCP Filestore pour héberger DuckDB, avec une demande d’informations sur le prix et les performances de Regatta

    • Demande d’informations sur le prix et les performances d’une instance de 10 TiB
  • Intérêt comme disque de sauvegarde pour SQLite/DuckDB/parquet, avec souhait de lectures mises en cache sur le stockage NVMe local de l’instance

    • Besoin de fonctionnalités de verrouillage et de mémoire partagée qu’on ne peut pas obtenir avec NFS
    • On pourrait l’implémenter directement en espace utilisateur, mais dans ce cas autant utiliser S3
  • L’utilisation de NFS comme protocole semble être une bonne idée

    • Expérience chez IBM à écrire un système de fichiers chiffré fondé sur un concept similaire
    • Quand on monte le système de fichiers, le fait que toutes les données soient « simplement là » paraît magique
  • Inquiétude quant à la possibilité qu’AWS copie ce produit et le propose à un prix inférieur

  • Expérience d’une démonstration réussie en 2008 devant le CEO d’Adobe, où une photo prise avec un iPhone apparaissait automatiquement comme fichier sur un Mac

    • Implémentation d’un FUSE local communiquant avec le stockage d’objets distribué d’Adobe
    • Début des travaux de R&D sur les systèmes distribués avec le lancement de Dropbox
  • Je me demande s’il est possible de construire un stockage SQL ACID en temps réel avec Lambda + SQLite + Regatta

  • On ne voit pas clairement comment les conflits de mise à jour de fichiers sont gérés

    • Par exemple, si deux utilisateurs mettent à jour le même fichier depuis des ordinateurs différents, je me demande quel sera le fichier final
  • Il existe des alternatives notables comme s3fs, rclone, goofys, etc.