9 points par GN⁺ 2023-12-07 | 3 commentaires | Partager sur WhatsApp
  • La nouvelle classe de stockage à faible latence d’AWS, "S3 Express One Zone", attire l’attention de la communauté de l’infrastructure de données
    • L’accès aux données est 10 fois plus rapide, les coûts des requêtes API sont 50 % moins chers, et elle peut traiter des millions de requêtes par minute
  • La classe de stockage S3 Express coûte 8 fois plus cher par GiB que S3 Standard, ce qui la rend inadaptée comme stockage "principal" pour les systèmes de données à grande échelle
  • Le coût des opérations API est 50 % moins cher, mais pas au point d’être extrêmement bas, ce qui signifie qu’elle reste mal adaptée aux workloads auparavant jugés peu pratiques à cause du coût de l’API S3
  • S3 Express facture par GiB toutes les opérations API (écriture + lecture) dépassant 512 KiB
    • Autrement dit, chaque opération API inclut 512 KiB de bande passante "gratuite", et vous ne payez que lorsque ce seuil est dépassé
  • Cependant, comme il s’agit d’une classe de stockage One Zone, les systèmes de données doivent répliquer manuellement les données sur deux AZ pour se prémunir contre la défaillance d’une seule AZ
    • Le coût d’écrire deux fois les données sur deux AZ est comparable au coût de la réplication manuelle des données au niveau applicatif

Une nouvelle opportunité pour l’infrastructure de données moderne

  • Cette nouvelle classe de stockage offre une nouvelle possibilité d’ajuster, avec la même architecture et le même code, entre une faible latence et un coût élevé, ou une latence plus élevée et un coût plus faible
  • Tous les systèmes de données modernes n’ont désormais plus besoin d’être conçus en fonction de la disponibilité des disques locaux ou du stockage bloc (EBS), et peuvent être entièrement construits sur du stockage objet
  • Les données peuvent être facilement stockées dans un bucket S3 Express à faible latence, puis déplacées de manière asynchrone vers un bucket S3 Standard, et comme la plupart des systèmes de données modernes disposent déjà de fonctions de compression, la "hiérarchisation du stockage" est pratiquement gratuite

L’avis de GN⁺

Le point le plus important de cet article est la perspective sur les changements que la nouvelle classe de stockage S3 Express One Zone d’AWS pourrait apporter à l’infrastructure de données. Cette classe de stockage ouvre de nouvelles possibilités pour améliorer de manière spectaculaire le coût et les performances des systèmes de données, ce qui pourrait transformer en profondeur les méthodes de gestion et de stockage des données. En particulier, la capacité à construire tous les systèmes de données autour du stockage objet pourrait devenir une option très attractive pour de nombreuses entreprises et de nombreux développeurs. On peut s’attendre à ce que cette évolution rende l’avenir de l’infrastructure de données plus flexible et plus efficace en matière de coûts.

3 commentaires

 
kuroneko 2023-12-07

Je me demande comment cela va être utilisé.

 
heycalmdown 2023-12-07

J’avais justement refait une recherche sur WarpStream hier, donc je joins le lien
https://fr.news.hada.io/topic?id=10234

 
GN⁺ 2023-12-07
Commentaires Hacker News
  • La plupart des systèmes de stockage/bases de données de production basés sur S3 consacrent des efforts considérables à la mise en place d’une couche de cache SSD/mémoire pour obtenir des performances exploitables.

    • S3 Express offre des performances proches de celles des lectures aléatoires sur HDD, ce qui permet de construire des systèmes de production sans cache SSD.
    • Beaucoup de systèmes conserveront malgré tout un cache SSD, mais il est désormais possible de construire un MVP sans cache SSD, avec une forte réduction de la latence des requêtes à froid.
    • Je suis actuellement en train de construire une base de données vectorielle sur du stockage objet, donc cette technologie arrive à point nommé.
  • Le coût de stockage d’AWS S3 Express est 8 fois plus élevé que celui de S3 Standard, mais ce n’est pas un problème pour les systèmes modernes de stockage de données.

    • Les données peuvent facilement être stockées dans un bucket S3 Express à faible latence, puis déplacées de manière asynchrone et compressée vers un bucket S3 Standard.
    • La plupart des systèmes de données modernes disposent déjà de fonctions de compression, donc la « hiérarchisation du stockage » est en pratique gratuite.
    • J’imagine un futur où la plupart des applications intensives en données utiliseront S3 comme couche de stockage principale.
  • J’ai testé S3 Express il y a quelques semaines avec le moteur de recherche Quickwit.

    • J’étais satisfait des performances, mais déçu par le prix.
    • Pour certains cas d’usage, le prix peut se justifier, mais je m’attends à ce que la plupart des utilisateurs ajoutent simplement un cache SSD local à S3 classique.
  • Pour donner un peu plus de contexte, warpstream construit un système de streaming compatible Kafka utilisant S3 comme stockage objet.

    • Cela permet de profiter de coûts de transfert inter-zone réduits et d’une hiérarchisation automatique du stockage afin de diminuer les coûts d’exploitation et de maintenance du système.
    • La latence due aux vitesses de lecture/écriture de S3 posait problème, mais avec S3 Express, cela devient compétitif face à l’offre managée de Confluent Kafka pour ces applications sensibles à la latence.
  • J’ai résolu le problème en mettant les fichiers en cache dans Redis avant de les envoyer vers S3 depuis le local.

    • Quand la base de code a besoin d’un fichier, elle vérifie Redis ; s’il n’y est pas, elle le récupère puis le remet en cache.
  • EFS est bien supérieur à S3, mais je ne comprends pas pourquoi il ne reçoit pas plus d’attention.

    • Il peut être monté comme un disque par les systèmes, partagé entre plusieurs systèmes, et offre déjà une latence très faible.
    • Puisque EFS existe déjà, je ne suis pas certain de l’utilité réelle de S3 Express.
  • Je me demande si la formule « X is all you Need » a été utilisée pour la première fois dans l’article « Attention is all you need ».

    • Cet article a présenté le Transformer au monde.
  • Si c’est un S3 basse latence écrit en Rust, alors il sort enfin après plusieurs années de développement.

  • Je me demande s’il existe des cas d’usage où la nouvelle couche S3 Express améliorera réellement les performances, et si le surcoût de 8x en vaut la peine.

  • Beaucoup d’implémentations de S3 donnent l’impression d’un simple téléchargement transparent vers le disque, mais en réalité, ce n’est pas simplement « utiliser le réseau comme disque ».