Les SSD sont devenus incroyablement rapides, mais pas dans le cloud

(databasearchitects.blogspot.com)

6 points par GN⁺ 2024-02-21 | 1 commentaires | Partager sur WhatsApp

Depuis quelques années, les SSD à base de flash ont remplacé les disques dans la plupart des usages de stockage
Les SSD sont composés de plusieurs puces flash indépendantes, qui sont accessibles en parallèle
La performance des SSD dépend principalement de la vitesse de l’interface avec l’hôte
En l’espace de six ans, le passage de SATA à PCIe 3.0, puis PCIe 4.0 et PCIe 5.0 s’est fait très rapidement, entraînant une hausse spectaculaire des débits des SSD
En parallèle, la capacité a aussi augmenté par dollar
Cette dynamique est due aux standards ouverts comme NVMe et PCIe, à une demande énorme et à une concurrence serrée entre fournisseurs
Les SSD de centre de données PCIe 5.0 atteignent aujourd’hui jusqu’à 13 Go/s en lecture et plus de 2,7 millions d’IOPS en lecture aléatoire
Les serveurs modernes disposent d’environ 100 lignes PCIe, ce qui permet d’utiliser plusieurs SSD à pleine bande passante par serveur

Plafonnement de la performance du SSD dans le cloud

AWS EC2 a lancé ses instances i3 avec des SSD NVMe au début de 2017
À l’époque, les SSD NVMe étaient chers, et disposer de 8 SSD par serveur était une avancée notable
Pourtant, sept ans plus tard, la performance reste autour de 2 Go/s par SSD
Les instances i3 et i3en restent encore les meilleures options d’EC2 en termes d’IO par dollar et de capacité SSD par dollar
L’écart de performance entre les SSD fournis par les cloud providers et les SSD les plus récents atteint presque dix fois en débit de lecture, débit d’écriture et IOPS
Cette stagnation dans le cloud contraste fortement avec de grands progrès observés ailleurs
Par exemple, la bande passante réseau d’EC2 est passée de 10 Gbit/s en 2017 à 200 Gbit/s en 2023
Plusieurs hypothèses expliquent pourquoi les providers cloud n’ont pas fait évoluer le stockage
- L’hypothèse selon laquelle EC2 limite volontairement la vitesse d’écriture à 1 Go/s pour éviter les pannes de dispositifs
- Le manque d’incitation à optimiser le système, faute d’une demande pour un stockage rapide
- Le risque qu’un lancement d’instances de stockage NVMe rapides et bon marché brouille le modèle de coût des autres services de stockage (EBS)
L’auteur espère voir arriver bientôt des instances cloud équipées de SSD à 10 Go/s

Opinion de GN⁺

Malgré l’évolution rapide de la technologie SSD, le fait que les fournisseurs cloud ne suivent pas le rythme reflète la diversité des besoins du marché et des limites techniques
La stagnation des performances du stockage cloud peut entrer en conflit avec les attentes des utilisateurs en termes d’efficacité et de qualité de service, et pourrait impacter la compétitivité du secteur du cloud
Cet article offre des insights importants aux utilisateurs et aux fournisseurs de cloud computing en soulignant la demande de solutions de stockage plus rapides et la nécessité de progrès techniques

1 commentaires

GN⁺ 2024-02-21

Avis de Hacker News

Discussion des problèmes techniques du cloud
- Google a travaillé sur des problèmes fondamentaux du cloud. C’est un élément majeur qui détermine les orientations techniques.
- Les SSD du cloud sont connectés via le réseau, ce qui est essentiel. Mais le réseau est trop vaste et trop lent pour offrir les performances d’un SSD local.
- Sur les disques durs, cela ne posait pas de problème, mais avec les SSD, cela devient un enjeu majeur : ils sont bien plus rapides que le réseau.
Explication de l’architecture des SSD AWS Nitro
- La documentation et les blogs d’AWS décrivent l’architecture Nitro SSD. Le SSD est physiquement connecté à la carte mère du système via PCIe, mais isolé logiquement du système qui exécute les workloads client.
- Pour prolonger au maximum la durée de vie d’un SSD, le firmware prend en charge le wear leveling. Ce processus inclut une forme de garbage collection, et un SSD classique peut devenir imprévisible et lent lorsque les écritures sont nombreuses. AWS a ainsi intégré dans le firmware du SSD une base de données basée sur un journal, très sophistiquée et sûre en cas de coupure de courant.
Retour d’expérience sur l’IOPS des instances cloud
- Le chiffre de provisioned IOPS des instances cloud est étonnamment bas. Cela signifie que beaucoup de gens, notamment les plus jeunes n’ayant connu que des instances cloud, ne savent pas vraiment quelle performance peut tenir une ou deux RU.
- La vitesse des stockages NVMe fait partie des technologies étonnantes d’aujourd’hui.
Point de vue d’une personne travaillant chez OCI
- OCI propose des disques NVMe plus rapides sur ses instances. Le modèle E4 Dense embarque le Samsung MZWLJ7T6HALA-00AU3, avec 7000 MB/s en lecture séquentielle et 3800 MB/s en écriture séquentielle.
- La raison probable pour laquelle AWS ne propose pas encore de NVMe plus rapides est le manque d’une demande concrète. C’est une hypothèse, mais en général, quand la demande n’est pas assez forte, les upgrades peuvent être fortement retardés.
Argument en faveur de quitter le cloud
- Les NVMe modernes et le nombre de cœurs constituent un argument solide pour sortir du cloud. Ces débits, proches de la mémoire, simplifient la complexité car les données peuvent clairement tenir en mémoire.
- Un seul serveur puissant peut déjà gérer le caching, le calcul et le serving, ce qui simplifie de nombreux workloads.
Critique de l’optimisation cloud
- Le problème n’est pas la bande passante, mais l’IOPS. Lorsqu’on exécute un benchmark d’IO aléatoire, le comportement du SSD se rapproche davantage d’un grand RAID en rotatif qu’un SSD.
- L’une des raisons pour lesquelles il est difficile de prendre l’optimisation cloud au sérieux est que certains workloads, comme les bases de données, mal optimisés, peuvent devenir coûteux.
Discussion sur les types d’instances NVMe d’AWS
- Plusieurs types d’instances NVMe ont été lancés, notamment i4i et im4gn, mais la performance n’a pas progressé. Sept ans après le lancement de l’i3, on reste encore à environ 2 GB/s par SSD.
- Le marketing d’AWS affiche :
  - Jusqu’à 800K IOPS en écriture aléatoire
  - Jusqu’à 1 million d’IOPS en lecture aléatoire
  - Jusqu’à 5600 MB/s en écriture séquentielle
  - Jusqu’à 8000 MB/s en lecture séquence
Choix personnel d’une configuration SSD hybride
- En combinant le X-25E de 64 GB de 2011 et le PM897 de 3,7 TB de 2021, on obtient la solution la plus robuste et la plus grande base de données avec la plus faible consommation.
Spéculation sur les limites de performance des services cloud
- Les services cloud maintiennent probablement une faible performance parce que la demande n’est pas forte, ce qui leur permet d’appliquer des "astuces" au niveau de la couche de virtualisation.
Considérations de coût des SSD
- Les SSD les plus rapides tendent à utiliser la technologie MLC, dont la durée de vie en écriture est beaucoup plus faible que celle des autres technologies.
- Augmenter la densité de données facilite l’augmentation des performances, mais comme l’écriture se fait par blocs/cellules de mémoire, quand une cellule se détériore, toutes les cellules peuvent échouer.
- Introduire de nouvelles technologies dans la stack et mettre à niveau un parc à coût maîtrisé peut devenir problématique.

Les SSD sont devenus incroyablement rapides, mais pas dans le cloud

Plafonnement de la performance du SSD dans le cloud

Opinion de GN⁺

À lire aussi

1 commentaires

Avis de Hacker News