18 points par GN⁺ 2025-01-02 | 3 commentaires | Partager sur WhatsApp

Revue complète du secteur des bases de données en 2024 par Andy Pavlo (professeur à la CMU)

Ma base de données, je la licence comme je veux !

  • Le dilemme des bases de données et de l’open source :
    • Les SGBD open source sont souvent développés par des entreprises rentables soutenues par du capital-risque.
    • Les fournisseurs cloud proposent les SGBD populaires comme service et en tirent parfois davantage de revenus que les entreprises qui les développent.
    • MongoDB est passé en 2018 à la SSPL (Server Side Public License) pour tenter de résoudre ce problème.
  • Changement de licence de Redis :
    • Redis Ltd. a préparé son IPO en 2024 et est passé de la licence BSD-3 à la SSPL ainsi qu’à sa propre Redis Source Available License.
    • En mars 2024, l’entreprise a annoncé ce changement de licence en même temps que l’acquisition de Speedb, un fork de RocksDB.
    • Réaction de la communauté :
      • La même semaine, les projets de fork Valkey et Redict ont été annoncés.
      • Valkey a démarré chez Amazon, avec la participation de Google, Oracle et d’autres, puis a été intégré à la Linux Foundation.
    • Possible retour du fondateur de Redis :
      • En décembre 2024, le fondateur de Redis a annoncé qu’il travaillait avec Redis Ltd. pour tenter de réunifier la communauté.
  • Retour en arrière sur la licence d’Elasticsearch :
    • Elastic N.V. est passé en 2021 à la SSPL et à l’Elastic License, ce qui a provoqué des tensions avec Amazon.
    • Amazon a répondu avec le fork OpenSearch.
    • En août 2024, Elastic N.V. est revenu à l’AGPL en mentionnant une chanson de Kendrick Lamar.
    • En septembre 2024, Amazon a transféré le projet OpenSearch à la Linux Foundation.
  • L’avis d’Andy :
    • Critique de Redis :
      • Il pointe de faibles performances, de fausses transactions et un langage de requête inefficace.
      • Redis, qui a de nombreux substituts, est dans une position où il lui sera difficile de résister à la fronde de la communauté.
    • Un schéma similaire à Elasticsearch :
      • Changement de licence → apparition d’un fork → retour à une licence open source.
    • Pourquoi Redis et Elasticsearch suscitent davantage de réactions :
      • Pour Redis, les fondateurs n’étaient pas les créateurs originels et il s’agit d’un système avec beaucoup de contributeurs externes, d’où une controverse sur un « manque de légitimité ».
      • La réaction rappelle celle provoquée par le changement de licence de Terraform chez HashiCorp en 2023.
    • L’influence des fournisseurs cloud :
      • Les fournisseurs cloud intègrent les protocoles des SGBD open source dans leurs propres SGBD existants ou fragilisent les revenus des ISV via leurs services maison.
      • Exemple : AWS a ajouté le protocole InfluxDB v2 à son SGBD Timestream et a annoncé un service compatible Valkey 30 % moins cher qu’un service compatible Redis.
  • Mises à jour supplémentaires :
    • AWS propose un service managé pour le SGBD InfluxDB v2 en partenariat avec Influx Data.
    • ScyllaDB a abandonné en décembre 2024 sa version open source AGPL et a fait passer sa version enterprise en « source disponible ».

La rivalité sans fin entre Databricks et Snowflake

  • Compétition autour des LLM publics :
    • Databricks :
      • En mars 2024, annonce du LLM open source DBRX.
      • Développé par l’équipe Mosaic, acquise en 2023 pour 1,3 milliard de dollars, avec 132 milliards de paramètres.
      • 10 millions de dollars investis dans le développement du modèle.
    • Snowflake :
      • En avril 2024, annonce du LLM open source Arctic.
      • Avec 480 milliards de paramètres, Snowflake affirme qu’il surpasse DBRX sur des tâches « enterprise » comme la génération SQL.
      • 2 millions de dollars investis dans le développement du modèle.
      • La communication de Snowflake s’est davantage focalisée sur la comparaison avec DBRX que sur les autres LLM, ce qui montrait clairement la rivalité.
  • La guerre des catalogues de métadonnées :
    • HCatalog de Hive s’est imposé comme standard des data lakes dans les années 2010.
    • Iceberg de Netflix et Hudi d’Uber sont apparus à la fin des années 2010 et sont devenus des projets Apache.
    • Databricks :
      • Propose la plateforme DeltaLake et le service de catalogue propriétaire Unity.
      • En juin 2024, le jour même où le CEO de Snowflake annonçait le service de catalogue Polaris, Databricks a acquis pour 2 milliards de dollars Tabular, une entreprise du support d’Iceberg.
      • La semaine suivante, Databricks a annoncé l’open source du catalogue Unity.
    • Snowflake :
      • Étend progressivement son support d’Iceberg depuis son annonce de 2022.
      • Snowflake était en discussion pour acquérir Tabular mais s’est fait doubler par Databricks.
  • L’avis d’Andy :
    • Différence avec les rivalités traditionnelles :
      • Contrairement à la compétition historique sur les performances entre Oracle et Informix, le duel Snowflake-Databricks se concentre sur l’écosystème et les outils de gestion des données.
      • Les moteurs d’exécution vectorisés sont désormais considérés comme une technologie de base.
      • Ce qui compte aujourd’hui, ce sont des qualités additionnelles comme la facilité d’utilisation, la compatibilité des outils et l’intégration de l’IA/LLM.
    • Bénéfique pour les utilisateurs :
      • Une concurrence féroce signifie de meilleurs produits et de meilleures technologies.
      • Polaris de Snowflake est devenu un projet Apache, ce qui améliore l’accès à la technologie.
      • On peut donc espérer des avancées techniques et des baisses de prix.
    • Comparaison positive :
      • Contrairement à la simple rivalité d’ego entre les CEO d’Oracle et de Salesforce, l’affrontement entre Snowflake et Databricks débouche sur de l’innovation concrète et un renforcement de la compétitivité.

Les efforts pour intégrer DuckDB partout

  • La croissance de DuckDB :
    • DuckDB s’impose comme le nouveau choix par défaut pour les requêtes d’analyse de données.
    • Auparavant, ce rôle revenait à Pandas, mais DuckDB l’a supplanté grâce à son excellente portabilité et à ses performances.
    • De plus en plus de SGBD tentent d’intégrer DuckDB pour mieux prendre en charge les workloads OLAP.
    • En 2024, quatre nouvelles extensions intégrant Postgres et DuckDB ont été annoncées.
  • Annonces d’extensions Postgres-DuckDB :
    • Mai 2024 - Crunchy Data :
      • Annonce d’un bridge propriétaire qui route les requêtes OLAP de Postgres vers DuckDB.
      • Ajout d’une extension exploitant les capacités d’analyse géospatiale de DuckDB pour accélérer les requêtes PostGIS.
    • Juin 2024 - ParadeDB :
      • Annonce de l’extension open source pg_analytics.
      • L’entreprise utilisait auparavant pg_lakehouse, basé sur DataFusion, avant de basculer vers DuckDB.
    • Août 2024 - pg_duck :
      • Extension DuckDB officiellement prise en charge sur le GitHub de DuckDB Labs.
      • Le projet a commencé comme une collaboration entre MotherDuck, Hydra, Microsoft et Neon, mais Microsoft et Neon en ont été écartés à la suite d’un conflit sur le contrôle du développement.
      • Aujourd’hui, MotherDuck et Hydra en assurent ensemble la maintenance.
    • Novembre 2024 - pg_mooncake :
      • Annonce d’une extension permettant d’écrire des données dans des tables Iceberg via Postgres et de prendre en charge les transactions.
  • L’avis d’Andy :
    • Les atouts de DuckDB :
      • La plupart des requêtes OLAP scannent moins de 100 Mo de données, ce que DuckDB peut traiter sans difficulté sur une seule instance.
      • Grâce à son excellente portabilité et à sa praticité, DuckDB se diffuse rapidement dans la communauté Postgres.
      • Une seule extension permet d’unifier divers écosystèmes de données, y compris l’accès à Iceberg et aux données sur S3.
      • DuckDB offre de l’analytique haute performance tout en pouvant remplacer des data warehouses coûteux.
    • L’extensibilité de Postgres :
      • Dès sa conception dans les années 1980, Postgres visait l’extensibilité et la flexibilité.
      • Son API de « hooks », introduite en 2006, a permis de bâtir l’écosystème d’extensions le plus vaste et le plus diversifié.
      • Mais cela comporte aussi un risque d’interférences et de mauvais comportements entre extensions.
    • L’intégration de DuckDB dans Postgres :
      • Les extensions Postgres existantes, comme Citus et Timescale, ne résolvaient le problème que partiellement en n’offrant qu’un stockage en colonnes.
      • DuckDB apporte à la fois un stockage en colonnes et un traitement vectorisé des requêtes.
    • Remarque imagée :
      • Mention de la possibilité d’une blague sur la dinde désossée façon turducken avec l’éléphant de Postgres et DuckDB, mais laissée de côté pour éviter des ennuis disciplinaires à l’université.

Événements divers dans le monde des bases de données

Principales sorties :

  • Amazon Aurora DSQL :
    • AWS a annoncé un nouveau SGBD « à la Spanner ».
    • Basé sur un service de log distribué et un ordre par horodatage (Time Sync).
    • Malgré le nom Aurora, il ne partage aucun code avec l’actuel Aurora Postgres RDS.
  • CedarDB :
    • SGBD commercial dérivé d’un fork du code d’Umbra.
    • Le fondateur d’Umbra, Thomas Neumann, reste focalisé sur la recherche tout en conservant la tête du classement Clickbench.
  • Google Bigtable :
    • Bigtable, pionnier du NoSQL, a ajouté le support SQL en 2024.
  • Limbo :
    • Turso a annoncé un projet de réécriture complète de SQLite en Rust.
    • La force de SQLite ne réside pas seulement dans son code, mais aussi dans l’ingénierie de tests qui garantit son exécution correcte dans tous les environnements.
    • Le projet a introduit des tests déterministes avec d’anciens ingénieurs de FoundationDB.
  • Microsoft Garnet :
    • Stockage clé-valeur compatible Redis, successeur de FASTER.
    • Offre le parallélisme des requêtes, le support des bases dépassant la mémoire vive et de vraies transactions.
  • MySQL v9 :
    • Nouvelle version publiée après six ans.
    • Elle souffre d’un problème de crash lorsque la base contient plus de 8 000 tables.
    • Il lui manque des fonctionnalités majeures, Oracle se concentrant davantage sur le service MySQL Heatwave.
  • Prometheus v3 :
    • Première mise à jour majeure en sept ans.
    • Avec les nombreuses alternatives disponibles, Prometheus historique est moins utilisé qu’avant.

Principales acquisitions :

  • Alteryx → Private Equity : peu d’utilisateurs, pas grand-chose à en dire.
  • MariaDB → Private Equity : espoir d’une résolution des problèmes de gestion.
  • OrioleDB → Supabase : amélioration de l’ancienne architecture de stockage de Postgres.
  • PeerDB → ClickHouse : outil d’ETL pour transférer des données Postgres vers ClickHouse.
  • PopSQL → Timescale : acquisition d’une interface d’éditeur SQL avancée.
  • Speedb → Redis Ltd. : fork de RocksDB, avec la possibilité d’ajouter des fonctions de stockage des données sur disque.
  • Rockset → OpenAI : fin du service DBaaS, en septembre 2024.
  • Tabular → Databricks : acquisition pour renforcer l’écosystème Iceberg.
  • Verta.ai → Cloudera : Cloudera est toujours vivant.
  • Warpstream → Confluent : réécriture de Kafka en golang, avec intégration S3.

Principaux financements :

  • Databricks : série J de 1 milliard de dollars.
  • DBOS : tour seed de 8,5 millions de dollars.
  • LanceDB : tour seed de 8 millions de dollars.
  • SDF : tour seed de 9 millions de dollars.
  • SpiceDB : série A de 12 millions de dollars.
  • TigerBeetle : série A de 24 millions de dollars.

Principales fins :

  • Amazon QLDB : même Amazon n’a pas réussi à le monétiser.
  • OtterTune : fin de dix ans de recherche et d’aventure startup. À cause de problèmes avec une certaine entreprise, les étudiants de CMU-DB ne sont plus recrutés.

L’avis d’Andy :

  • Le financement massif de Databricks :
    • En 2024, la série J d’un milliard de dollars a établi un nouveau record de financement dans l’industrie des bases de données.
    • Les fonds ont servi à racheter des actions des employés et à répondre à leur frustration face au report de l’IPO.
    • Après l’IPO de Databricks, plusieurs startups des bases de données pourraient elles aussi se préparer à une introduction en bourse.
  • Perspectives pour l’an prochain :
    • La baisse des taux pourrait offrir de nouvelles opportunités de levée de fonds aux entreprises ayant déjà levé beaucoup d’argent, comme CockroachDB, Starburst ou Imply.
    • dbtLabs est déjà considéré comme solidement établi.

Larry Ellison ne s’arrête jamais : les mouvements surprenants de 2024

  • Les principales réalisations de Larry Ellison en 2024 :
    • Pour ses 80 ans, il continue d’avancer avec audace.
    • La hausse de l’action Oracle l’a propulsé au rang de troisième fortune mondiale.
      • En mars 2024, l’envolée du titre Oracle lui a fait gagner 15 milliards de dollars en une seule journée.
    • En juillet, il a acheté les studios Paramount pour 6 milliards de dollars comme cadeau à son fils (né de son troisième mariage).
    • Il a acquis un resort à Palm Beach pour 277 millions de dollars, ajoutant un nouvel actif de luxe à son patrimoine.
  • Soutien à l’équipe de football américain de l’université du Michigan :
    • En novembre 2024, il a donné 12 millions de dollars à une campagne de soutien au football de l’université du Michigan.
      • Ce don a joué un rôle décisif dans le recrutement du meilleur quarterback, transféré de LSU vers le Michigan.
      • Le communiqué de l’université mentionnait les mérites de « Larry et son épouse Jolin ».
    • C’est le premier lien important de Larry avec l’université du Michigan, lui qui n’a pas de diplôme universitaire.
  • Qui est « Jolin » ? :
    • Des articles de presse ont révélé que la nouvelle épouse de Larry est Jolin (Kuren) Zhu.
      • Larry a été aperçu dans les tribunes d’un match de tennis, et Jolin portait une casquette du Michigan.
      • Deux semaines plus tard, la nouvelle du mariage est tombée dans le journal télévisé de 5 heures du matin, confirmant son identité.
  • Le point de vue d’Andy :
    • Le soutien de Larry à l’université du Michigan a une signification particulière.
      • Un ancien étudiant de CMU-DB d’Andy est aujourd’hui professeur dans le groupe base de données de l’université du Michigan.
    • Il félicite Larry pour son nouvel amour et son mariage, tout en soulignant combien il est difficile de trouver l’amour dans la société moderne.
      • Il salue la résilience et l’attitude positive de Larry, qui a retrouvé l’amour après des divorces passés.
  • Le sixième mariage de Larry :
    • Après Melanie Craft (divorce en 2010) et Nikita Kahn (divorce en 2020), il s’est de nouveau marié, à la surprise générale.
    • Son mariage avec Jolin Zhu démontre une fois de plus sa volonté de poursuivre le bonheur.

Conclusion

  • Plans pour la nouvelle année et situation actuelle :
    • Il espérait commencer la nouvelle année en bonne santé pour la première fois depuis trois ans, mais sa fille lui a transmis le COVID et il a passé le Nouvel An alité.
    • Grâce à un rappel vaccinal reçu en septembre 2024 et à un traitement au Paxlovid, il se rétablit sans gros problème.
  • Fin d’OtterTune :
    • Il est déçu que le projet OtterTune soit terminé.
    • Il dit avoir énormément appris en collaborant avec de nombreuses personnes remarquables.
    • Il remercie Intel Capital et Race Capital pour leur soutien jusqu’au bout.
    • Il réfléchit à une nouvelle startup (indice : ce sera encore lié aux bases de données).
  • Un nouveau départ à la CMU :
    • Il est revenu à la Carnegie Mellon University (CMU) et a repris ses recherches à plein temps.
    • Il prépare des projets de recherche passionnants avec Jignesh Patel.
    • Il prévoit d’ouvrir ce semestre un nouveau cours sur l’optimisation de requêtes.
    • En septembre 2024, Wikipedia a supprimé l’article le concernant ; il cherche donc des moyens d’augmenter le nombre de citations de ses travaux de recherche.
  • Soutien à DJ Mooshoo :
    • Il continue de soutenir DJ Mooshoo, détenu dans le Cook County.
    • Il espère sa libération en 2025.
  • Mention de ByteBase :
    • Il remercie ByteBase pour son article de revue 2024 sur les outils de base de données, Database Tools in 2024: A Year in Review.
    • Les années précédentes, ByteBase demandait l’autorisation de traduire en chinois son article de fin d’année sur les bases de données ; cette année, l’entreprise n’a pas attendu et a publié son propre article sur un sujet et avec un titre similaires.

3 commentaires

 
daumkakao 2025-01-04

Merci pour cet excellent article.

 
xguru 2025-01-02

J’ai sauté 2023. À l’époque, c’était un lien vers OtterTune, mais comme le service a été arrêté, je l’ai maintenant déplacé vers mon blog personnel.

Revue des bases de données de 2022
Revue des bases de données de 2021

 
GN⁺ 2025-01-02
Avis sur Hacker News
  • Certains estiment que, dans la vidéo d’Andy, la critique de l’API de commandes de Redis n’est pas assez poussée. Ils jugent qu’on peut critiquer l’API de Redis, mais qu’il faut des arguments plus solides, et soulignent qu’il faut comprendre son mode d’utilisation et ses avantages.

  • Lorsque le code de Greenplum est devenu fermé, les développeurs d’origine ont créé un fork open source appelé Cloudberry, qui a été accepté comme projet Apache. Cloudberry est synchronisé avec Postgres 14, tandis que Greenplum en est toujours à Postgres 12.

  • Certains formulent une critique personnelle de Redis. Ils affirment que Redis est lent, qu’il propose de fausses transactions et que sa syntaxe de requête est complexe. Il est aussi mentionné qu’à la CMU, Dragonfly a montré de meilleures performances.

  • Certains considèrent que DuckDB est un excellent outil. Ils disent avoir été marqués par une conférence du créateur de DuckDB à la CMU expliquant pourquoi les data scientists n’utilisent pas les SGBDR.

  • Certains trouvent étrange que SQL Server et ses variantes Azure ne soient pas mentionnés. Ils soulignent qu’ils dominent certains secteurs et sont classés troisièmes en popularité sur DBEngines.

  • Certains estiment que le mécontentement envers Elastic et Redis diffère de celui visant MongoDB en raison de la licence et de la taille de la communauté de contributeurs. Une licence restrictive comme l’AGPL complique l’usage embarqué, et sans communauté de contributeurs, il est difficile de forker.

  • Certains pensent qu’il n’y a pas eu de tentative de fork après les changements de licence de MongoDB, Neo4j, Kafka et CockroachDB parce que les gens ne se souciaient pas vraiment de ces projets.

  • Certains estiment qu’Amazon peut proposer des bases de données en tant que service, mais que beaucoup ne veulent pas de services managés AWS. De nombreuses équipes préfèrent des solutions basées sur k8s et ont tendance à se tourner vers des implémentations OSS grand public.

  • En réponse à l’avis selon lequel personne n’a jamais rencontré d’utilisateur d’Alteryx, il est expliqué qu’Alteryx est un outil graphique d’ELT+Analytics demandant très peu de code, avec une excellente compatibilité, ce qui permet de l’utiliser avec d’autres bases de données ou des fichiers.

  • Certains se disent surpris qu’une startup de base de données ayant levé 12 M ait échoué en trois ans. Ils y voient un exemple de la difficulté à réussir dans les startups de bases de données, et trouvent étonnant qu’elle n’ait pas réussi à attirer davantage d’investisseurs malgré une idée d’amélioration des performances DB grâce à l’IA.