29 points par GN⁺ 2026-01-06 | 1 commentaires | Partager sur WhatsApp
  • 2025 a été une année marquée par le renforcement de la domination de PostgreSQL, la diffusion du standard MCP, de grandes fusions-acquisitions, la relance de la concurrence sur les formats de fichiers et la montée en puissance de Larry Ellison
  • PostgreSQL s’est imposé comme le DBaaS central des grands acteurs du cloud, tandis que de nouveaux projets distribués (Multigres, Neki, PgDog) ont émergé
  • Tous les principaux SGBD ont adopté le Model Context Protocol (MCP) d’Anthropic, lançant réellement l’intégration entre les LLM et les bases de données
  • MongoDB a engagé un procès lié à la réplication d’API contre FerretDB, tandis que dans le domaine des formats de fichiers, la concurrence pour remplacer Parquet s’est intensifiée
  • Entre acquisitions, fermetures et levées de fonds, l’année a été marquée par une recomposition et une concentration accélérées de l’industrie des bases de données

Expansion continue de PostgreSQL

  • La version PostgreSQL 18 a été publiée en novembre 2025, avec l’introduction d’un sous-système de stockage en E/S asynchrones et de la fonctionnalité skip scan
    • Cela réduit la dépendance au cache de pages de l’OS et améliore l’exploitation des index à clés multiples
  • Databricks a acquis Neon pour 1 milliard de dollars, et Snowflake CrunchyData pour 250 millions de dollars
    • Microsoft a lancé HorizonDB, ce qui signifie que tous les grands acteurs du cloud disposent désormais d’un service basé sur PostgreSQL
  • De nouveaux projets PostgreSQL distribués ont fait leur apparition, comme Multigres de Supabase, Neki de PlanetScale et PgDog
    • Supabase a recruté Sugu, cofondateur de Vitess, pour piloter le développement d’un middleware de sharding
  • Côté services PostgreSQL indépendants, on retrouve Supabase, YugabyteDB, TigerData, PlanetScale, Xata, PgEdge et Nile
    • Certaines startups, comme Hydra et PostgresML, ont cessé leurs activités en 2025
  • La concurrence en M&A et l’évolution technique autour de PostgreSQL ont constitué l’un des principaux moteurs du secteur

Diffusion généralisée du MCP (Model Context Protocol)

  • En 2025, tous les principaux SGBD prennent en charge le standard MCP d’Anthropic
    • MCP est une interface basée sur JSON-RPC qui permet aux LLM d’interagir avec des bases de données
  • Après l’annonce du support de MCP par OpenAI en mars 2025, de grands systèmes comme ClickHouse, Snowflake, Oracle et MongoDB ont lancé leurs serveurs MCP
    • Les services basés sur PostgreSQL proposent eux aussi leurs propres serveurs MCP (Supabase, Timescale, Xata, etc.)
  • Les serveurs MCP accèdent à la base de données à l’échelle d’une requête unitaire et ne prennent pas en charge les jointures entre bases hétérogènes
  • Grâce à sa fonction de data branching, Neon gérerait 80 % des bases de données générées par des agents IA
  • Sur le plan de la sécurité, la nécessité de privilèges minimaux et de mécanismes de protection automatiques est mise en avant
    • Certains systèmes fournissent déjà des protections de base comme le mode lecture seule, les timeouts de requête et les limites de résultats

Conflit juridique entre MongoDB et FerretDB

  • MongoDB a intenté en 2025 un procès pour violation de brevet, de copyright et de marque contre FerretDB
    • FerretDB est un proxy middleware qui convertit les requêtes MongoDB vers PostgreSQL, et l’usage de la formule « drop-in replacement » a été pointé du doigt
  • Microsoft a donné à la Linux Foundation DocumentDB, un projet open source compatible MongoDB
    • Amazon, Yugabyte et d’autres participent également au projet
  • L’affirmation de MongoDB selon laquelle l’entreprise aurait « ouvert la voie aux bases de données non relationnelles » est relativisée par l’existence de systèmes antérieurs comme IDS et IMS dans les années 1960
  • Le fait que FerretDB ait initialement porté le nom de MangoDB est aussi évoqué dans la controverse sur la confusion de marque

Relance de la concurrence sur les formats de fichiers

  • En 2025, cinq nouveaux formats de fichiers open source sont apparus pour contester la domination de Parquet
    • FastLanes (CWI), F3 (CMU + université Tsinghua), Vortex (SpiralDB), AnyBlox (chercheurs allemands), Amudai (Microsoft)
  • Vortex de SpiralDB a retenu l’attention après son don à la Linux Foundation, et AnyBlox a remporté le prix du meilleur article à la VLDB
  • L’équipe de développement de Parquet a réagi en lançant un travail de modernisation de la spécification
  • Le format F3, auquel Pavlo a participé, vise à résoudre les problèmes d’interopérabilité grâce à un décodeur intégré basé sur WASM
  • La prochaine étape de la concurrence pourrait fortement porter sur la prise en charge des GPU

Tendances en matière de fusions-acquisitions, investissements et fermetures

  • Principales acquisitions en 2025
    • IBM a acquis DataStax et Confluent, Databricks a acquis Neon, Tecton et Mooncake
    • Snowflake a acquis CrunchyData et Datometry, Salesforce Informatica, Nvidia HeavyDB
    • Fivetran et dbt Labs ont fusionné de façon spectaculaire, se repositionnant en plateforme ETL intégrée
  • Principaux tours de financement
    • Databricks (4 milliards et 1 milliard de dollars), ClickHouse (350 millions de dollars), Supabase (200 millions et 100 millions de dollars), Timescale (110 millions de dollars), etc.
  • Cas de fermeture
    • Fauna, PostgresML, Hydra, MyScaleDB, Voltron Data, Apache Derby, entre autres
    • La fermeture du laboratoire IBM Research Almaden est mentionnée comme une fin symbolique pour la recherche sur les bases de données
  • Pavlo souligne les limites commerciales des bases de données fondées sur GPU et met en avant la maturité des moteurs OLAP basés sur CPU et une concurrence centrée sur l’expérience utilisateur

La « meilleure année » de Larry Ellison

  • En 2025, le fondateur d’Oracle, Larry Ellison, est devenu la personne la plus riche du monde (393 milliards de dollars)
    • La flambée de l’action Oracle et les investissements dans les data centers IA ont fait bondir sa fortune
  • Oracle a été impliqué dans de grandes opérations, comme l’acquisition de TikTok US et la tentative de rachat de Warner Bros par Paramount
  • Pavlo décrit la trajectoire d’Ellison comme « le symbole d’un homme qui a conquis le monde grâce aux bases de données »
    • Malgré les critiques, l’influence d’Oracle et la présence d’Ellison restent considérables

Conclusion

  • En 2025, l’industrie des bases de données se résume à une recomposition centrée sur PostgreSQL, une accélération de l’intégration IA-LLM et une polarisation entre grandes opérations de M&A et fermetures
  • Pavlo insiste sur la nécessité, pour les chercheurs comme pour l’industrie, de se concentrer sur la sécurité, la standardisation et l’automatisation des opérations
  • Enfin, l’article se conclut en annonçant le lancement de Sydht.ai, une nouvelle startup issue de chercheurs de la CMU

1 commentaires

 
GN⁺ 2026-01-06
Commentaires sur Hacker News
  • Il faut absolument voir le style de cours unique du CMU DB Group
    On peut le trouver dans les résultats de recherche YouTube.
    Les gangsta intros et le DJ set étaient particulièrement marquants.
    Je me souviens aussi d’une vidéo où quelqu’un dormait par terre pendant un cours. Ça me donne encore plus envie d’en savoir plus sur le parcours et le contexte d’Andy

    • Si vous êtes fan du Wu-Tang et du hip-hop, ça devrait vous parler. Cette intro était vraiment excellente
    • Je ne sais pas trop si “Intro to Database Systems” à CMU est un cours de niveau licence ou un cours avancé qui traite des structures internes. En tant que débutant en bases de données, j’aimerais trouver un bon cours d’introduction
    • J’ai corrigé le lien en ajoutant “https://” pour qu’il soit cliquable
  • Je trouve dommage que les revues des dernières années n’aient pas mentionné les bases de données immutables ou bi-temporelles
    Ce type de base est particulièrement utile dans le secteur fintech.
    Parmi les exemples représentatifs, on peut citer XTDB v2 (2025) et Datomic Free (2023)

    • CMU a organisé il y a 5 semaines un séminaire technique sur XTDB.
      Je me demande si une simple mention du type « ça existe » est suffisante
    • Avec le type tstzrange de PostgreSQL et l’extension pg_bitemporal, on peut déjà aller assez loin.
      Nous avons implémenté un système de journal d’audit basé sur des row triggers pour gérer l’historique des modifications et la fonction d’undo.
      Nous déplaçons aussi les logs vers un stockage séparé afin de conserver des sauvegardes hors ligne
    • Les avantages des bases immutables sont de plus en plus reconnus. Au-delà du simple audit, elles offrent aussi des bénéfices comme les lectures concurrentes, la réplication rapide et l’annulation de transactions.
      Je développe actuellement un SQLite immutablexitdb-java
    • Certains ajoutent la temporalité et l’immutabilité à des triple stores, parce que xtdb ou datomic sont lents pour la traversée de graphes SPARQL.
      J’attends avec intérêt un triple store avec prise en charge du time travel
    • J’ai laissé un avis similaire dans un autre commentaire
  • Les tendances base de données de 2025 se résument à deux points
    1️⃣ tout migrer vers SQLite
    2️⃣ utiliser principalement des champs JSON
    SQLite est facile à manipuler grâce à sa structure en fichier unique et à sa conception sans démon. Les fonctions JSON rendent aussi le traitement des données flexible et agréable

    • De mon point de vue, aujourd’hui c’est surtout DuckDB partout. Fichier unique, prise en charge de nombreux formats, S3, Parquet, stockage en colonnes, WASM… c’est complet
    • En réalité, on peut se demander : « a-t-on vraiment besoin d’une DB ? » SQLite se situe à mi-chemin entre une vraie base de données complète et un object storage fait maison.
      Ça fournit une sorte d’API d’accès aux objets normalisée
    • SQLite n’est pas destiné à un environnement multi-utilisateur, mais je me demande jusqu’où il peut tenir si plusieurs connexions web écrivent en même temps
    • Avant, on disait qu’il ne fallait pas utiliser SQLite en production, mais ça semble avoir changé aujourd’hui
    • Pour moi, la combinaison idéale est : « SQLite si possible, PostgreSQL si nécessaire, DuckDB pour l’analytique, BigQuery pour la BI à grande échelle »
  • Je comprends pourquoi Pavlo est sceptique sur la sécurité de MCP. MCP porte une philosophie centrée sur l’exposition du contexte, à l’opposé du principe du moindre privilège
    Exposer une DB via un tel protocole révèle au modèle non seulement les données elles-mêmes, mais aussi la complexité du schéma.
    Au final, ça ressemble à une réédition de l’injection SQL — sauf que cette fois, la cause n’est pas un utilisateur malveillant mais les hallucinations du modèle

    • En tirant parti du fait que les LLM sont stateless, j’ai construit une passerelle MCP qui suit l’origine du contexte d’entrée et bloque les changements d’état risqués.
      Elle s’appuie sur le cadre lethal trifecta de Simon Willison, et on peut la voir dans open-edison
    • Personne n’utilisera un DB MCP avec droits d’écriture en production. Ce n’est pas juste de mettre ça sur le dos du protocole
    • Je me demande si la valeur apportée justifiait vraiment qu’on abandonne ces principes. C’est probablement juste dans la continuité de l’esprit « move fast, break things »
  • J’ai le sentiment qu’il faut passer aux bases immutables.
    Datomic est puissant, mais complexe et avec une courbe d’apprentissage raide, tandis qu’immudb n’est pas encore prêt pour la production.
    Les problèmes commencent dès qu’on dépasse quelques centaines de milliers d’enregistrements

  • Supabase affiche une croissance impressionnante. J’ai même entendu dire qu’environ 70 % des startups YC l’utilisent.
    Je me demande si elles passeront ensuite en self-hosted

  • La raison pour laquelle EdgeDB a changé de nom pour devenir Gel a bien été mentionnée, mais cela aurait aussi dû figurer dans la section acquisitions.
    Gel a rejoint Vercel

    • Merci. J’ai ajouté un lien de correction sur le blog.
      Il faudrait trouver un moyen de suivre automatiquement ce genre de changements
    • Franchement, c’est décevant. Même en lisant le billet officiel de Vercel, l’avenir de Gel semble flou.
      Le dernier commit GitHub date aussi d’il y a 2 semaines
  • Grâce à Andy de CMU et au DB Group, les bases de données sont devenues bien plus grand public. C’est vraiment une équipe de niveau mondial

    • Je me demande plus précisément ce qu’ils ont accompli
  • La sortie de PostgreSQL 18 est vraiment excellente.
    La plupart des gens ne parlent que des workers d’async IO, mais Unicode locale, ajout de contraintes non validées, colonnes virtuelles, btree skip scan, UUIDv7 et d’autres éléments sont aussi de grandes améliorations

  • Les tendances pluriannuelles de ces dernières années sont marquantes.
    Databricks et Snowflake ont prouvé leur agilité et leur résilience malgré la concurrence dans le cloud.
    À l’inverse, Cloudera et Hortonworks ont échoué.
    De son côté, ClickHouse continue discrètement à occuper parfaitement sa propre niche