16 points par GN⁺ 2025-05-04 | 2 commentaires | Partager sur WhatsApp
  • L’extension géospatiale de DuckDB réduit radicalement la barrière d’accès aux données géospatiales grâce à une interface simple basée sur SQL
  • Elle permet désormais à de simples analystes de données d’effectuer des analyses géospatiales avec deux lignes de code
  • Depuis fin 2023, l’intérêt de recherche pour « geospatial » a fortement augmenté, en coïncidant avec la sortie de l’extension DuckDB
  • La diffusion de projets géospatiaux récents comme Overture Maps est aussi analysée comme un reflet de l’influence de DuckDB
  • L’équipe DuckDB a résolu en interne les dépendances complexes et l’intégration des outils GIS afin de simplifier l’expérience utilisateur

Comment DuckDB a transformé le domaine géospatial

  • L’auteur a récemment assisté à la Cloud-Native Geospatial Conference 2025, où il a été question de la démocratisation des données géospatiales
  • La question centrale était de savoir comment diffuser les données géospatiales dans un plus grand nombre de secteurs, et DuckDB occupait une place centrale dans cette discussion
  • Jusqu’à fin 2023, le volume de recherche du mot-clé « geospatial » stagnait, mais il a fortement grimpé après la sortie de l’extension géospatiale de DuckDB
  • Comme pour confirmer l’influence de DuckDB, les tendances Google montrent aussi une hausse conjointe des mots-clés DuckDB et geospatial
  • Bien sûr, on ne peut pas affirmer une relation de causalité, mais l’auteur estime que cette corrélation a du sens

Une analyse géospatiale en seulement deux lignes

install spatial;   
load spatial;  
  • Auparavant, il fallait installer ou compiler de nombreux packages, puis mettre en place une base de données séparée
  • DuckDB, au contraire, propose un environnement complet d’analyse géospatiale via une interface SQL unique
  • Résultat : toute personne sachant utiliser SQL peut y accéder facilement, avec en plus une charge d’infrastructure IT réduite

Overture Maps aussi grâce à DuckDB ?

  • L’auteur se demande si le déploiement réussi de l’Overture Maps Foundation aurait été possible sans DuckDB
  • Il suppose que, sans DuckDB, la barrière d’entrée initiale pour manipuler des données géospatiales aurait été bien trop élevée

Discussions complémentaires sur Hacker News

  • Max, développeur de DuckDB, a souligné le fait que des outils FOSS GIS comme PROJ DB, GDAL et QGIS sont intégrés en bundle en interne afin d’éliminer les dépendances
  • Cela permet une utilisation sur diverses plateformes comme WASM, sans procédure d’installation complexe
  • Le système intègre aussi des fonctions hautes performances comme l’exécution vectorisée hors mémoire et le stockage compressé par colonnes
  • Récemment, un nouveau moteur de géométrie et des optimisations de jointures spatiales ont également été intégrés à la branche dev

Conclusion

  • DuckDB supprime les problèmes d’installation et de connexion des outils géospatiaux complexes en fournissant tout directement avec SQL
  • Il est ainsi considéré comme un logiciel ayant contribué de manière décisive à la démocratisation des données géospatiales

2 commentaires

 
zihado 2025-05-05

DuckDB cartonne.

 
GN⁺ 2025-05-04
Commentaires sur Hacker News
  • J’aime DuckDB et je fais principalement de l’analyse géospatiale. Je découpe surtout des zones géographiques avec les hexagones Uber H3, je calcule des distances de Haversine, des aires géométriques et je détermine à quelle géométrie appartient un point. Ces fonctionnalités existaient déjà dans geopandas ou postgis, et l’extension spatiale de DuckDB n’apporte rien de vraiment nouveau

    • En revanche, le moteur DuckDB permet de travailler directement à grande échelle sur des fichiers parquet/geoparquet depuis un poste local. Sur ce point, il est supérieur à geopandas. Cela améliore nettement le confort de travail
    • DuckDB dispose d’une architecture d’extension qui permet des fonctions géospatiales particulières, comme la courbe de Hilbert et la prise en charge d’Uber H3
  • Avant, il fallait installer ou compiler plusieurs paquets open source, noter soigneusement les emplacements des chemins et mettre en place une base de données spécialisée. C’était une charge de travail que le data generalist moyen n’allait pas tenter, ou que le service IT ne soutiendrait pas forcément

    • J’utilise "CREATE EXTENSION postgis;" depuis plus de 10 ans. PG, MySQL, Oracle, MS SQL Server et SQLite ont depuis longtemps des extensions spatiales. DuckDB ne change pas vraiment la facilité d’installation
  • Il y a aussi "import geopandas", utilisé depuis déjà pas mal de temps. En laissant le sarcasme de côté, je me demande ce que DuckDB a de si spécial. Si l’auteur avait montré des exemples concrets, j’aurais mieux compris son argumentation

  • Le logiciel qui m’enthousiasme le plus pour les applications géospatiales, c’est Felt. J’espère qu’ils étendront leurs outils pour permettre aux développeurs de contrôler l’authentification/l’autorisation des cartes et des sources de données, afin de rendre possible l’isolation par tenant et l’accès à des données propriétaires. Cela pourrait révolutionner la façon dont la technologie géospatiale s’intègre dans les applications grand public

    • Cet article ne reconnaît pas à quel point tout cela reste un marché de niche. Il faut énormément de pédagogie sur les systèmes de coordonnées, les projections, les transformations, etc. Si possible, j’aimerais remplacer beaucoup d’outils de cartographie sur mesure par Felt. Cela permettrait de se concentrer sur les processus géospatiaux essentiels plutôt que sur le code d’affichage et de manipulation dans le navigateur. En termes de LOC à maintenir, c’est quasiment équivalent, voire plus important
    • Comme mentionné dans un autre commentaire, l’expérience développeur DuckDB décrite ici est fondamentalement la même que celle de PostGIS
  • Je ne pense pas que l’« installation géospatiale » soit un game changer en matière de simplicité par rapport à "pip install geopandas"

    • Les deux tiennent sur une ligne
  • Est-ce vraiment beaucoup plus simple que 'load extension postgis' ? geos et gdal ont toujours été un peu pénibles, mais j’ai l’impression que docker a tout abstrait. 'docker pull postgis' est assez simple. Je ne connais pas bien ce que DuckDB apporte d’autre

  • Je laisse un commentaire pour faire connaître un projet similaire. Je travaille sur une extension géospatiale pour Polars. Ce n’est pas encore stable (on s’en approche beaucoup), mais c’est déjà presque complet sur le plan fonctionnel (équivalent à GeoPandas, avec GEOS et PROJ comme backends)

  • De quelle taille est le jeu de données ? Dans mon entreprise, nous essayons d’utiliser DuckDB pour des données de transactions financières et de reporting. Le jeu de données représente environ 500 Go de CSV sur S3, et DuckDB n’arrive pas à le gérer

  • J’ai des inquiétudes concernant les licences de DuckDB et de GEOS. Le premier est sous licence MIT, le second sous LGPL 2.1

    • Cela crée une situation compliquée où certaines builds enfreignent la LGPL 2.1. Par exemple, le lien statique avec des applications closed source
  • DuckDB est excellent pour le géospatial, mais est-ce la chose la plus importante de ces 10 dernières années ? Il existe tellement d’outils dans des catégories variées que, pour moi, il n’arrive pas en tête. Il y a QGIS, postGIS (toujours la référence), ArcGIS Online (toujours la référence), des outils de cartographie JS comme mapbox (je préfère deckgl), de nouveaux types de données comme COG, geopackage et geoparquet, des outils de photogrammétrie, les tuiles 3D, gdal et pdal, ainsi que des bibliothèques fondamentales comme shapely