FastLanes – format de fichier big data de nouvelle génération

xguru · 2025-12-30T09:31:01+09:00

Format de fichier orienté colonnes open source conçu en partant du principe d’un matériel récent (SIMD·GPU) Vise un accès aux données à haut débit et faible latence pour les charges de travail d’analyse et d’IA Atteint environ 40 % de compression en plus par rapport à Parquet et une vitesse de décodage jusqu’à 40 fois plus rapide Introduit une disposition basée sur des lanes qui minimise les dépendances entre données, permettant de décoder chaque unité indépendamment Assure un parallélisme de données extrême sur SIMD, CPU multicœurs et GPU Conçu pour que l’auto-vectorisation fonctionne efficacement sans code SIMD explicite Adopte une approche par petits lots tenant compte des caractéristiques de cache des CPU et GPU Prend en charge la décompression partielle (partial decompression), qui permet aux moteurs de données d’exécuter des requêtes directement sur les données compressées sans les décompresser entièrement Exploite les corrélations entre colonnes via la compression multi-colonnes (Multi-Column Compression, MCC) Fournit un mécanisme d’encodage basé sur des expressions pour dépasser les limites mono-colonne des formats de stockage en colonnes traditionnels Architecture zero-dependency sans dépendance à des bibliothèques externes, pour simplifier la compilation Fournit des bindings pour les principaux langages, dont C++, Python et Rust API intégrée de conversion CSV ↔ FastLanes Conversion simple avec read_csv() / to_fls() Conversion inverse prise en charge avec read_fls() / to_csv() Développé avec pour objectif l’intégration à la pile de données de nouvelle génération, notamment le décodage GPU et l’intégration avec Apache Arrow et DuckDB

Format de fichier orienté colonnes open source conçu en partant du principe d’un matériel récent (SIMD·GPU)
Vise un accès aux données à haut débit et faible latence pour les charges de travail d’analyse et d’IA
Atteint environ 40 % de compression en plus par rapport à Parquet et une vitesse de décodage jusqu’à 40 fois plus rapide
Introduit une disposition basée sur des lanes qui minimise les dépendances entre données, permettant de décoder chaque unité indépendamment
- Assure un parallélisme de données extrême sur SIMD, CPU multicœurs et GPU
Conçu pour que l’auto-vectorisation fonctionne efficacement sans code SIMD explicite
- Adopte une approche par petits lots tenant compte des caractéristiques de cache des CPU et GPU
Prend en charge la décompression partielle (partial decompression), qui permet aux moteurs de données d’exécuter des requêtes directement sur les données compressées sans les décompresser entièrement
Exploite les corrélations entre colonnes via la compression multi-colonnes (Multi-Column Compression, MCC)
- Fournit un mécanisme d’encodage basé sur des expressions pour dépasser les limites mono-colonne des formats de stockage en colonnes traditionnels
Architecture zero-dependency sans dépendance à des bibliothèques externes, pour simplifier la compilation
- Fournit des bindings pour les principaux langages, dont C++, Python et Rust
API intégrée de conversion CSV ↔ FastLanes
- Conversion simple avec read_csv() / to_fls()
- Conversion inverse prise en charge avec read_fls() / to_csv()
Développé avec pour objectif l’intégration à la pile de données de nouvelle génération, notamment le décodage GPU et l’intégration avec Apache Arrow et DuckDB

FastLanes – format de fichier big data de nouvelle génération

À lire aussi

Aucun commentaire pour le moment.