- Format de fichier orienté colonnes open source conçu en partant du principe d’un matériel récent (SIMD·GPU)
- Vise un accès aux données à haut débit et faible latence pour les charges de travail d’analyse et d’IA
- Atteint environ 40 % de compression en plus par rapport à Parquet et une vitesse de décodage jusqu’à 40 fois plus rapide
- Introduit une disposition basée sur des lanes qui minimise les dépendances entre données, permettant de décoder chaque unité indépendamment
- Assure un parallélisme de données extrême sur SIMD, CPU multicœurs et GPU
- Conçu pour que l’auto-vectorisation fonctionne efficacement sans code SIMD explicite
- Adopte une approche par petits lots tenant compte des caractéristiques de cache des CPU et GPU
- Prend en charge la décompression partielle (partial decompression), qui permet aux moteurs de données d’exécuter des requêtes directement sur les données compressées sans les décompresser entièrement
- Exploite les corrélations entre colonnes via la compression multi-colonnes (Multi-Column Compression, MCC)
- Fournit un mécanisme d’encodage basé sur des expressions pour dépasser les limites mono-colonne des formats de stockage en colonnes traditionnels
- Architecture zero-dependency sans dépendance à des bibliothèques externes, pour simplifier la compilation
- Fournit des bindings pour les principaux langages, dont C++, Python et Rust
- API intégrée de conversion CSV ↔ FastLanes
- Conversion simple avec
read_csv() / to_fls()
- Conversion inverse prise en charge avec
read_fls() / to_csv()
- Développé avec pour objectif l’intégration à la pile de données de nouvelle génération, notamment le décodage GPU et l’intégration avec Apache Arrow et DuckDB
Aucun commentaire pour le moment.