11 points par xguru 2025-12-30 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Format de fichier orienté colonnes open source conçu en partant du principe d’un matériel récent (SIMD·GPU)
  • Vise un accès aux données à haut débit et faible latence pour les charges de travail d’analyse et d’IA
  • Atteint environ 40 % de compression en plus par rapport à Parquet et une vitesse de décodage jusqu’à 40 fois plus rapide
  • Introduit une disposition basée sur des lanes qui minimise les dépendances entre données, permettant de décoder chaque unité indépendamment
    • Assure un parallélisme de données extrême sur SIMD, CPU multicœurs et GPU
  • Conçu pour que l’auto-vectorisation fonctionne efficacement sans code SIMD explicite
    • Adopte une approche par petits lots tenant compte des caractéristiques de cache des CPU et GPU
  • Prend en charge la décompression partielle (partial decompression), qui permet aux moteurs de données d’exécuter des requêtes directement sur les données compressées sans les décompresser entièrement
  • Exploite les corrélations entre colonnes via la compression multi-colonnes (Multi-Column Compression, MCC)
    • Fournit un mécanisme d’encodage basé sur des expressions pour dépasser les limites mono-colonne des formats de stockage en colonnes traditionnels
  • Architecture zero-dependency sans dépendance à des bibliothèques externes, pour simplifier la compilation
    • Fournit des bindings pour les principaux langages, dont C++, Python et Rust
  • API intégrée de conversion CSV ↔ FastLanes
    • Conversion simple avec read_csv() / to_fls()
    • Conversion inverse prise en charge avec read_fls() / to_csv()
  • Développé avec pour objectif l’intégration à la pile de données de nouvelle génération, notamment le décodage GPU et l’intégration avec Apache Arrow et DuckDB

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.