TREX - moteur d’extraction de tableaux PDF en Rust (précision améliorée grâce au deep learning)

calmlake79 · 2026-02-28T23:52:42+09:00

Moteur open source basé sur Rust pour l’extraction de tableaux PDF Les outils Python existants (Camelot, Tabula, pdfplumber) nécessitent des dépendances d’exécution lourdes comme OpenCV, Ghostscript ou Java, ce qui entraîne de fortes contraintes mémoire dans les environnements serverless TREX fonctionne comme un binaire unique sans dépendances externes, avec ~30 Mo de mémoire, et peut être exécuté sur Cloud Run/Lambda sans OOM Intègre deux stratégies d’analyse, Lattice (basée sur les lignes de grille) et Stream (inférence par coordonnées), avec sélection automatique de la meilleure stratégie par page via le DL Router Le DL Router basé sur le deep learning analyse les caractéristiques des pages pour choisir automatiquement la stratégie d’analyse optimale (Lattice/Stream/Blend). En collectant les événements d’échec d’extraction en production et en réentraînant le modèle ONNX, il est possible d’améliorer continuellement la précision Utilisable directement depuis Node.js avec npm i @dreamyoungs/trex (wrapper CLI) ou npm i @dreamyoungs/trex-node (binding natif NAPI-RS) Prend aussi en charge une API REST Docker et des bindings Python, avec double licence MIT / Apache-2.0

Moteur open source basé sur Rust pour l’extraction de tableaux PDF
Les outils Python existants (Camelot, Tabula, pdfplumber) nécessitent des dépendances d’exécution lourdes comme OpenCV, Ghostscript ou Java, ce qui entraîne de fortes contraintes mémoire dans les environnements serverless
TREX fonctionne comme un binaire unique sans dépendances externes, avec ~30 Mo de mémoire, et peut être exécuté sur Cloud Run/Lambda sans OOM
Intègre deux stratégies d’analyse, Lattice (basée sur les lignes de grille) et Stream (inférence par coordonnées), avec sélection automatique de la meilleure stratégie par page via le DL Router
Le DL Router basé sur le deep learning analyse les caractéristiques des pages pour choisir automatiquement la stratégie d’analyse optimale (Lattice/Stream/Blend). En collectant les événements d’échec d’extraction en production et en réentraînant le modèle ONNX, il est possible d’améliorer continuellement la précision
Utilisable directement depuis Node.js avec npm i @dreamyoungs/trex (wrapper CLI) ou npm i @dreamyoungs/trex-node (binding natif NAPI-RS)
Prend aussi en charge une API REST Docker et des bindings Python, avec double licence MIT / Apache-2.0

TREX - moteur d’extraction de tableaux PDF en Rust (précision améliorée grâce au deep learning)

À lire aussi

Aucun commentaire pour le moment.