- Moteur open source basé sur Rust pour l’extraction de tableaux PDF
- Les outils Python existants (Camelot, Tabula, pdfplumber) nécessitent des dépendances d’exécution lourdes comme OpenCV, Ghostscript ou Java, ce qui entraîne de fortes contraintes mémoire dans les environnements serverless
- TREX fonctionne comme un binaire unique sans dépendances externes, avec ~30 Mo de mémoire, et peut être exécuté sur Cloud Run/Lambda sans OOM
- Intègre deux stratégies d’analyse, Lattice (basée sur les lignes de grille) et Stream (inférence par coordonnées), avec sélection automatique de la meilleure stratégie par page via le DL Router
- Le DL Router basé sur le deep learning analyse les caractéristiques des pages pour choisir automatiquement la stratégie d’analyse optimale (Lattice/Stream/Blend). En collectant les événements d’échec d’extraction en production et en réentraînant le modèle ONNX, il est possible d’améliorer continuellement la précision
- Utilisable directement depuis Node.js avec
npm i @dreamyoungs/trex (wrapper CLI) ou npm i @dreamyoungs/trex-node (binding natif NAPI-RS)
- Prend aussi en charge une API REST Docker et des bindings Python, avec double licence MIT / Apache-2.0
Aucun commentaire pour le moment.