10 points par calmlake79 2026-02-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Moteur open source basé sur Rust pour l’extraction de tableaux PDF
  • Les outils Python existants (Camelot, Tabula, pdfplumber) nécessitent des dépendances d’exécution lourdes comme OpenCV, Ghostscript ou Java, ce qui entraîne de fortes contraintes mémoire dans les environnements serverless
  • TREX fonctionne comme un binaire unique sans dépendances externes, avec ~30 Mo de mémoire, et peut être exécuté sur Cloud Run/Lambda sans OOM
  • Intègre deux stratégies d’analyse, Lattice (basée sur les lignes de grille) et Stream (inférence par coordonnées), avec sélection automatique de la meilleure stratégie par page via le DL Router
  • Le DL Router basé sur le deep learning analyse les caractéristiques des pages pour choisir automatiquement la stratégie d’analyse optimale (Lattice/Stream/Blend). En collectant les événements d’échec d’extraction en production et en réentraînant le modèle ONNX, il est possible d’améliorer continuellement la précision
  • Utilisable directement depuis Node.js avec npm i @dreamyoungs/trex (wrapper CLI) ou npm i @dreamyoungs/trex-node (binding natif NAPI-RS)
  • Prend aussi en charge une API REST Docker et des bindings Python, avec double licence MIT / Apache-2.0

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.