-
Outil d’enquête et d’analyse de données pour le journalisme d’investigation, créé par l’OCCRP, spécialiste des enquêtes sur le crime organisé et la corruption
-
Recherche croisée unifiée sur des données structurées (DB) et non structurées (PDF, XLS, DOC, etc.)
-
Fonctions de partitionnement des données et de gestion des accès. Prend en charge un partage flexible entre équipes multinationales
-
Crawling continu à partir de centaines de sources de données publiques
-
Fournit une analyse d’investigation visuelle
-
Prise en charge de l’import de données
-
De HTML/XML à PDF, RTF, Epub, ainsi que la plupart des documents bureautiques (Doc, PPT)
-
Formats tabulaires comme XLS/CSV ainsi que DBF, SQLite, Access
-
E-mails RFC822 MIME, boîtes mail comme Outlook PST/OLM, Mbox, Vcard
-
Zip, Rar, Tar, 7Zip, Gzip
-
Pour JPEG, PNG, GIF, TIFF, SVG, extraction de texte par OCR via Tesseract 4 ou Google Vision API
1 commentaires
L’organisation à l’origine, OCCRP, est de ce type.
« OCCRP, média d’investigation spécialisé dans le crime organisé et la corruption » https://newstapa.org/article/_DNLi
Vous pouvez l’essayer avec de vraies données sur https://aleph.occrp.org/ .
La vidéo de démonstration réalisée par OpenOil explique Aleph de façon simple.
( OpenOil est une entreprise qui crée un framework de données ouvert pour gérer les ressources naturelles du monde entier, comme le gaz, le pétrole et le charbon. )
https://www.youtube.com/watch?v=bg96HcR_2Jc
Comme l’outil a été créé par une organisation d’investigation spécialisée dans la « corruption », son modèle de données de base est « Follow the Money ».
Il suit très bien la manière dont l’argent circule entre différentes entreprises et différentes personnes.
Par conséquent, les principaux types d’entités pris en charge dans les jeux de données sont les suivants.