Le reverse engineering d’un outil d’IA juridique d’un milliard de dollars a révélé plus de 100 000 fichiers confidentiels
(alexschapiro.com)- L’analyse de l’API de la plateforme d’IA juridique Filevine a révélé une vulnérabilité critique qui accordait des droits administrateurs complets sans authentification
- Le chercheur a utilisé la subdomain enumeration pour trouver le sous-domaine
margolis.filevine.com, identifié un endpoint API AWS et envoyé des requêtes de test - Une simple requête
POSTa reçu une réponse sans jeton d’authentification, et cette réponse contenait un token administrateur donnant accès à l’ensemble du système de fichiers Box - Avec ce token, il a été possible de trouver plus de 10 0000 documents “confidential”, notamment des données extrêmement sensibles liées à la santé, au juridique et à la paie
- Filevine a réagi et corrigé immédiatement après le signalement, et ce cas illustre l’importance d’une gouvernance de la sécurité robuste pour les services d’IA juridiques
Calendrier de la découverte et de la divulgation de la vulnérabilité
- Le chercheur a signalé la vulnérabilité à l’équipe sécurité de Filevine par e-mail le 27 octobre 2025
- 4 novembre: Filevine a reconnu le problème et a répondu avec un plan de correction rapide
- 20 novembre: le chercheur a vérifié que le correctif était en place et a indiqué son intention de publier le billet
- 21 novembre: Filevine a confirmé la correction et a remercié pour le signalement
- 3 décembre: publication du billet de blog technique
- Filevine a fait preuve d’une réponse rapide et professionnelle à chaque étape, ce qui est souvent présenté comme un bon exemple de divulgation responsable
Contexte de Filevine et du marché de l’IA juridique
- Filevine est une plateforme d’IA juridique évaluée à plus de 1 milliard de dollars, en forte croissance
- Les cabinets d’avocats effectuent des traitements de données sur cette plateforme en y téléchargeant des informations hautement sensibles
- Le chercheur a examiné l’architecture de sécurité des données de Filevine à partir de son expérience de projet avec la Yale Law School
Processus de rétro-ingénierie
- En raison des restrictions d’accès de Filevine, le chercheur a utilisé la subdomain enumeration pour trouver un environnement de démo public
- Il a découvert le sous-domaine
margolis.filevine.com, mais la page ne se chargeait pas, puis a analysé les requêtes réseau via les outils de développement Chrome - Dans un fichier JS, il a trouvé
POST await fetch(${BOX_SERVICE}/recommend)et a confirmé que la variable BOX_SERVICE était définie comme un endpoint API AWS - En envoyant une requête
{"projectName":"Very sensitive Project"}vers/prod/recommend, une réponse est revenue sans authentification
Exposition du token administrateur et impact
- La réponse contenait un token administrateur complet de l’API Box (
boxToken) - Ce token accordait un accès à l’ensemble du système de fichiers Box interne du cabinet d’avocats
- accès à tous les documents, journaux, informations utilisateurs, etc.
- Une recherche du mot-clé “confidential” a renvoyé environ 100 000 résultats
- Le chercheur a immédiatement arrêté les tests et a signalé la vulnérabilité à Filevine
- Un acteur malveillant qui aurait utilisé ce token aurait pu exposer des documents protégés par le HIPAA, des documents d’ordonnances judiciaires, des données internes de paie et d’autres données sensibles
Leçons de sécurité
- Dans la course à l’adoption de l’IA, les entreprises doivent impérativement renforcer leurs cadres de protection des données
- En particulier, les services d’IA de secteurs à haute confidentialité comme le juridique et le médical doivent maintenir des procédures rigoureuses de validation de sécurité
- Ce cas montre clairement les risques liés à un échec d’authentification et de gestion des autorisations dans les solutions d’IA SaaS
1 commentaires
Commentaire Hacker News
C’est toujours surprenant de voir combien de temps il faut pour classer et corriger une faille de sécurité aussi évidente
Divulgation le 27 octobre, puis simple accusé de réception par e-mail le 4 novembre : pendant tout ce temps, l’ensemble du système de fichiers des clients était exposé
Le correctif lui-même était probablement un patch d’une heure tout au plus ; même avec les tests QA, cela ne devrait pas prendre autant de temps
Je me demande si personne ne lit l’adresse security@, si quelqu’un était en vacances, ou si le spam est tellement massif qu’un vrai problème passe inaperçu
L’équipe sécurité gère l’adresse security@, mais l’équipe qui doit réellement corriger le bug est différente, donc la transmission devient compliquée
Rien que trouver l’équipe propriétaire du code peut prendre des semaines, et comme les plannings sont déjà pleins, il est difficile de remonter la priorité
S’il faut en plus une validation du juridique, la réponse prend encore plus de temps
Les entreprises bien organisées donnent à l’équipe sécurité un pouvoir d’intervention d’urgence, mais si c’est trop utilisé, cela finit aussi par créer de la fatigue en interne
Le patch de sécurité prend une heure, mais entre les validations internes et la recherche du propriétaire du code, ça devient deux semaines
Au fond, le vrai problème, c’est l’entropie de l’organisation
Des LLM peuvent produire des rapports de vulnérabilité crédibles en apparence, ce qui fait parfois perdre des heures à des spécialistes
C’est pour cela que certaines entreprises ont une politique consistant à ne consulter ces messages que pendant les heures de travail
Comme tu l’as dit, il est probable que la personne responsable était simplement en vacances
Plus les systèmes deviennent complexes, plus les problèmes augmentent au lieu de diminuer
Au final, on travaille dans l’illusion que « nous pouvons gérer cela »
Si cette entreprise a été valorisée à 1 milliard de dollars, une seule faille basique comme celle-ci aurait pu lui coûter ce montant
Si quelqu’un de malveillant l’avait trouvée, cela aurait pu être irrécupérable
L’intégralité des données clients aurait pu fuiter, donc il aurait fallu récompenser le découvreur
Ensuite seraient venus la fuite de données, le chantage, les procès et les amendes
C’est précisément pour cela que certains hackers préfèrent le marché gris plutôt que le white hat
Je travaille dans la finance, et tout le monde se demande pourquoi on confie les données clients à tel SaaS X, mais qu’on refuse de téléverser des documents fiscaux dans tel SaaS IA Y
À mon avis, le secteur de l’IA ressemble aujourd’hui à un Far West
Ça évolue trop vite, et les procédures de sécurité sont sautées
Cet incident l’illustre très bien
Cela ressemble simplement à un souci d’intégration avec l’API de Box
Lien vers l’article de Reuters
En revanche, si le SaaS Y se contente de dire « confiez-nous vos données, elles seront en sécurité », c’est suspect
Cet incident, c’est la collision entre une culture startup qui branche rapidement des API et des secteurs juridiques ou médicaux où une fuite de données peut ruiner une vie
Le problème relève d’un schéma de bug digne des années 2010, mais emballé dans du marketing IA version 2025
En centralisant les documents pour entraîner des modèles d’IA, on augmente énormément l’ampleur des dégâts possibles en cas d’incident
Côté commercial, il faut faciliter l’accès aux données pour signer des contrats, donc des principes comme le moindre privilège passent au second plan
Au final, les avocats pensent acheter un « assistant IA », mais en réalité ils accordent un accès externe à l’ensemble de la mémoire institutionnelle
La vraie question, c’est : combien de ces systèmes pourraient réellement passer un test de red team sérieux ?
Le problème, c’est que des dirigeants non techniques ne comprennent pas l’IA et ne savent que répéter le discours marketing
Cela dit, j’aime bien le fait d’avoir utilisé deux fois une métaphore spatiale
L’équipe Filevine a fait preuve d’un comportement professionnel et réactif tout au long de la divulgation
Elle a reconnu la gravité du problème, l’a corrigé et a communiqué avec transparence
Donc dans un cas comme celui-ci, je pense qu’il n’est pas forcément nécessaire de révéler le nom de l’entreprise
Si le problème est résolu, il n’y a pas forcément besoin de l’humilier publiquement
Cela permet au secteur de savoir quelles sociétés prennent les signalements au sérieux
Cela reste un bon exemple à la fois pour les hackers et pour l’entreprise
D’autres éditeurs d’IA SaaS pourraient aussi lire cet article et éviter de commettre la même erreur
Les certifications de sécurité comme SOC2 ou HIPAA ressemblent à une forme de « théâtre de la sécurité »
En pratique, on ignore l’essentiel et on accumule surtout des captures d’écran et des documents formels
Lien vers l’article connexe
En fin de compte, ce ne sont pas de vraies garanties de sécurité, juste des cases à cocher qu’on achète avec de l’argent
Les logiciels de sécurité ont encore énormément de marge de progression en matière de facilité d’usage et de complexité
Quand je travaillais chez Google et Meta, les systèmes ACL étaient tellement complexes qu’il m’a fallu quatre ans pour les comprendre
Ce sont des systèmes qu’une entreprise non technique ne pourra jamais utiliser
Du coup, cela me donne presque envie de créer une startup qui simplifie la sécurité
Cela me semble être un problème bien plus difficile que l’IA
C’est vraiment une bonne chose que cette entreprise ait autorisé la publication du billet de blog
J’ai moi aussi découvert par le passé une grosse vulnérabilité, mais l’entreprise avait bloqué la divulgation
Cette attaque n’avait rien de sophistiqué
Filevine affirme sur son site faire des tests d’intrusion, et pourtant ils ont raté ça, ce qui est difficile à croire
On dirait qu’ils ont confondu bug bounty et test d’intrusion
Il n’y a vraiment aucune excuse
En ce moment, il y a tellement de startups « healthcare + IA » que je crains une fuite massive de données HIPAA d’ici quelques mois
On peut voir des exemples liés dans ce fil aussi