Le reverse engineering d’un outil d’IA juridique d’un milliard de dollars a révélé plus de 100 000 fichiers confidentiels

(alexschapiro.com)

2 points par GN⁺ 2025-12-04 | 1 commentaires | Partager sur WhatsApp

L’analyse de l’API de la plateforme d’IA juridique Filevine a révélé une vulnérabilité critique qui accordait des droits administrateurs complets sans authentification
Le chercheur a utilisé la subdomain enumeration pour trouver le sous-domaine margolis.filevine.com, identifié un endpoint API AWS et envoyé des requêtes de test
Une simple requête POST a reçu une réponse sans jeton d’authentification, et cette réponse contenait un token administrateur donnant accès à l’ensemble du système de fichiers Box
Avec ce token, il a été possible de trouver plus de 10 0000 documents “confidential”, notamment des données extrêmement sensibles liées à la santé, au juridique et à la paie
Filevine a réagi et corrigé immédiatement après le signalement, et ce cas illustre l’importance d’une gouvernance de la sécurité robuste pour les services d’IA juridiques

Calendrier de la découverte et de la divulgation de la vulnérabilité

Le chercheur a signalé la vulnérabilité à l’équipe sécurité de Filevine par e-mail le 27 octobre 2025
- 4 novembre: Filevine a reconnu le problème et a répondu avec un plan de correction rapide
- 20 novembre: le chercheur a vérifié que le correctif était en place et a indiqué son intention de publier le billet
- 21 novembre: Filevine a confirmé la correction et a remercié pour le signalement
- 3 décembre: publication du billet de blog technique
Filevine a fait preuve d’une réponse rapide et professionnelle à chaque étape, ce qui est souvent présenté comme un bon exemple de divulgation responsable

Contexte de Filevine et du marché de l’IA juridique

Filevine est une plateforme d’IA juridique évaluée à plus de 1 milliard de dollars, en forte croissance
Les cabinets d’avocats effectuent des traitements de données sur cette plateforme en y téléchargeant des informations hautement sensibles
Le chercheur a examiné l’architecture de sécurité des données de Filevine à partir de son expérience de projet avec la Yale Law School

Processus de rétro-ingénierie

En raison des restrictions d’accès de Filevine, le chercheur a utilisé la subdomain enumeration pour trouver un environnement de démo public
Il a découvert le sous-domaine margolis.filevine.com, mais la page ne se chargeait pas, puis a analysé les requêtes réseau via les outils de développement Chrome
Dans un fichier JS, il a trouvé POST await fetch(${BOX_SERVICE}/recommend) et a confirmé que la variable BOX_SERVICE était définie comme un endpoint API AWS
En envoyant une requête {"projectName":"Very sensitive Project"} vers /prod/recommend, une réponse est revenue sans authentification

Exposition du token administrateur et impact

La réponse contenait un token administrateur complet de l’API Box (boxToken)
Ce token accordait un accès à l’ensemble du système de fichiers Box interne du cabinet d’avocats
- accès à tous les documents, journaux, informations utilisateurs, etc.
Une recherche du mot-clé “confidential” a renvoyé environ 100 000 résultats
Le chercheur a immédiatement arrêté les tests et a signalé la vulnérabilité à Filevine
Un acteur malveillant qui aurait utilisé ce token aurait pu exposer des documents protégés par le HIPAA, des documents d’ordonnances judiciaires, des données internes de paie et d’autres données sensibles

Leçons de sécurité

Dans la course à l’adoption de l’IA, les entreprises doivent impérativement renforcer leurs cadres de protection des données
En particulier, les services d’IA de secteurs à haute confidentialité comme le juridique et le médical doivent maintenir des procédures rigoureuses de validation de sécurité
Ce cas montre clairement les risques liés à un échec d’authentification et de gestion des autorisations dans les solutions d’IA SaaS

1 commentaires

GN⁺ 2025-12-04

Commentaire Hacker News

C’est toujours surprenant de voir combien de temps il faut pour classer et corriger une faille de sécurité aussi évidente
Divulgation le 27 octobre, puis simple accusé de réception par e-mail le 4 novembre : pendant tout ce temps, l’ensemble du système de fichiers des clients était exposé
Le correctif lui-même était probablement un patch d’une heure tout au plus ; même avec les tests QA, cela ne devrait pas prendre autant de temps
Je me demande si personne ne lit l’adresse security@, si quelqu’un était en vacances, ou si le spam est tellement massif qu’un vrai problème passe inaperçu
- D’après mon expérience, ce genre de retard vient surtout de problèmes de structure organisationnelle et de gestion de projet
  L’équipe sécurité gère l’adresse security@, mais l’équipe qui doit réellement corriger le bug est différente, donc la transmission devient compliquée
  Rien que trouver l’équipe propriétaire du code peut prendre des semaines, et comme les plannings sont déjà pleins, il est difficile de remonter la priorité
  S’il faut en plus une validation du juridique, la réponse prend encore plus de temps
  Les entreprises bien organisées donnent à l’équipe sécurité un pouvoir d’intervention d’urgence, mais si c’est trop utilisé, cela finit aussi par créer de la fatigue en interne
- La plupart du temps, ce n’est pas qu’on ne regarde pas la boîte mail sécurité, c’est plutôt qu’une seule personne qui connaît le sujet gère 12 autres choses en parallèle
  Le patch de sécurité prend une heure, mais entre les validations internes et la recherche du propriétaire du code, ça devient deux semaines
  Au fond, le vrai problème, c’est l’entropie de l’organisation
- La boîte mail security@ reçoit aujourd’hui énormément de faux signalements
  Des LLM peuvent produire des rapports de vulnérabilité crédibles en apparence, ce qui fait parfois perdre des heures à des spécialistes
  C’est pour cela que certaines entreprises ont une politique consistant à ne consulter ces messages que pendant les heures de travail
- En pratique, il y a bien du spam, mais seulement quelques messages par jour, donc ce n’est pas une raison valable pour ne pas corriger immédiatement une faille aussi grave
  Comme tu l’as dit, il est probable que la personne responsable était simplement en vacances
- Le centre de réponse global où je travaille compte 600 personnes, et nous avons 26 000 sujets prioritaires
  Plus les systèmes deviennent complexes, plus les problèmes augmentent au lieu de diminuer
  Au final, on travaille dans l’illusion que « nous pouvons gérer cela »
Si cette entreprise a été valorisée à 1 milliard de dollars, une seule faille basique comme celle-ci aurait pu lui coûter ce montant
Si quelqu’un de malveillant l’avait trouvée, cela aurait pu être irrécupérable
L’intégralité des données clients aurait pu fuiter, donc il aurait fallu récompenser le découvreur
- Oui. Ce type de vulnérabilité aurait pu être revendu à un groupe de ransomware pour plusieurs centaines de milliers de dollars
  Ensuite seraient venus la fuite de données, le chantage, les procès et les amendes
  C’est précisément pour cela que certains hackers préfèrent le marché gris plutôt que le white hat
- Il aurait vraiment fallu offrir une grosse récompense
Je travaille dans la finance, et tout le monde se demande pourquoi on confie les données clients à tel SaaS X, mais qu’on refuse de téléverser des documents fiscaux dans tel SaaS IA Y
À mon avis, le secteur de l’IA ressemble aujourd’hui à un Far West
Ça évolue trop vite, et les procédures de sécurité sont sautées
Cet incident l’illustre très bien
- FileVine est bien un outil d’IA juridique, mais dans ce cas précis, le problème n’a rien à voir avec l’IA elle-même
  Cela ressemble simplement à un souci d’intégration avec l’API de Box
- Pour information, cette entreprise a été fondée en 2014 et n’a ajouté des fonctions LLM que récemment
  Lien vers l’article de Reuters
- Si le SaaS X fournit des fonctions IAM et applique ses propres politiques d’accès, c’est relativement plus sûr
  En revanche, si le SaaS Y se contente de dire « confiez-nous vos données, elles seront en sécurité », c’est suspect
- Mais il faudrait déjà se demander pourquoi on faisait confiance au SaaS X au départ
- Ce qui est intéressant, c’est que cette vulnérabilité n’a absolument rien à voir avec l’IA et que cela pourrait arriver dans n’importe quelle entreprise SaaS
Cet incident, c’est la collision entre une culture startup qui branche rapidement des API et des secteurs juridiques ou médicaux où une fuite de données peut ruiner une vie
Le problème relève d’un schéma de bug digne des années 2010, mais emballé dans du marketing IA version 2025
En centralisant les documents pour entraîner des modèles d’IA, on augmente énormément l’ampleur des dégâts possibles en cas d’incident
Côté commercial, il faut faciliter l’accès aux données pour signer des contrats, donc des principes comme le moindre privilège passent au second plan
Au final, les avocats pensent acheter un « assistant IA », mais en réalité ils accordent un accès externe à l’ensemble de la mémoire institutionnelle
La vraie question, c’est : combien de ces systèmes pourraient réellement passer un test de red team sérieux ?
- C’est un peu drôle. L’entreprise joue le spectacle de la cybersécurité tout en créant en parallèle un trou de ver LLM qui contourne tout
  Le problème, c’est que des dirigeants non techniques ne comprennent pas l’IA et ne savent que répéter le discours marketing
  Cela dit, j’aime bien le fait d’avoir utilisé deux fois une métaphore spatiale
L’équipe Filevine a fait preuve d’un comportement professionnel et réactif tout au long de la divulgation
Elle a reconnu la gravité du problème, l’a corrigé et a communiqué avec transparence
Donc dans un cas comme celui-ci, je pense qu’il n’est pas forcément nécessaire de révéler le nom de l’entreprise
Si le problème est résolu, il n’y a pas forcément besoin de l’humilier publiquement
- Mais dans une procédure de divulgation responsable, il est courant de nommer l’entreprise
  Cela permet au secteur de savoir quelles sociétés prennent les signalements au sérieux
- Une divulgation éthique, c’est quand les deux parties publient ensemble les détails techniques
  Cela reste un bon exemple à la fois pour les hackers et pour l’entreprise
- Cacher les torts fait perdre la transparence et la confiance
- Si le problème est aussi grave que celui-ci, les clients doivent le savoir
  D’autres éditeurs d’IA SaaS pourraient aussi lire cet article et éviter de commettre la même erreur
Les certifications de sécurité comme SOC2 ou HIPAA ressemblent à une forme de « théâtre de la sécurité »
En pratique, on ignore l’essentiel et on accumule surtout des captures d’écran et des documents formels
- SemiAnalysis a présenté ces certifications comme aussi importantes qu’une certification de la FAA, alors qu’eux-mêmes se sont fait pirater à cause d’un simple manque de contrôles de sécurité
  Lien vers l’article connexe
  En fin de compte, ce ne sont pas de vraies garanties de sécurité, juste des cases à cocher qu’on achète avec de l’argent
Les logiciels de sécurité ont encore énormément de marge de progression en matière de facilité d’usage et de complexité
Quand je travaillais chez Google et Meta, les systèmes ACL étaient tellement complexes qu’il m’a fallu quatre ans pour les comprendre
Ce sont des systèmes qu’une entreprise non technique ne pourra jamais utiliser
Du coup, cela me donne presque envie de créer une startup qui simplifie la sécurité
Cela me semble être un problème bien plus difficile que l’IA
C’est vraiment une bonne chose que cette entreprise ait autorisé la publication du billet de blog
J’ai moi aussi découvert par le passé une grosse vulnérabilité, mais l’entreprise avait bloqué la divulgation
- « Il faut vraiment demander l’autorisation ? » Il suffit de faire une divulgation responsable
- Pourquoi l’entreprise contrôlerait-elle la publication ? Si la procédure de signalement a été respectée, on devrait ensuite être libre d’écrire
Cette attaque n’avait rien de sophistiqué
Filevine affirme sur son site faire des tests d’intrusion, et pourtant ils ont raté ça, ce qui est difficile à croire
On dirait qu’ils ont confondu bug bounty et test d’intrusion
Il n’y a vraiment aucune excuse
En ce moment, il y a tellement de startups « healthcare + IA » que je crains une fuite massive de données HIPAA d’ici quelques mois
On peut voir des exemples liés dans ce fil aussi

Le reverse engineering d’un outil d’IA juridique d’un milliard de dollars a révélé plus de 100 000 fichiers confidentiels

Calendrier de la découverte et de la divulgation de la vulnérabilité

Contexte de Filevine et du marché de l’IA juridique

Processus de rétro-ingénierie

Exposition du token administrateur et impact

Leçons de sécurité

À lire aussi

1 commentaires

Commentaire Hacker News