2 points par GN⁺ 2025-12-04 | 1 commentaires | Partager sur WhatsApp
  • L’analyse de l’API de la plateforme d’IA juridique Filevine a révélé une vulnérabilité critique qui accordait des droits administrateurs complets sans authentification
  • Le chercheur a utilisé la subdomain enumeration pour trouver le sous-domaine margolis.filevine.com, identifié un endpoint API AWS et envoyé des requêtes de test
  • Une simple requête POST a reçu une réponse sans jeton d’authentification, et cette réponse contenait un token administrateur donnant accès à l’ensemble du système de fichiers Box
  • Avec ce token, il a été possible de trouver plus de 10 0000 documents “confidential”, notamment des données extrêmement sensibles liées à la santé, au juridique et à la paie
  • Filevine a réagi et corrigé immédiatement après le signalement, et ce cas illustre l’importance d’une gouvernance de la sécurité robuste pour les services d’IA juridiques

Calendrier de la découverte et de la divulgation de la vulnérabilité

  • Le chercheur a signalé la vulnérabilité à l’équipe sécurité de Filevine par e-mail le 27 octobre 2025
    • 4 novembre: Filevine a reconnu le problème et a répondu avec un plan de correction rapide
    • 20 novembre: le chercheur a vérifié que le correctif était en place et a indiqué son intention de publier le billet
    • 21 novembre: Filevine a confirmé la correction et a remercié pour le signalement
    • 3 décembre: publication du billet de blog technique
  • Filevine a fait preuve d’une réponse rapide et professionnelle à chaque étape, ce qui est souvent présenté comme un bon exemple de divulgation responsable

Contexte de Filevine et du marché de l’IA juridique

  • Filevine est une plateforme d’IA juridique évaluée à plus de 1 milliard de dollars, en forte croissance
  • Les cabinets d’avocats effectuent des traitements de données sur cette plateforme en y téléchargeant des informations hautement sensibles
  • Le chercheur a examiné l’architecture de sécurité des données de Filevine à partir de son expérience de projet avec la Yale Law School

Processus de rétro-ingénierie

  • En raison des restrictions d’accès de Filevine, le chercheur a utilisé la subdomain enumeration pour trouver un environnement de démo public
  • Il a découvert le sous-domaine margolis.filevine.com, mais la page ne se chargeait pas, puis a analysé les requêtes réseau via les outils de développement Chrome
  • Dans un fichier JS, il a trouvé POST await fetch(${BOX_SERVICE}/recommend) et a confirmé que la variable BOX_SERVICE était définie comme un endpoint API AWS
  • En envoyant une requête {"projectName":"Very sensitive Project"} vers /prod/recommend, une réponse est revenue sans authentification

Exposition du token administrateur et impact

  • La réponse contenait un token administrateur complet de l’API Box (boxToken)
  • Ce token accordait un accès à l’ensemble du système de fichiers Box interne du cabinet d’avocats
    • accès à tous les documents, journaux, informations utilisateurs, etc.
  • Une recherche du mot-clé “confidential” a renvoyé environ 100 000 résultats
  • Le chercheur a immédiatement arrêté les tests et a signalé la vulnérabilité à Filevine
  • Un acteur malveillant qui aurait utilisé ce token aurait pu exposer des documents protégés par le HIPAA, des documents d’ordonnances judiciaires, des données internes de paie et d’autres données sensibles

Leçons de sécurité

  • Dans la course à l’adoption de l’IA, les entreprises doivent impérativement renforcer leurs cadres de protection des données
  • En particulier, les services d’IA de secteurs à haute confidentialité comme le juridique et le médical doivent maintenir des procédures rigoureuses de validation de sécurité
  • Ce cas montre clairement les risques liés à un échec d’authentification et de gestion des autorisations dans les solutions d’IA SaaS

1 commentaires

 
GN⁺ 2025-12-04
Commentaire Hacker News
  • C’est toujours surprenant de voir combien de temps il faut pour classer et corriger une faille de sécurité aussi évidente
    Divulgation le 27 octobre, puis simple accusé de réception par e-mail le 4 novembre : pendant tout ce temps, l’ensemble du système de fichiers des clients était exposé
    Le correctif lui-même était probablement un patch d’une heure tout au plus ; même avec les tests QA, cela ne devrait pas prendre autant de temps
    Je me demande si personne ne lit l’adresse security@, si quelqu’un était en vacances, ou si le spam est tellement massif qu’un vrai problème passe inaperçu

    • D’après mon expérience, ce genre de retard vient surtout de problèmes de structure organisationnelle et de gestion de projet
      L’équipe sécurité gère l’adresse security@, mais l’équipe qui doit réellement corriger le bug est différente, donc la transmission devient compliquée
      Rien que trouver l’équipe propriétaire du code peut prendre des semaines, et comme les plannings sont déjà pleins, il est difficile de remonter la priorité
      S’il faut en plus une validation du juridique, la réponse prend encore plus de temps
      Les entreprises bien organisées donnent à l’équipe sécurité un pouvoir d’intervention d’urgence, mais si c’est trop utilisé, cela finit aussi par créer de la fatigue en interne
    • La plupart du temps, ce n’est pas qu’on ne regarde pas la boîte mail sécurité, c’est plutôt qu’une seule personne qui connaît le sujet gère 12 autres choses en parallèle
      Le patch de sécurité prend une heure, mais entre les validations internes et la recherche du propriétaire du code, ça devient deux semaines
      Au fond, le vrai problème, c’est l’entropie de l’organisation
    • La boîte mail security@ reçoit aujourd’hui énormément de faux signalements
      Des LLM peuvent produire des rapports de vulnérabilité crédibles en apparence, ce qui fait parfois perdre des heures à des spécialistes
      C’est pour cela que certaines entreprises ont une politique consistant à ne consulter ces messages que pendant les heures de travail
    • En pratique, il y a bien du spam, mais seulement quelques messages par jour, donc ce n’est pas une raison valable pour ne pas corriger immédiatement une faille aussi grave
      Comme tu l’as dit, il est probable que la personne responsable était simplement en vacances
    • Le centre de réponse global où je travaille compte 600 personnes, et nous avons 26 000 sujets prioritaires
      Plus les systèmes deviennent complexes, plus les problèmes augmentent au lieu de diminuer
      Au final, on travaille dans l’illusion que « nous pouvons gérer cela »
  • Si cette entreprise a été valorisée à 1 milliard de dollars, une seule faille basique comme celle-ci aurait pu lui coûter ce montant
    Si quelqu’un de malveillant l’avait trouvée, cela aurait pu être irrécupérable
    L’intégralité des données clients aurait pu fuiter, donc il aurait fallu récompenser le découvreur

    • Oui. Ce type de vulnérabilité aurait pu être revendu à un groupe de ransomware pour plusieurs centaines de milliers de dollars
      Ensuite seraient venus la fuite de données, le chantage, les procès et les amendes
      C’est précisément pour cela que certains hackers préfèrent le marché gris plutôt que le white hat
    • Il aurait vraiment fallu offrir une grosse récompense
  • Je travaille dans la finance, et tout le monde se demande pourquoi on confie les données clients à tel SaaS X, mais qu’on refuse de téléverser des documents fiscaux dans tel SaaS IA Y
    À mon avis, le secteur de l’IA ressemble aujourd’hui à un Far West
    Ça évolue trop vite, et les procédures de sécurité sont sautées
    Cet incident l’illustre très bien

    • FileVine est bien un outil d’IA juridique, mais dans ce cas précis, le problème n’a rien à voir avec l’IA elle-même
      Cela ressemble simplement à un souci d’intégration avec l’API de Box
    • Pour information, cette entreprise a été fondée en 2014 et n’a ajouté des fonctions LLM que récemment
      Lien vers l’article de Reuters
    • Si le SaaS X fournit des fonctions IAM et applique ses propres politiques d’accès, c’est relativement plus sûr
      En revanche, si le SaaS Y se contente de dire « confiez-nous vos données, elles seront en sécurité », c’est suspect
    • Mais il faudrait déjà se demander pourquoi on faisait confiance au SaaS X au départ
    • Ce qui est intéressant, c’est que cette vulnérabilité n’a absolument rien à voir avec l’IA et que cela pourrait arriver dans n’importe quelle entreprise SaaS
  • Cet incident, c’est la collision entre une culture startup qui branche rapidement des API et des secteurs juridiques ou médicaux où une fuite de données peut ruiner une vie
    Le problème relève d’un schéma de bug digne des années 2010, mais emballé dans du marketing IA version 2025
    En centralisant les documents pour entraîner des modèles d’IA, on augmente énormément l’ampleur des dégâts possibles en cas d’incident
    Côté commercial, il faut faciliter l’accès aux données pour signer des contrats, donc des principes comme le moindre privilège passent au second plan
    Au final, les avocats pensent acheter un « assistant IA », mais en réalité ils accordent un accès externe à l’ensemble de la mémoire institutionnelle
    La vraie question, c’est : combien de ces systèmes pourraient réellement passer un test de red team sérieux ?

    • C’est un peu drôle. L’entreprise joue le spectacle de la cybersécurité tout en créant en parallèle un trou de ver LLM qui contourne tout
      Le problème, c’est que des dirigeants non techniques ne comprennent pas l’IA et ne savent que répéter le discours marketing
      Cela dit, j’aime bien le fait d’avoir utilisé deux fois une métaphore spatiale
  • L’équipe Filevine a fait preuve d’un comportement professionnel et réactif tout au long de la divulgation
    Elle a reconnu la gravité du problème, l’a corrigé et a communiqué avec transparence
    Donc dans un cas comme celui-ci, je pense qu’il n’est pas forcément nécessaire de révéler le nom de l’entreprise
    Si le problème est résolu, il n’y a pas forcément besoin de l’humilier publiquement

    • Mais dans une procédure de divulgation responsable, il est courant de nommer l’entreprise
      Cela permet au secteur de savoir quelles sociétés prennent les signalements au sérieux
    • Une divulgation éthique, c’est quand les deux parties publient ensemble les détails techniques
      Cela reste un bon exemple à la fois pour les hackers et pour l’entreprise
    • Cacher les torts fait perdre la transparence et la confiance
    • Si le problème est aussi grave que celui-ci, les clients doivent le savoir
      D’autres éditeurs d’IA SaaS pourraient aussi lire cet article et éviter de commettre la même erreur
  • Les certifications de sécurité comme SOC2 ou HIPAA ressemblent à une forme de « théâtre de la sécurité »
    En pratique, on ignore l’essentiel et on accumule surtout des captures d’écran et des documents formels

    • SemiAnalysis a présenté ces certifications comme aussi importantes qu’une certification de la FAA, alors qu’eux-mêmes se sont fait pirater à cause d’un simple manque de contrôles de sécurité
      Lien vers l’article connexe
      En fin de compte, ce ne sont pas de vraies garanties de sécurité, juste des cases à cocher qu’on achète avec de l’argent
  • Les logiciels de sécurité ont encore énormément de marge de progression en matière de facilité d’usage et de complexité
    Quand je travaillais chez Google et Meta, les systèmes ACL étaient tellement complexes qu’il m’a fallu quatre ans pour les comprendre
    Ce sont des systèmes qu’une entreprise non technique ne pourra jamais utiliser
    Du coup, cela me donne presque envie de créer une startup qui simplifie la sécurité
    Cela me semble être un problème bien plus difficile que l’IA

  • C’est vraiment une bonne chose que cette entreprise ait autorisé la publication du billet de blog
    J’ai moi aussi découvert par le passé une grosse vulnérabilité, mais l’entreprise avait bloqué la divulgation

    • « Il faut vraiment demander l’autorisation ? » Il suffit de faire une divulgation responsable
    • Pourquoi l’entreprise contrôlerait-elle la publication ? Si la procédure de signalement a été respectée, on devrait ensuite être libre d’écrire
  • Cette attaque n’avait rien de sophistiqué
    Filevine affirme sur son site faire des tests d’intrusion, et pourtant ils ont raté ça, ce qui est difficile à croire
    On dirait qu’ils ont confondu bug bounty et test d’intrusion
    Il n’y a vraiment aucune excuse

  • En ce moment, il y a tellement de startups « healthcare + IA » que je crains une fuite massive de données HIPAA d’ici quelques mois
    On peut voir des exemples liés dans ce fil aussi