Fuite d’informations sensibles : une base de données DeepSeek exposée, avec des historiques de chat

(wiz.io)

1 points par GN⁺ 2025-01-30 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Lors d’un audit de la surface d’attaque externe de DeepSeek, une base de données ClickHouse ouverte sans authentification a été découverte ; DeepSeek a immédiatement bloqué l’exposition après en avoir été informé
Les points exposés se trouvaient sur les ports 8123 et 9000 de oauth2callback.deepseek.com et dev.deepseek.com ; depuis l’extérieur, il était possible de contrôler entièrement la base de données et d’accéder aux données internes
La table log_stream contenait plus d’un million de journaux, avec en clair des historiques de chat depuis le 6 janvier 2025, des API Keys, des détails de backend et des métadonnées opérationnelles
Via le chemin /play de l’interface HTTP de ClickHouse, il était possible d’exécuter dans le navigateur des requêtes SQL arbitraires, mais Wiz Research a limité sa consultation à un niveau d’énumération, conformément à des pratiques de recherche éthiques
Dans l’adoption rapide des services d’IA, le risque immédiat ne vient pas seulement du modèle lui-même, mais aussi de problèmes élémentaires de sécurité d’infrastructure, comme l’exposition accidentelle d’une base de données à Internet

Base de données ClickHouse de DeepSeek ouverte sans authentification

Wiz Research a identifié une base de données ClickHouse accessible publiquement appartenant à DeepSeek
Cette base de données était accessible sans authentification, avec la possibilité non seulement de consulter les données internes, mais aussi de contrôler entièrement les opérations de la base
Les informations exposées comprenaient des historiques de chat, des API Keys, des détails de backend, des flux de logs et des détails opérationnels
Wiz Research a immédiatement signalé le problème à DeepSeek, qui a rapidement bloqué l’exposition

DeepSeek est une startup chinoise d’IA qui a récemment attiré une forte attention avec son modèle de raisonnement DeepSeek-R1
- DeepSeek-R1 est présenté comme compétitif en performances avec des systèmes d’IA de premier plan comme o1 d’OpenAI
- Son rapport coût-efficacité et son efficacité sont mis en avant comme des caractéristiques majeures
Wiz Research a examiné les domaines publics de DeepSeek afin d’évaluer sa surface d’attaque externe
Une exploration passive et active des sous-domaines a permis d’identifier environ 30 sous-domaines exposés à Internet
- La plupart correspondaient à des interfaces de chatbot, pages d’état ou documentations d’API qui, au départ, ne semblaient pas constituer des expositions à haut risque
En élargissant la recherche au-delà des ports HTTP standard 80/443, les ports 8123 et 9000 se sont révélés ouverts
- Les hôtes concernés étaient oauth2callback.deepseek.com et dev.deepseek.com

Les ports identifiés menaient à une base de données ClickHouse accessible sans authentification
ClickHouse est un système de gestion de base de données colonnaire open source conçu pour des requêtes analytiques rapides sur de grands jeux de données
- Il a été développé par Yandex
- Il est largement utilisé pour le traitement de données en temps réel, le stockage de logs et l’analyse big data
Dans l’interface HTTP de ClickHouse, le chemin /play permettait d’exécuter directement dans le navigateur des requêtes SQL arbitraires
La requête SHOW TABLES; renvoyait la liste des jeux de données accessibles, dont la table log_stream, qui contenait des logs particulièrement sensibles

La table log_stream contenait plus d’un million d’entrées de logs
Les principales colonnes et informations exposées étaient les suivantes
- timestamp : logs depuis le 6 janvier 2025
- span_name : références à divers endpoints d’API internes de DeepSeek
- string.values : logs en clair contenant des historiques de chat, des API Keys, des détails de backend et des métadonnées opérationnelles
- _service : indication du service DeepSeek ayant généré le log
- _source : exposition de l’origine des requêtes de logs, avec des historiques de chat, des API Keys, la structure des répertoires et des logs de métadonnées du chatbot
Un tel niveau d’accès aurait pu créer des risques majeurs pour la sécurité de DeepSeek elle-même et pour les utilisateurs finaux
Un attaquant aurait pu récupérer des logs sensibles et de vrais messages de chat en clair ; selon la configuration de ClickHouse, il aurait aussi pu exfiltrer directement des mots de passe serveur en clair, des fichiers locaux ou des informations propriétaires au moyen de requêtes comme SELECT * FROM file('filename')
Wiz Research n’a pas exécuté de requêtes intrusives allant au-delà de l’énumération, afin de respecter des pratiques de recherche éthiques

Les risques de sécurité immédiats des applications d’IA peuvent venir davantage de l’infrastructure et des outils qui les soutiennent que du modèle lui-même
Même si les discussions sur la sécurité de l’IA se concentrent sur des menaces futures, les risques de sécurité fondamentaux, comme l’exposition accidentelle d’une base de données à Internet, doivent rester une priorité absolue pour les équipes sécurité
À mesure que les organisations adoptent rapidement des outils et services d’IA provenant de diverses startups et fournisseurs, elles confient de plus en plus de données sensibles à ces entreprises
Ce rythme d’adoption rapide peut conduire à négliger la sécurité ; la protection des données clients doit donc être prioritaire
Les équipes sécurité doivent travailler étroitement avec les ingénieurs IA afin d’obtenir de la visibilité sur les architectures, outils et modèles utilisés, condition nécessaire pour éviter les expositions de données
Les entreprises d’IA deviennent rapidement des fournisseurs d’infrastructures critiques sans disposer nécessairement des frameworks de sécurité habituellement associés à une adoption à grande échelle ; des pratiques de sécurité adaptées aux risques liés au traitement de données sensibles sont donc nécessaires