-
Résumé
- Wiz Research a découvert une base de données ClickHouse de DeepSeek accessible publiquement. Cette base permettait un contrôle total sur les opérations de base de données, y compris la capacité d’accéder à des données internes. Les données exposées comprenaient des historiques de conversation, des clés secrètes, des détails du backend et d’autres informations hautement sensibles. L’équipe de Wiz Research a immédiatement signalé le problème de manière responsable à DeepSeek, qui a rapidement sécurisé l’exposition.
-
Points clés
- DeepSeek est une startup chinoise de l’IA qui attire particulièrement l’attention grâce à son modèle de raisonnement DeepSeek-R1. Ce modèle rivalise en performances avec des systèmes d’IA de premier plan comme o1 d’OpenAI, tout en se distinguant par son rapport coût-efficacité et son efficacité.
- L’équipe de Wiz Research a lancé son enquête afin d’évaluer la posture de sécurité externe de DeepSeek et d’identifier d’éventuelles vulnérabilités. En quelques minutes, elle a découvert une base de données ClickHouse publiquement accessible liée à DeepSeek, totalement ouverte et sans authentification, exposant ainsi des données sensibles.
- Cette base contenait des historiques de conversation, des données de backend et des informations sensibles, notamment des flux de logs, des secrets d’API et des détails opérationnels. Plus grave encore, cette exposition permettait un contrôle complet de la base de données dans l’environnement DeepSeek, ainsi qu’une potentielle élévation de privilèges, sans authentification ni mécanisme de défense.
-
Processus de découverte de l’exposition
- L’enquête a commencé par l’évaluation des domaines de DeepSeek accessibles publiquement. En cartographiant la surface d’attaque externe, l’équipe a identifié environ 30 sous-domaines exposés sur Internet. La plupart hébergeaient des éléments comme une interface de chatbot, des pages de statut et de la documentation API, sans indiquer à première vue d’exposition à haut risque.
- Cependant, en élargissant la recherche au-delà des ports HTTP standard (80/443), l’équipe a détecté deux ports inhabituels et ouverts (8123 et 9000). Ces ports menaient à une base de données ClickHouse exposée publiquement, accessible sans authentification.
- ClickHouse est un système de gestion de base de données en colonnes open source conçu pour exécuter rapidement des requêtes analytiques sur de grands ensembles de données. Développé par Yandex, il est largement utilisé pour le traitement de données en temps réel, le stockage de logs et l’analyse de big data.
- En exploitant l’interface HTTP de ClickHouse, l’équipe a pu accéder au chemin
/play, ce qui permettait d’exécuter directement des requêtes SQL arbitraires depuis un navigateur. Une simple requêteSHOW TABLES;a renvoyé la liste complète des jeux de données accessibles. - La table
log_streamétait particulièrement notable et contenait plus d’un million d’entrées de logs. On y trouvait des logs en clair contenant notamment des historiques de conversation, des clés API, des détails du backend et des métadonnées opérationnelles.
-
Principaux enseignements
- L’adoption rapide des services d’IA est intrinsèquement risquée si elle n’est pas accompagnée d’un niveau de sécurité adéquat. Cette exposition souligne que les risques de sécurité immédiats des applications d’IA proviennent de l’infrastructure et des outils qui les soutiennent.
- Bien qu’une grande partie de l’attention portée à la sécurité de l’IA se concentre sur des menaces futures, les risques réels proviennent souvent de vulnérabilités fondamentales. Les risques de base, comme l’exposition externe d’une base de données, doivent constituer la priorité absolue des équipes de sécurité.
- Les organisations qui adoptent des outils et services d’IA doivent se rappeler qu’elles confient des données sensibles à ces entreprises. Le rythme rapide d’adoption peut conduire à négliger la sécurité, mais la protection des données clients doit rester la priorité numéro un.
- Les équipes de sécurité doivent collaborer étroitement avec les ingénieurs IA afin d’obtenir de la visibilité sur l’architecture, les outils et les modèles utilisés, pour protéger les données et prévenir les expositions.
-
Conclusion
- L’IA est une technologie adoptée plus vite que jamais. De nombreuses entreprises de l’IA ont rapidement grandi pour devenir des fournisseurs d’infrastructure critiques, sans cadre de sécurité adéquat. À mesure que l’IA s’intègre profondément dans les entreprises du monde entier, il faut reconnaître les risques liés au traitement de données sensibles et appliquer les pratiques de sécurité exigées des fournisseurs de cloud public et des grands fournisseurs d’infrastructure.
1 commentaires
Avis sur Hacker News
Prise de conscience d’une méconnaissance de l’ingénierie logicielle non anglophone. Questionnement sur la raison pour laquelle le schéma de base de données et les logs sont en anglais
L’hostilité des commentaires surprend, étant donné que DeepSeek a causé des pertes financières à de nombreux investisseurs particuliers américains
Il semble irresponsable de divulguer directement l’URL et le port
De nombreux efforts ont été faits pour accabler DeepSeek
La chronologie de DeepSeek en matière de piratage éthique et de divulgation responsable est peu discutée
Mieux vaut exécuter le modèle en local ou utiliser des modèles de chat distants sans état comme AWS Bedrock
Point intéressant concernant l’infrastructure de développement et la base de données d’observabilité
Le ClickHouse exposé rappelle les anciens cas d’Elasticsearch exposé
On se demande si DeepSeek dispose d’un programme de bug bounty
Cela correspond à l’idée que DeepSeek serait un projet annexe de quants