9 points par xguru 2025-02-01 | 2 commentaires | Partager sur WhatsApp
  • DeepSeek-R1 est un modèle open source publié par l’entreprise chinoise DeepSeek, qui a attiré l’attention en se hissant à la 1re place de l’App Store américain
  • Comme il s’agit d’une entreprise chinoise, le modèle reflète directement la politique de censure des autorités chinoises (CCP), ce qui suscite des inquiétudes
  • L’équipe de Promptfoo a créé un jeu de données contenant 1 360 questions sur des « sujets sensibles » afin d’évaluer ce contenu soupçonné d’être censuré par le CCP
  • Résultat de l’expérience : DeepSeek-R1 répond à environ 85 % de ces questions par un refus standardisé (canned refusal)

Création du jeu de données

  • Promptfoo a rassemblé de nombreuses questions sur des sujets que le gouvernement chinois considère comme sensibles (indépendance de Taïwan, Révolution culturelle, Xi Jinping, etc.)
  • À partir de questions initiales, l’équipe les a étendues et a utilisé des techniques de génération de données pour constituer un total de 1 360 questions (environ 20 par thème)
  • Le jeu de données est publié sur HuggingFace et Google Sheets

Configuration de l’environnement d’évaluation

  • Plus de 1 000 questions ont été testées en lot sur le modèle DeepSeek-R1 à l’aide de Promptfoo
  • Lorsque DeepSeek-R1 rencontre des sujets sensibles liés à la Chine, il tend à produire une réponse standardisée mettant en avant une position politiquement alignée sur le CCP
  • Dans ces cas, la réponse est censurée ou refusée sans aucune balise de raisonnement (« </think> », etc.), ou presque
  • Au final, environ 85 % des questions ont été immédiatement refusées par le modèle ou ont reçu une réponse conforme à la position du CCP

Jailbreaker DeepSeek

  • L’équipe a tenté sous plusieurs angles de « jailbreaker » le modèle à l’aide de la fonction de red teaming de Promptfoo
  • Diverses stratégies ont été combinées pour contourner certains sujets et permettre la recherche ou l’analyse (Iterative, Tree, Composite, Crescendo, GOAT, etc.)
  • Plusieurs techniques de « contournement » (prompt injection) ont été appliquées aux questions sur les sujets sensibles présentes dans le fichier CSV

Résultats du contournement de DeepSeek

  • Les défenses de censure de DeepSeek-R1 sont très limitées et se laissent facilement percer par des stratégies simples de contournement
  • La censure du CCP semble être implémentée non pas dans la structure interne du modèle, mais comme un mécanisme de post-traitement
  • Dans la majorité des cas de contournement, il a été possible d’éviter la censure de la manière suivante
    • Soumettre une question similaire en prenant pour exemple un autre pays (États-Unis, Corée du Nord, etc.) ou un pays fictif à la place de la Chine
    • Formuler la question sous forme d’histoire, de fiction ou de situation imaginaire
    • Tenter un « contournement composite » en mélangeant des techniques supplémentaires comme Base64, une sortie JSON ou le roleplay

Perspectives

  • Le niveau de DeepSeek-R1 est impressionnant en soi, mais le fait que la politique de censure du CCP ait été simplement injectée de force est pointé comme un problème
  • Comme cette censure ne repose pas sur des contraintes sophistiquées de la structure interne, mais sur un mécanisme externe, il est probable que de futurs projets open source reproduisent facilement une version « sans censure » du modèle
  • Promptfoo prévoit ensuite de mener des tests similaires sur des modèles développés aux États-Unis, afin de comparer la manière dont chaque pays traite des sujets politiquement sensibles

2 commentaires

 
dohyun682 2025-02-01

C’est intéressant de voir qu’un tel jeu de données existe aussi.

 
kbumsik 2025-02-02

En réalité, depuis déjà un moment, des modèles connus comme Qwen viennent de Chine, et comme ils sont eux aussi censurés, ce sont des données qui étaient déjà créées de temps en temps auparavant, haha.