Comment contourner la censure de DeepSeek avec l’hexadécimal

(substack.com)

3 points par GN⁺ 2025-02-01 | 1 commentaires | Partager sur WhatsApp

Le modèle LLM DeepSeek-R1, récemment lancé en Chine, attire l’attention. Comparé aux modèles d’OpenAI, Meta et d’autres, il montre qu’il est possible de développer une IA de façon rentable grâce à un entraînement réalisé avec peu de ressources
Le modèle DeepSeek-R1 a été publié sous licence MIT, mais l’application de chat IA de DeepSeek nécessite un compte
Cependant, DeepSeek-R1 a été développé en Chine et limite ses réponses sur les sujets sensibles
Par exemple, si on lui pose une question sur un sujet sensible en Chine, comme l’incident de Tian’anmen, il renvoie une réponse évasive du type : « Désolé, je ne peux pas fournir de réponse sur ce sujet. »

Contourner la censure avec la technique des charcodes (codes de caractères)

Après plusieurs expériences, il a été constaté qu’il est possible de contourner le filtrage en utilisant des codes de caractères (charcodes).
Qu’est-ce qu’un charcode ?
- Un code de caractère (charcode) est le code numérique attribué à un caractère donné
- Par exemple, en ASCII, la lettre majuscule 'A' a pour valeur 65, qui peut être convertie dans une autre représentation, par exemple en hexadécimal
- Exemple : "Hello" → "48 65 6C 6C 6F" (code ASCII hexadécimal)
Méthode de contournement :
- DeepSeek censure le texte normal, mais ne censure pas les chaînes converties en codes de caractères (charcodes)
- Ainsi, si l’on convertit le prompt en codes de caractères hexadécimaux (HEX) avant de l’envoyer, l’IA peut le reconnaître comme du texte normal et le produire
- En convertissant et en interprétant la réponse de la même manière, il devient possible de maintenir une conversation normale

Exemple de méthode d’attaque

Il est possible de contourner la censure en forçant DeepSeek à ne dialoguer qu’au format Charcodes
Le message converti peut ensuite être reconverti dans son texte d’origine pour conserver une conversation normale
Des outils comme CyberChef permettent d’effectuer facilement ces conversions de codes de caractères

Enseignements et implications en matière de sécurité

Comme pour un pare-feu applicatif web (WAF), les systèmes de filtrage de l’IA fonctionnent eux aussi sur le principe du pattern matching
Une censure qui se contente de bloquer certains mots peut être contournée facilement, d’où la nécessité de systèmes de filtrage plus sophistiqués
Le système de filtrage doit aller au-delà du simple blocage de mots interdits et être renforcé par du filtrage contextuel et des restrictions sur les transformations d’entrée

Axes de recherche futurs

Il faudra suivre de près la manière dont les développeurs d’IA réagiront à ce type de méthode de contournement
Pistes pour renforcer le filtrage de l’IA :
- introduire un filtrage contextuel plus sophistiqué
- intégrer directement au modèle des mécanismes de blocage des sujets sensibles
- renforcer la détection des contournements par conversion de codes de caractères et encodage
Des recherches continues sont nécessaires pour préserver la sécurité et la fiabilité des modèles d’IA.

1 commentaires

GN⁺ 2025-02-01

Avis Hacker News

Mentionne qu’il est possible de contourner la censure évidente de l’interface web, mais pas le niveau de censure plus subtil intégré au modèle
- Décrit le comportement du modèle, qui abandonne le "Chain of Thought" sur certains sujets et génère des réponses stéréotypées
- Indique que cela est lié à un article sur les questions censurées de DeepSeek
Présente une méthode pour contourner le filtre de contenu en interceptant la réponse xhr
- Explique qu’il est possible de contourner le filtrage en collant du code dans la console du navigateur
Partage son expérience de rédaction d’un article et avance l’hypothèse que le filtrage est distinct du modèle
- Mentionne le problème de coût lié à l’entraînement sur des données préfiltrées
- Fait le lien avec un autre article expliquant le phénomène d’abandon du "Chain of Thought" sur certains sujets
Explique pourquoi le modèle DeepSeek-R1 évite certains sujets sensibles
- Mentionne qu’il existe une censure intégrée car le modèle a été développé en Chine
- Observe que la version hors ligne ne donne pas de réponses d’évitement
S’interroge sur le fait que les modèles occidentaux ne parlent de certains sujets qu’en b64
- Se demande si, en Chine, on se moque des façons dont l’Occident contourne ses propres systèmes de censure
S’interroge sur le fait qu’il soit peu probable d’entraîner la censure dans le modèle LLM lui-même
- Mentionne qu’il pourrait être préférable d’appliquer la censure à l’étape de l’entraînement
Mentionne que la censure semble ne s’appliquer qu’à certaines langues
- Explique qu’il est possible d’obtenir des réponses non officielles en ukrainien
Partage son expérience de contournement de la censure interne avec un petit modèle (7b)
- Explique qu’il a obtenu un résumé des violations des droits humains du CPC grâce à une réflexion supplémentaire
Mentionne une vieille astuce de prompt et s’interroge sur les raisons de sa présence en première page de HN
Mentionne que cela fonctionne de manière similaire avec ChatGPT, et explique qu’il a pu générer des blagues malveillantes

Comment contourner la censure de DeepSeek avec l’hexadécimal

Contourner la censure avec la technique des charcodes (codes de caractères)

Exemple de méthode d’attaque

Enseignements et implications en matière de sécurité

Axes de recherche futurs

À lire aussi

1 commentaires

Avis Hacker News