- Le modèle LLM DeepSeek-R1, récemment lancé en Chine, attire l’attention. Comparé aux modèles d’OpenAI, Meta et d’autres, il montre qu’il est possible de développer une IA de façon rentable grâce à un entraînement réalisé avec peu de ressources
- Le modèle DeepSeek-R1 a été publié sous licence MIT, mais l’application de chat IA de DeepSeek nécessite un compte
- Cependant, DeepSeek-R1 a été développé en Chine et limite ses réponses sur les sujets sensibles
- Par exemple, si on lui pose une question sur un sujet sensible en Chine, comme l’incident de Tian’anmen, il renvoie une réponse évasive du type : « Désolé, je ne peux pas fournir de réponse sur ce sujet. »
Contourner la censure avec la technique des charcodes (codes de caractères)
- Après plusieurs expériences, il a été constaté qu’il est possible de contourner le filtrage en utilisant des codes de caractères (charcodes).
- Qu’est-ce qu’un charcode ?
- Un code de caractère (charcode) est le code numérique attribué à un caractère donné
- Par exemple, en ASCII, la lettre majuscule 'A' a pour valeur 65, qui peut être convertie dans une autre représentation, par exemple en hexadécimal
- Exemple : "Hello" → "48 65 6C 6C 6F" (code ASCII hexadécimal)
- Méthode de contournement :
- DeepSeek censure le texte normal, mais ne censure pas les chaînes converties en codes de caractères (charcodes)
- Ainsi, si l’on convertit le prompt en codes de caractères hexadécimaux (HEX) avant de l’envoyer, l’IA peut le reconnaître comme du texte normal et le produire
- En convertissant et en interprétant la réponse de la même manière, il devient possible de maintenir une conversation normale
Exemple de méthode d’attaque
- Il est possible de contourner la censure en forçant DeepSeek à ne dialoguer qu’au format Charcodes
- Le message converti peut ensuite être reconverti dans son texte d’origine pour conserver une conversation normale
- Des outils comme CyberChef permettent d’effectuer facilement ces conversions de codes de caractères
Enseignements et implications en matière de sécurité
- Comme pour un pare-feu applicatif web (WAF), les systèmes de filtrage de l’IA fonctionnent eux aussi sur le principe du pattern matching
- Une censure qui se contente de bloquer certains mots peut être contournée facilement, d’où la nécessité de systèmes de filtrage plus sophistiqués
- Le système de filtrage doit aller au-delà du simple blocage de mots interdits et être renforcé par du filtrage contextuel et des restrictions sur les transformations d’entrée
Axes de recherche futurs
- Il faudra suivre de près la manière dont les développeurs d’IA réagiront à ce type de méthode de contournement
- Pistes pour renforcer le filtrage de l’IA :
- introduire un filtrage contextuel plus sophistiqué
- intégrer directement au modèle des mécanismes de blocage des sujets sensibles
- renforcer la détection des contournements par conversion de codes de caractères et encodage
- Des recherches continues sont nécessaires pour préserver la sécurité et la fiabilité des modèles d’IA.
1 commentaires
Avis Hacker News
Mentionne qu’il est possible de contourner la censure évidente de l’interface web, mais pas le niveau de censure plus subtil intégré au modèle
Présente une méthode pour contourner le filtre de contenu en interceptant la réponse xhr
Partage son expérience de rédaction d’un article et avance l’hypothèse que le filtrage est distinct du modèle
Explique pourquoi le modèle DeepSeek-R1 évite certains sujets sensibles
S’interroge sur le fait que les modèles occidentaux ne parlent de certains sujets qu’en b64
S’interroge sur le fait qu’il soit peu probable d’entraîner la censure dans le modèle LLM lui-même
Mentionne que la censure semble ne s’appliquer qu’à certaines langues
Partage son expérience de contournement de la censure interne avec un petit modèle (7b)
Mentionne une vieille astuce de prompt et s’interroge sur les raisons de sa présence en première page de HN
Mentionne que cela fonctionne de manière similaire avec ChatGPT, et explique qu’il a pu générer des blagues malveillantes