3 points par GN⁺ 2025-02-01 | 1 commentaires | Partager sur WhatsApp
  • Le modèle LLM DeepSeek-R1, récemment lancé en Chine, attire l’attention. Comparé aux modèles d’OpenAI, Meta et d’autres, il montre qu’il est possible de développer une IA de façon rentable grâce à un entraînement réalisé avec peu de ressources
  • Le modèle DeepSeek-R1 a été publié sous licence MIT, mais l’application de chat IA de DeepSeek nécessite un compte
  • Cependant, DeepSeek-R1 a été développé en Chine et limite ses réponses sur les sujets sensibles
  • Par exemple, si on lui pose une question sur un sujet sensible en Chine, comme l’incident de Tian’anmen, il renvoie une réponse évasive du type : « Désolé, je ne peux pas fournir de réponse sur ce sujet. »

Contourner la censure avec la technique des charcodes (codes de caractères)

  • Après plusieurs expériences, il a été constaté qu’il est possible de contourner le filtrage en utilisant des codes de caractères (charcodes).
  • Qu’est-ce qu’un charcode ?
    • Un code de caractère (charcode) est le code numérique attribué à un caractère donné
    • Par exemple, en ASCII, la lettre majuscule 'A' a pour valeur 65, qui peut être convertie dans une autre représentation, par exemple en hexadécimal
    • Exemple : "Hello" → "48 65 6C 6C 6F" (code ASCII hexadécimal)
  • Méthode de contournement :
    • DeepSeek censure le texte normal, mais ne censure pas les chaînes converties en codes de caractères (charcodes)
    • Ainsi, si l’on convertit le prompt en codes de caractères hexadécimaux (HEX) avant de l’envoyer, l’IA peut le reconnaître comme du texte normal et le produire
    • En convertissant et en interprétant la réponse de la même manière, il devient possible de maintenir une conversation normale

Exemple de méthode d’attaque

  • Il est possible de contourner la censure en forçant DeepSeek à ne dialoguer qu’au format Charcodes
  • Le message converti peut ensuite être reconverti dans son texte d’origine pour conserver une conversation normale
  • Des outils comme CyberChef permettent d’effectuer facilement ces conversions de codes de caractères

Enseignements et implications en matière de sécurité

  • Comme pour un pare-feu applicatif web (WAF), les systèmes de filtrage de l’IA fonctionnent eux aussi sur le principe du pattern matching
  • Une censure qui se contente de bloquer certains mots peut être contournée facilement, d’où la nécessité de systèmes de filtrage plus sophistiqués
  • Le système de filtrage doit aller au-delà du simple blocage de mots interdits et être renforcé par du filtrage contextuel et des restrictions sur les transformations d’entrée

Axes de recherche futurs

  • Il faudra suivre de près la manière dont les développeurs d’IA réagiront à ce type de méthode de contournement
  • Pistes pour renforcer le filtrage de l’IA :
    • introduire un filtrage contextuel plus sophistiqué
    • intégrer directement au modèle des mécanismes de blocage des sujets sensibles
    • renforcer la détection des contournements par conversion de codes de caractères et encodage
  • Des recherches continues sont nécessaires pour préserver la sécurité et la fiabilité des modèles d’IA.

1 commentaires

 
GN⁺ 2025-02-01
Avis Hacker News
  • Mentionne qu’il est possible de contourner la censure évidente de l’interface web, mais pas le niveau de censure plus subtil intégré au modèle

    • Décrit le comportement du modèle, qui abandonne le "Chain of Thought" sur certains sujets et génère des réponses stéréotypées
    • Indique que cela est lié à un article sur les questions censurées de DeepSeek
  • Présente une méthode pour contourner le filtre de contenu en interceptant la réponse xhr

    • Explique qu’il est possible de contourner le filtrage en collant du code dans la console du navigateur
  • Partage son expérience de rédaction d’un article et avance l’hypothèse que le filtrage est distinct du modèle

    • Mentionne le problème de coût lié à l’entraînement sur des données préfiltrées
    • Fait le lien avec un autre article expliquant le phénomène d’abandon du "Chain of Thought" sur certains sujets
  • Explique pourquoi le modèle DeepSeek-R1 évite certains sujets sensibles

    • Mentionne qu’il existe une censure intégrée car le modèle a été développé en Chine
    • Observe que la version hors ligne ne donne pas de réponses d’évitement
  • S’interroge sur le fait que les modèles occidentaux ne parlent de certains sujets qu’en b64

    • Se demande si, en Chine, on se moque des façons dont l’Occident contourne ses propres systèmes de censure
  • S’interroge sur le fait qu’il soit peu probable d’entraîner la censure dans le modèle LLM lui-même

    • Mentionne qu’il pourrait être préférable d’appliquer la censure à l’étape de l’entraînement
  • Mentionne que la censure semble ne s’appliquer qu’à certaines langues

    • Explique qu’il est possible d’obtenir des réponses non officielles en ukrainien
  • Partage son expérience de contournement de la censure interne avec un petit modèle (7b)

    • Explique qu’il a obtenu un résumé des violations des droits humains du CPC grâce à une réflexion supplémentaire
  • Mentionne une vieille astuce de prompt et s’interroge sur les raisons de sa présence en première page de HN

  • Mentionne que cela fonctionne de manière similaire avec ChatGPT, et explique qu’il a pu générer des blagues malveillantes