- Des tests menés par Rumi sur les modèles GPT-o3 et o4-mini auraient montré l’insertion d’un filigrane composé de caractères spéciaux dans les réponses longues (par ex. la rédaction d’un essai).
- Ce filigrane est créé à l’aide de caractères d’espacement Unicode spéciaux comme "Narrow No-Break Space (U+202F)".
- Il est totalement invisible à l’œil nu, mais devient visible dans des éditeurs de code comme Sublime Text ou VS Code, ou avec un visualiseur de caractères spéciaux.
- Ce filigrane survit au copier-coller (par ex. il reste présent après un collage dans Google Docs).
- Cela dit, ce n’est pas une protection parfaite, car le filigrane peut être supprimé avec un simple find-and-replace.
- OpenAI n’a pas annoncé officiellement cette fonctionnalité de filigrane. (On suppose qu’elle est testée discrètement.)
- Il est aussi rapporté que le modèle GPT-4o ne présente pas ce type de filigrane.
En plus
- Le filigrane a tendance à être inséré uniquement dans les textes longs (en particulier les devoirs ou rapports),
- et apparaît très rarement dans les conversations courtes ou les questions-réponses ordinaires.
Résumé en une ligne
« Certains modèles récents ont commencé à utiliser un filigranage via des caractères spéciaux, mais ce n’est pas parfait car il est facile à détecter et à supprimer. »
6 commentaires
[Mise à jour] OpenAI a officiellement répondu à Lumi
OpenAI nous a contactés au sujet de cette publication pour nous indiquer que ces caractères spéciaux ne constituent pas un filigrane. Selon OpenAI, il s’agit simplement d’une « particularité du renforcement à grande échelle ». Nous laissons toutefois cette publication en ligne afin que les futurs lecteurs puissent encore constater le problème de ces caractères spéciaux (et potentiellement indésirables) dans les réponses de ChatGPT o3/o4.
Cette version de o3 avait effectivement le problème d’hallucinations extrêmement graves.
Je me suis dit que c’en était peut-être un exemple parmi d’autres, mais le fait qu’ils aient pris contact directement est intéressant.
Peut-être que c’est pour éviter d’utiliser des données générées par l’IA comme données d’entraînement (model collapse).
Ne serait-ce pas plutôt un bug qu’un watermark ? Même en supposant qu’il s’agisse d’un test, c’est absurdement simple par rapport aux technologies de watermarking pour LLM actuellement discutées..
Je pensais qu’on pourrait parler de la tendance particulière de cette affirmation, mais apparemment non. N’est-ce pas une solution un peu trop simple ?
Hum... ce serait à cause de ce watermark ? Ces derniers temps, il m’est arrivé assez souvent de constater que du texte coréen parfaitement lisible dans ChatGPT se retrouve corrompu quand on le copie-colle.