Google DeepMind publie en open source SynthID, qui permet de watermarker et de détecter les textes générés par les LLM

(github.com/google-deepmind)

7 points par GN⁺ 2024-10-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp

SynthID de Google DeepMind est une technologie qui applique et identifie un watermark sur des contenus générés par l’IA en insérant directement un watermark numérique dans des images, de l’audio, du texte ou des vidéos générés par l’IA
- Une description technique plus complète de cette méthode est disponible dans l’article publié dans Nature
SynthID Text est proposé en open source afin que les développeurs puissent utiliser le watermarking pour la génération de texte

Application du watermark

SynthID Text est un processeur de logits appliqué dans le pipeline de génération du modèle après Top-K et Top-P
Il renforce les logits du modèle à l’aide d’une pseudo-fonction g aléatoire afin d’encoder des informations de watermarking d’une manière qui aide à déterminer si un texte a été généré par le modèle, sans affecter significativement la qualité du texte
Le watermark est configuré afin de paramétrer la fonction g et de définir la manière dont elle est appliquée pendant la génération
Chaque configuration de watermarking utilisée doit être stockée de façon sécurisée et privée
Deux paramètres essentiels sont requis pour la configuration du watermarking
- Paramètre keys : liste unique d’entiers aléatoires utilisée pour calculer les scores de la fonction g sur l’ensemble du vocabulaire du modèle. La longueur de cette liste détermine le nombre de couches de watermarking appliquées
- Paramètre ngram_len : utilisé pour équilibrer robustesse et capacité de détection. Plus la valeur est élevée, plus le watermark est facile à détecter, mais plus il devient vulnérable aux modifications. La valeur par défaut de 5 est jugée appropriée
Le watermark peut aussi être configuré davantage selon les exigences de performance
- La table d’échantillonnage se compose de deux propriétés : sampling_table_size et sampling_table_seed
- Pour garantir une fonction g non biaisée et stable lors de l’échantillonnage, sampling_table_size doit être d’au moins 2^16
- Toutefois, la taille de la table d’échantillonnage influe sur la quantité de mémoire requise à l’inférence
- sampling_table_seed peut être n’importe quel entier de votre choix
- Les n-grammes répétés dans context_history_size des tokens précédents ne sont pas watermarqués afin d’améliorer la détectabilité
Aucun entraînement supplémentaire du modèle n’est nécessaire pour générer du texte avec le watermark SynthID Text
Il suffit de fournir à la méthode .generate() du modèle la configuration de watermarking, ce qui active le processeur de logits SynthID Text
Le billet de blog et le Space de Hugging Face présentent des exemples de code montrant comment appliquer le watermark dans la bibliothèque Transformers

Détection du watermark et vérifiabilité

La détection du watermark est probabiliste
Un détecteur bayésien est disponible dans Hugging Face Transformers et sur GitHub
Ce détecteur peut produire trois états possibles : watermarqué, non watermarqué ou incertain
Il est possible de personnaliser son comportement en définissant deux seuils afin d’atteindre un certain taux de faux positifs et de faux négatifs
Les modèles utilisant le même tokenizer peuvent partager la même configuration de watermarking et le même détecteur, à condition que l’ensemble d’entraînement du détecteur contienne des exemples de tous les modèles partageant ce watermark
Une fois le détecteur entraîné, il est possible de choisir si et comment l’exposer aux utilisateurs et au public
- Option entièrement privée : ne pas publier ni exposer le détecteur de quelque manière que ce soit
- Option semi-privée : ne pas publier le détecteur, mais l’exposer via une API
- Option publique : publier le détecteur afin que d’autres puissent le télécharger et l’utiliser

Limites

Le watermark SynthID Text est robuste face à certaines transformations, mais présente des limites
- Le watermarking est moins efficace pour les réponses factuelles, car il y a moins d’occasions de renforcer la génération sans dégrader l’exactitude
- Une réécriture poussée d’un texte généré par l’IA ou sa traduction dans une autre langue peut fortement réduire le score de confiance du détecteur
SynthID Text n’a pas été conçu pour empêcher directement un attaquant intentionnel de nuire
En revanche, il peut compliquer l’usage malveillant de contenus générés par l’IA et, combiné à d’autres approches, offrir une meilleure couverture selon les types de contenus et les plateformes

L’avis de GN⁺

SynthID Text offre une fonctionnalité utile permettant d’identifier la provenance des contenus générés par l’IA grâce au watermark
Cependant, le watermark en lui-même ne garantit pas l’authenticité du contenu, puisqu’il peut aussi être appliqué à des contenus trompeurs ou nuisibles
Il sera donc également nécessaire de vérifier la fiabilité du contenu lui-même, en plus du watermark
Le fait qu’il soit intégré à de grandes bibliothèques comme Hugging Face constitue un atout majeur, car les développeurs peuvent ainsi l’utiliser facilement
En revanche, la décision de rendre le détecteur public doit être prise avec prudence, car une publication complète pourrait multiplier les tentatives de contournement du watermark
Dans l’ensemble, à mesure que les contenus générés par l’IA se diffusent rapidement, l’importance de SynthID Text comme technologie d’identification de provenance devrait croître

Google DeepMind publie en open source SynthID, qui permet de watermarker et de détecter les textes générés par les LLM

Application du watermark

Détection du watermark et vérifiabilité

Limites

L’avis de GN⁺

À lire aussi

Aucun commentaire pour le moment.