7 points par GN⁺ 2024-10-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • SynthID de Google DeepMind est une technologie qui applique et identifie un watermark sur des contenus générés par l’IA en insérant directement un watermark numérique dans des images, de l’audio, du texte ou des vidéos générés par l’IA
    • Une description technique plus complète de cette méthode est disponible dans l’article publié dans Nature
  • SynthID Text est proposé en open source afin que les développeurs puissent utiliser le watermarking pour la génération de texte

Application du watermark

  • SynthID Text est un processeur de logits appliqué dans le pipeline de génération du modèle après Top-K et Top-P
  • Il renforce les logits du modèle à l’aide d’une pseudo-fonction g aléatoire afin d’encoder des informations de watermarking d’une manière qui aide à déterminer si un texte a été généré par le modèle, sans affecter significativement la qualité du texte
  • Le watermark est configuré afin de paramétrer la fonction g et de définir la manière dont elle est appliquée pendant la génération
  • Chaque configuration de watermarking utilisée doit être stockée de façon sécurisée et privée
  • Deux paramètres essentiels sont requis pour la configuration du watermarking
    • Paramètre keys : liste unique d’entiers aléatoires utilisée pour calculer les scores de la fonction g sur l’ensemble du vocabulaire du modèle. La longueur de cette liste détermine le nombre de couches de watermarking appliquées
    • Paramètre ngram_len : utilisé pour équilibrer robustesse et capacité de détection. Plus la valeur est élevée, plus le watermark est facile à détecter, mais plus il devient vulnérable aux modifications. La valeur par défaut de 5 est jugée appropriée
  • Le watermark peut aussi être configuré davantage selon les exigences de performance
    • La table d’échantillonnage se compose de deux propriétés : sampling_table_size et sampling_table_seed
    • Pour garantir une fonction g non biaisée et stable lors de l’échantillonnage, sampling_table_size doit être d’au moins 2^16
    • Toutefois, la taille de la table d’échantillonnage influe sur la quantité de mémoire requise à l’inférence
    • sampling_table_seed peut être n’importe quel entier de votre choix
    • Les n-grammes répétés dans context_history_size des tokens précédents ne sont pas watermarqués afin d’améliorer la détectabilité
  • Aucun entraînement supplémentaire du modèle n’est nécessaire pour générer du texte avec le watermark SynthID Text
  • Il suffit de fournir à la méthode .generate() du modèle la configuration de watermarking, ce qui active le processeur de logits SynthID Text
  • Le billet de blog et le Space de Hugging Face présentent des exemples de code montrant comment appliquer le watermark dans la bibliothèque Transformers

Détection du watermark et vérifiabilité

  • La détection du watermark est probabiliste
  • Un détecteur bayésien est disponible dans Hugging Face Transformers et sur GitHub
  • Ce détecteur peut produire trois états possibles : watermarqué, non watermarqué ou incertain
  • Il est possible de personnaliser son comportement en définissant deux seuils afin d’atteindre un certain taux de faux positifs et de faux négatifs
  • Les modèles utilisant le même tokenizer peuvent partager la même configuration de watermarking et le même détecteur, à condition que l’ensemble d’entraînement du détecteur contienne des exemples de tous les modèles partageant ce watermark
  • Une fois le détecteur entraîné, il est possible de choisir si et comment l’exposer aux utilisateurs et au public
    • Option entièrement privée : ne pas publier ni exposer le détecteur de quelque manière que ce soit
    • Option semi-privée : ne pas publier le détecteur, mais l’exposer via une API
    • Option publique : publier le détecteur afin que d’autres puissent le télécharger et l’utiliser

Limites

  • Le watermark SynthID Text est robuste face à certaines transformations, mais présente des limites
    • Le watermarking est moins efficace pour les réponses factuelles, car il y a moins d’occasions de renforcer la génération sans dégrader l’exactitude
    • Une réécriture poussée d’un texte généré par l’IA ou sa traduction dans une autre langue peut fortement réduire le score de confiance du détecteur
  • SynthID Text n’a pas été conçu pour empêcher directement un attaquant intentionnel de nuire
  • En revanche, il peut compliquer l’usage malveillant de contenus générés par l’IA et, combiné à d’autres approches, offrir une meilleure couverture selon les types de contenus et les plateformes

L’avis de GN⁺

  • SynthID Text offre une fonctionnalité utile permettant d’identifier la provenance des contenus générés par l’IA grâce au watermark
  • Cependant, le watermark en lui-même ne garantit pas l’authenticité du contenu, puisqu’il peut aussi être appliqué à des contenus trompeurs ou nuisibles
  • Il sera donc également nécessaire de vérifier la fiabilité du contenu lui-même, en plus du watermark
  • Le fait qu’il soit intégré à de grandes bibliothèques comme Hugging Face constitue un atout majeur, car les développeurs peuvent ainsi l’utiliser facilement
  • En revanche, la décision de rendre le détecteur public doit être prise avec prudence, car une publication complète pourrait multiplier les tentatives de contournement du watermark
  • Dans l’ensemble, à mesure que les contenus générés par l’IA se diffusent rapidement, l’importance de SynthID Text comme technologie d’identification de provenance devrait croître

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.