2 points par GN⁺ 2 시간 전 | 1 commentaires | Partager sur WhatsApp
  • OpenAI renforce un modèle de provenance multicouche combinant conformité C2PA, filigrane SynthID et outil public de vérification afin d’identifier les contenus générés par IA
  • C2PA transporte avec le contenu le contexte de création et de modification via des métadonnées et des signatures cryptographiques, mais celles-ci peuvent être altérées lors des transformations
  • Le SynthID de Google DeepMind ajoute un filigrane invisible aux images générées par ChatGPT, Codex et l’API OpenAI afin de compenser les limites des métadonnées
  • L’aperçu de l’outil public de vérification examine les Content Credentials et SynthID d’une image téléversée pour aider à déterminer si elle a été générée par OpenAI
  • Une technologie unique ne suffit pas : il faut combiner standards communs, filigranage durable et vérification publique pour renforcer l’écosystème de la provenance

Renforcement de l’approche de provenance des contenus

  • OpenAI renforce son modèle de provenance multicouche pour développer la confiance en ligne et cherche à améliorer l’identifiabilité des contenus générés par IA en s’appuyant sur des standards ouverts et la coopération entre plateformes
  • Les principaux changements sont au nombre de trois
    • la conformité C2PA, pour permettre à d’autres outils et plateformes de reconnaître plus facilement les signaux de provenance
    • l’ajout du filigranage SynthID aux images, en collaboration avec Google
    • un aperçu d’un outil public de vérification permettant au grand public de confirmer si une image a été générée par OpenAI
  • Les signaux de provenance apportent le contexte nécessaire pour déterminer d’où vient un contenu, comment il a été créé ou modifié, et s’il correspond bien à ce qu’il prétend être

Un écosystème de confiance grâce à la conformité C2PA

  • OpenAI participe depuis 2024 au développement et à l’adoption des standards de provenance, et a commencé à ajouter des Content Credentials aux images générées par DALL·E 3
  • Des Content Credentials ont ensuite aussi été appliqués à ImageGen et à Sora
  • OpenAI a rejoint le comité de pilotage de la Coalition for Content Provenance and Authenticity (C2PA), un groupement intersectoriel qui promeut des standards technologiques ouverts pour la provenance des contenus
  • La C2PA s’appuie sur des métadonnées et des signatures cryptographiques pour faire circuler de manière sécurisée des informations sur le média avec le contenu lui-même
  • Ces informations fournissent du contexte aux journalistes qui évaluent la provenance, aux plateformes qui prennent des décisions liées à l’intégrité, et aux personnes qui cherchent à comprendre les contenus en ligne
  • OpenAI est récemment devenu un produit génératif conforme C2PA
  • La conformité C2PA constitue la base qui permet aux plateformes de lire, conserver et transmettre de manière fiable les informations de provenance attachées aux contenus
  • Les informations de provenance prennent encore plus de valeur lorsqu’elles sont conservées au-delà de la plateforme où le contenu a été créé à l’origine, et la conformité permet cela

Une provenance d’image multicouche avec SynthID

  • Les métadonnées C2PA constituent la base permettant de transporter des informations sur l’origine d’un contenu, sa création ou ses modifications, ainsi que l’identité de celui qui a signé ces informations
  • Les métadonnées peuvent être supprimées, disparaître lors des téléversements et téléchargements, ou être endommagées par des transformations telles qu’un changement de format, un redimensionnement ou une capture d’écran
  • Pour rendre les informations de provenance plus robustes, OpenAI adopte un filigrane invisible via le SynthID de Google DeepMind
  • Le déploiement commence par les images générées via ChatGPT, Codex et l’API OpenAI
  • SynthID agit comme une couche de filigrane supplémentaire qui complète l’approche fondée sur les métadonnées C2PA
  • OpenAI avait déjà testé des approches de provenance et de filigranage dans des environnements de production réels
    • Sora utilise un filigrane visible
    • Voice Engine utilise un filigrane audio
    • l’entreprise poursuit ses tests et ses recherches pour vérifier si précision et fiabilité se maintiennent dans le temps
  • C2PA et SynthID compensent leurs faiblesses respectives
    • C2PA aide à intégrer un contexte détaillé au contenu, mais les métadonnées peuvent être supprimées ou altérées
    • SynthID aide à préserver le signal même lorsque les métadonnées ne sont pas conservées, et peut mieux résister à des transformations telles que les captures d’écran
    • les métadonnées apportent davantage d’informations que ce qu’un filigrane seul peut fournir
  • Utilisées ensemble, ces deux approches rendent les informations de provenance d’un contenu plus résilientes que lorsqu’elles sont utilisées séparément

Aperçu de l’outil public de vérification

  • OpenAI propose en version preview un outil public de vérification destiné à aider à confirmer si une image a été générée par ChatGPT, l’API OpenAI ou Codex
  • L’outil vérifie si l’image téléversée contient des signaux de provenance tels que les Content Credentials et SynthID
  • L’objectif est d’aider les utilisateurs à vérifier et interpréter plus facilement les informations de provenance en combinant plusieurs signaux
  • L’outil public de vérification peut détecter de manière fiable les filigranes SynthID provenant d’OpenAI et, lorsque des métadonnées C2PA sont trouvées, les afficher également
  • Aucune méthode de détection n’étant parfaite, il ne tire pas de conclusion catégorique en cas d’échec de détection
    • l’absence de détection de métadonnées ou de filigrane ne permet pas d’affirmer qu’une image n’a pas été générée avec les outils d’OpenAI
    • les signaux de provenance peuvent parfois être supprimés
  • Au lancement, l’outil de vérification est limité aux contenus générés par OpenAI
  • L’objectif, dans les prochains mois, est de soutenir un effort intersectoriel permettant la vérification à l’échelle des plateformes
  • Avec le temps, OpenAI espère aussi prendre en charge davantage de types de contenus rencontrés en ligne

Défis à venir

  • Une technologie de provenance unique ne suffit pas
  • Une approche robuste de la provenance doit combiner standards communs, signaux de filigranage durables et vérification publique
  • Avec sa prise en charge existante des Content Credentials, sa conformité C2PA, l’adoption de SynthID et l’aperçu de son outil public de vérification, OpenAI cherche à contribuer à un écosystème de provenance plus interopérable

1 commentaires

 
GN⁺ 2 시간 전
Commentaires Hacker News
  • Si on génère des images IA sur fond noir, SynthID devient visible sur un bon écran. Ce n’est rien de spécial, juste un motif flou répétitif
    Je l’ai retiré assez efficacement en masquant un pixel sur deux, en régénérant les pixels manquants, puis en recommençant avec un décalage d’un pixel pour masquer à nouveau un pixel sur deux
    J’ai utilisé un modèle existant pour le remplissage des pixels, mais j’ai d’abord exporté la carte de profondeur avant modification puis réduit le bruit afin que les nouveaux pixels masqués correspondent au contenu d’origine. Le résultat n’était pas parfait à 100 %, mais avec plus de temps et un modèle affiné pour cet usage, on pourrait sans doute retirer n’importe quel filigrane IA sans grande difficulté

    • J’ai du mal à croire qu’on puisse supprimer un filigrane de type 0,5 bit qui n’encode que sa présence ou son absence. Ce qui est visible est probablement un leurre fonctionnel
    • Il ne suffit pas d’agrandir ou de compresser très légèrement l’image ?
    • C’est intéressant de voir qu’avec plus de temps et un modèle affiné pour un usage précis, n’importe quel filigrane IA pourrait être retiré sans trop de difficulté. Utiliser l’IA contre l’IA, c’est toujours amusant
    • C’est clairement contournable. Quelques-uns de nos ingénieurs ont travaillé là-dessus il y a longtemps
      https://deepwalker.xyz/blog/bypassing-synthid-in-gemini-phot...
  • Quelles informations sont contenues dans les métadonnées ou dans SynthID ? Combien de bits SynthID peut-il encoder ?
    Est-ce qu’on pourrait créer une sorte d’étiquette nutritionnelle pour les contenus synthétiques ? Par exemple 10 % de texte synthétique, 30 % d’image synthétique
    Aujourd’hui, votre réalité était synthétique à 15 % (75 % grande entreprise, 25 % neocloud à poids ouverts)

    • L’article SynthID-Image d’octobre 2025[0] semblait être un encodeur-décodeur testant soit une vérification de drapeau soit une charge utile de 136 bits sur des images 512x512, puis évaluant la robustesse du filigrane après diverses transformations
      La version réellement déployée est probablement assez différente
      [0]:https://arxiv.org/html/2510.09263v1
    • On pourrait aussi y intégrer un ID utilisateur ou une empreinte propre à chaque personne. Les imprimantes faisaient déjà ce genre de chose il y a longtemps, et cela deviendra sûrement facile à appliquer à toutes les photos et images générées
    • Ça ne semble pas possible. Si on colle un fragment synthétique dans une image d’origine, SynthID ne pourra pas le savoir
  • C’est intéressant, car SynthID semble complètement compromis, alors que le nouveau filigrane d’OpenAI ne l’est apparemment pas encore [1]
    [1] https://github.com/wiltodelta/remove-ai-watermarks

  • C’est juste une gesticulation de façade
    Du point de vue de quelqu’un qui crée des choses avec des outils dans plusieurs médias, j’éviterais simplement ce type d’outil qui ajoute des métadonnées arbitraires que je n’ai pas choisies
    Pourquoi devrais-je ajouter ce genre de résidu DRM bizarre en créant des textures pour jeux vidéo ? Et Photoshop, qui existe depuis si longtemps, serait exempté pour quelle raison ?

    • Ce n’est pas parce que ce n’est pas parfait que c’est inutile. J’ai déjà vu en ligne quelqu’un faire passer une image dans le vérificateur SynthID de Google et prouver qu’elle était falsifiée
      Photoshop n’est pas fabriqué par Google ni OpenAI, et la barrière d’entrée pour produire des images trompeuses photoréalistes avec Photoshop est bien plus élevée qu’avec l’IA. Il existe déjà aussi des techniques, certes imparfaites, pour détecter l’usage de l’édition d’image traditionnelle
    • Je suis sûr qu’on peut trouver plusieurs éléments qui distinguent Photoshop de l’IA générative
    • Techniquement, le DRM signifie gestion des droits numériques, donc cela touche à la propriété intellectuelle
      SynthID ne serait du DRM que si Google ou OpenAI revendiquaient des droits de propriété intellectuelle sur leurs images, et je ne sais pas si ce serait légal
    • À noter : https://en.wikipedia.org/wiki/Printer_tracking_dots
    • Quel est aujourd’hui le débit théorique maximal de production de désinformation par minute, comparé à Photoshop en 2021 ?
  • Bien. Tout le monde dit que ce sera supprimé, mais je n’ai encore vu aucun dépôt qui le démontre de manière reproductible

    • Sur Stable Diffusion, 10 à 15 % de force de débruitage suffisent
      Je l’ai testé le jour même de la sortie de Nano Banana Pro, et ça marchait. Ça fonctionne encore sur Nano Banana 2
      Je ne l’ai publié nulle part, par arrogance, en pensant que le dire publiquement rendrait Internet encore pire. Mais si j’y ai pensé le premier jour, alors des millions d’autres programmeurs y ont forcément pensé aussi ; c’était donc de la pure arrogance
      Cela dit, cela introduit des artefacts typiques des modèles SD, qui peuvent être détectés autrement. Ou alors on peut encore les voir en agrandissant beaucoup et en regardant attentivement
    • Il semble bien plus simple d’utiliser directement un autre modèle dès le départ
    • Ce sera supprimé, mais beaucoup de gens ne le feront pas. J’ai effectivement déjà vu de la désinformation détectable via SynthID
  • Le fait que cet article soit collé juste à côté de celui-ci est savoureux : https://news.ycombinator.com/item?id=48200569

  • C’est comme les métadonnées des mp3 ?
    Si on fait une capture d’écran d’une image IA, est-ce qu’elle sera toujours reconnue comme image IA ? Je me demande si c’est caché dans l’image elle-même ou si c’est juste des métadonnées

    • C’est intégré dans l’image elle-même, et conçu pour survivre à ce genre d’opérations
  • D’abord, ils vérifieront si une photo vient d’OpenAI, puis ils y ajouteront des données d’abonné et des informations de localisation
    Ils finiront par comprendre que personne ne veut voir des photos ou des textes générés par IA. À ce moment-là, cet outil échouera auprès du grand public et ne servira plus qu’aux gouvernements

    • Le seul usage de la génération IA photoréaliste semble être la tromperie. On voit déjà des vidéos générées par IA dans la publicité politique américaine
  • Ce genre de filigrane n’est-il pas facile à supprimer ou à déformer ? On dirait que cela n’aide que tant que les gens s’y fient rarement et que cela ne vaut pas la peine de le contourner
    Si les plateformes de réseaux sociaux commencent à interdire les images contenant ce genre de filigrane, elles seront toutes nettoyées du jour au lendemain

    • Non. C’est très robuste face aux transformations faciles à appliquer. Cela ne veut pas dire que c’est impossible à supprimer
    • Je n’ai encore vu aucun dépôt GitHub qui retire un vrai filigrane SynthID sur de vraies sorties Nano Banana 2/NBPro. La plupart ne sont encore que des projets de recherche sans résultats convaincants
      Jusqu’ici, les seules méthodes que j’ai vues reposent soit sur des astuces étranges utilisant la transparence ou une superposition avec l’image d’origine dans des fonctions d’édition, soit sur la régénération d’images NB via un modèle de diffusion à faible niveau de bruit, ce qui modifie aussi l’original
    • Il faut définir ce qu’on entend par « facilement ». Il existe une approche basée sur l’analyse spectrale de l’image, et en apparence elle fonctionne
      https://github.com/aloshdenny/reverse-SynthID
    • Cela a été publié il y a quelques années et cela ne semble toujours pas avoir été cassé. Un jour, ça le sera sans doute, mais si pour créer un deepfake puis le publier sur Facebook il faut attendre un ou deux ans, cela peut déjà suffire. Un simple retard d’un mois pourrait même être suffisant
    • Une méthode consistant à faire recréer l’image depuis zéro par une IA à partir d’une description très détaillée semble pouvoir fonctionner
  • Cela semble inférieur au vrai standard public C2PA : https://contentauthenticity.org/