ArtifactNet : un framework forensique léger qui détecte la musique générée par IA grâce à la physiqu

Tous les générateurs commerciaux de musique par IA, comme Suno, Udio, MusicGen et Stable Audio, partagent une contrainte physique inévitable : l’audio généré doit nécessairement passer par la Residual Vector Quantization (RVQ).

La RVQ mappe des représentations audio continues vers des vecteurs discrets de codebook. Le gap de quantification produit dans ce processus est irréversible. Lorsqu’un modèle de séparation de sources entraîné uniquement sur de la musique humaine traite un audio généré par IA, ce gap apparaît sous la forme d’un résidu de reconstruction anormalement important et structuré. C’est le signal forensique.

Les détecteurs existants (CLAM, SpecTTTra) fonctionnent bien dans leur distribution d’entraînement, mais s’effondrent face à de nouveaux générateurs. ArtifactNet ne détecte pas à quoi ressemble la musique IA, mais pourquoi elle est physiquement différente.

Pipeline (4,0 M de paramètres au total) :

ArtifactUNet (3,6 M) — un UNet à masque borné qui prédit un masque multiplicatif limité à [0, 0.5] sur la magnitude STFT. Entraînement par distillation de connaissances en 2 étapes avec les résidus de Demucs v4 comme enseignant.
Caractéristiques forensiques HPSS à 7 canaux — décomposition du résidu en composantes harmoniques/percussives, puis combinaison avec la dérivée temporelle et le flux spectral.
CNN léger (0,4 M) — traitement de segments de 4 secondes, décision par médiane à l’échelle du morceau.

Preuve physique : mesure de la bande passante effective du résidu de séparation de source (n=94) :

Musique humaine : moyenne de 1 996 Hz
Moyenne IA (22 générateurs) : 291 Hz
Suno v3.5 : 170 Hz / Riffusion : 219 Hz / MusicGen : 255 Hz

Indépendamment de l’architecture, tous les générateurs IA se concentrent autour de 200 Hz.

Résultats sur ArtifactBench (6 183 pistes, 22 générateurs, aucun chevauchement entraînement-test) :

Modèle	Paramètres	F1	FPR
ArtifactNet	4M	0.983	1.5%
CLAM	194M	0.758	69.3%
SpecTTTra	19M	0.771	19.4%

Avec un taux de faux positifs de 69,3 % sur de la vraie musique classée à tort comme IA, CLAM est en pratique presque inutilisable comme discriminateur. Les benchmarks SONICS/MoM distribuent le jeu real uniquement via des identifiants YouTube, mais une part importante a été supprimée ou passée en privé, ce qui empêche toute comparaison F1 sur la base des originaux. ArtifactBench compare les trois modèles dans les mêmes conditions avec une partition real collectée et vérifiée directement.

Limites : entrée 44.1kHz requise ; sur des MP3 à faible bitrate, FPR ~8% ; en cas d’attaque de blanchiment Demucs en un seul passage, le TPR tombe à 94 % ; pour le dernier Udio, TPR = 87 %.

Démo (~5s) : https://demo.intrect.io/
Article : https://arxiv.org/abs/2604.16254
Modèle + benchmark (CC BY-NC 4.0) : https://huggingface.co/intrect/artifactnet
Brevet en cours de dépôt (KR + PCT)

ArtifactNet : un framework forensique léger qui détecte la musique générée par IA grâce à la physique des codecs

2 commentaires

ArtifactNet : un framework forensique léger qui détecte la musique générée par IA grâce à la physique des codecs

À lire aussi

2 commentaires