1 points par GN⁺ 2024-02-14 | 1 commentaires | Partager sur WhatsApp
  • La démo de Stable Audio montre, à travers des exemples audio, comment un seul modèle génère à la fois de longs morceaux de musique et des effets sonores en stéréo 44,1 kHz
  • La génération musicale met l’accent sur la capacité à produire différents genres et ambiances uniquement à partir de prompts, comme Berlin techno, uplifting acoustic loop, disco, spa lobby meditation ou drum solo
  • Les effets sonores couvrent door slam, sports car, motorbike, fireworks, cave footsteps, etc., avec des formulations comme « high-quality, stereo » utilisées dans les prompts
  • Les exemples comparatifs sont organisés pour permettre d’écouter côte à côte les résultats de MusicGen-large, MusicGen-stereo, AudioLDM2 et Audiogen-medium, à partir de prompts MusicCaps et AudioCaps
  • Les exemples de reconstruction par autoencodeur permettent de vérifier la fidélité audio en comparant les enregistrements originaux aux résultats après passage dans le modèle

Démo de Stable Audio et exemples de génération

  • Le site de démo peut ne pas fonctionner correctement dans Safari ; pour une expérience optimale, l’utilisation de Google Chrome est recommandée
  • Les ressources associées fournies sont arXiv, stable-audio-tools et stable-audio-metrics
    • arXiv : article Stable Audio
    • stable-audio-tools : code pour reproduire Stable Audio
    • stable-audio-metrics : code d’évaluation de Stable Audio
  • Le modèle peut générer de la musique stéréo longue durée à longueur variable en 44,1 kHz
    • Les prompts d’exemple incluent Berlin techno, uplifting acoustic loop, disco, calm meditation music et drum solo
    • Certains prompts précisent aussi le BPM, les instruments, l’ambiance, le style régional et le caractère loopable ou non
  • Le même modèle génère aussi des effets sonores stéréo en 44,1 kHz
    • Les prompts d’exemple incluent door slam, sports car passing by, motorbike passing by, fireworks et reverberant footsteps inside a large rocky cave
    • La mention « high-quality, stereo » a été ajoutée aux prompts d’effets sonores, avec l’indication que cette approche aide généralement

Comparaison de modèles et reconstruction par autoencodeur

  • La comparaison de musique longue durée est organisée autour de prompts MusicCaps
    • Stable Audio : stéréo, 44,1 kHz
    • MusicGen-large : mono, 32 kHz
    • MusicGen-stereo : stéréo, 32 kHz
    • AudioLDM2 : mono, 48 kHz
    • Les prompts et les audios utilisés pour la comparaison ont servi à l’étude qualitative rapportée dans l’article
  • La comparaison des effets sonores utilise des prompts AudioCaps
    • Stable Audio : stéréo, 44,1 kHz
    • Audiogen-medium : mono, 32 kHz
    • AudioLDM2 : mono, 48 kHz
    • Les prompts AudioCaps sélectionnés aléatoirement ne demandent pas de grands mouvements stéréo, ce qui donne des résultats rendus de manière relativement peu spatialisée
  • La section Autoencoder fournit des comparaisons de reconstruction pour évaluer la fidélité audio
    • À gauche se trouvent les enregistrements ground truth, et à droite les résultats obtenus après passage de ces enregistrements ground truth dans l’autoencodeur
    • Les reconstructions sont assez transparentes et très proches du ground truth

1 commentaires

 
GN⁺ 2024-02-14
Réactions sur Hacker News
  • Fait intéressant, Ed Newton-Rex, qui avait été embauché pour créer Stable Audio, a quitté l’entreprise juste après le lancement, par inquiétude concernant les questions de droits d’auteur et de données d’entraînement
    Il a ensuite fondé https://www.fairlytrained.org/
    Référence : https://x.com/ednewtonrex

    • Avec les modèles génératifs, si le créateur ne publie pas l’architecture du modèle et qu’il s’agit d’un modèle qui convertit du texte vers un autre média, on peut supposer qu’il a délégué en partie à un encodeur de texte entraîné sur des données sans licence explicite, ou à quelque chose de similaire
      Même pour des ayants droit disposant de dizaines ou centaines de millions d’éléments en bibliothèque, comme des images ou des extraits audio, moins d’un milliard de tokens de texte dans un grand dépôt ne suffit pas pour obtenir de bonnes performances d’encodeur dans un modèle de génération texte-vers-média. Cela inclut aussi Firefly d’Adobe
      C’est également une erreur de croire qu’avoir beaucoup de données similaires dans ce type de bibliothèque est particulièrement utile. Sans encodeur de texte puissant, la plupart des modèles texte-vers-média produisent des résultats qui paraissent ou sonnent très génériques
      Le moyen le plus simple de lever ce soupçon est de publier l’architecture du modèle
      Quoi qu’il en soit, même si tout cela était vrai, si nous parlons des modèles de diffusion et prêtons attention au travail de Fairly Trained, c’est précisément parce que quelqu’un s’est entraîné sur des données sans licence explicite
    • Le qualifier de « personne embauchée pour créer Stable Audio » est un peu trompeur. Il occupait un poste de direction en tant que VP produit du groupe audio de Stability
      C’est un poste important, bien sûr, mais cette formulation fait plutôt penser à un développeur principal ou à un chercheur
      Sachant qu’il est un fondateur avec un parcours dans la musique, son départ est aussi plus compréhensible
    • C’est une interprétation intéressante, mais c’est aussi une position assez étrange, étant donné que la manière dont Stable Diffusion a été entraîné était déjà bien connue quand il a rejoint Stability
    • Même si l’entreprise l’aurait fait de toute façon, on se demande s’il n’aurait pas pu y réfléchir avant d’aller y travailler
      Ou peut-être que cela faisait partie du parcours nécessaire à son activité de certification
    • Il faut trouver une solution aux barrières liées au droit d’auteur auxquelles les entreprises se heurtent lorsqu’elles entraînent leurs modèles
      À mes yeux, ce n’est pas différent d’un artiste qui compose de la musique sous l’influence de tout ce qu’il a écouté pendant sa vie. Fondamentalement, c’est exactement la même chose, et on ne crée pas de musique ou d’art dans le vide
  • Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
    J’ai l’impression de revenir à l’époque d’Internet Explorer dans les années 90. La seule différence, cette fois, c’est que le navigateur dominant est open source
    Quelqu’un devrait créer pour Chrome un bouton GIF animé disant « Best viewed with Google Chrome »

  • Comme pour Stable Diffusion, il est probable que, pour ce modèle aussi, les prompts textuels soient le moyen le plus difficile à contrôler pour obtenir une sortie utile
    On imagine facilement l’usage de MIDI en entrée avec ControlNet, pour en faire pratiquement un synthétiseur neuronal

    • Oui. Depuis que je travaillais sur un projet de mélodies IA il y a deux ans (https://www.melodies.ai/), je pensais déjà que produire des morceaux finis de haute qualité uniquement à partir de texte ne serait, pendant un bon moment, ni vraiment faisable ni souhaitable
      Il vaut mieux se concentrer sur l’usage de l’IA pour assister le processus des artistes à différentes étapes de la production musicale
    • C’est peut-être vrai pour la musique. Mais pour les effets sonores, je pense que les prompts textuels constituent une assez bonne interface utilisateur
    • L’idéal serait sans doute de prendre à la fois un enregistrement audio où l’on fredonne ou chante une mélodie, et un prompt textuel, puis de générer une piste qui lui ressemble
    • Ça marche bien quand on n’a pas besoin de beaucoup de contrôle. Par exemple avec un prompt du type « solo de free jazz par un saxophoniste ténor, sans mesure »
    • À part les prompts textuels, quelles autres entrées existe-t-il dans Stable Diffusion ? Vous parlez de img2img, de ControlNet, ce genre de choses ?
  • Comparé aux modèles musicaux récents comme MusicGen et MusicLM, c’est incroyablement bon. Il semble aussi y avoir une page produit utilisable par abonnement, à la manière de Midjourney : https://www.stableaudio.com/
    Malheureusement, ce n’est pas un modèle avec poids publiés, et il ne semble pas non plus y avoir d’API. C’est un service de génération audio via une interface utilisateur sur abonnement mensuel, pas quelque chose que les développeurs peuvent intégrer ou encapsuler

    • Je voulais créer des effets sonores pour le jeu sur lequel je travaille, mais il semble qu’il faille une licence entreprise (https://www.stableaudio.com/pricing)
      Je me demande pourquoi ce cas n’entre pas simplement dans la clause « produit commercial avec moins de 100 000 utilisateurs actifs mensuels » et fait l’objet d’une clause séparée
    • Apparemment, une version sous licence CC et une API arrivent bientôt
      Les modèles progressent très vite, donc cela pourrait être une année assez importante pour la musique
    • Heureusement, l’entraînement reste possible à la maison. La question plus importante, c’est celle des données
  • Je pense qu’il manque encore une étape où l’IA apprend d’abord à quoi ressemble une bibliothèque sonore de haute qualité, puis applique ce qu’elle a appris pour déclencher, via MIDI, les sons de cette bibliothèque
    De cette façon, on pourrait obtenir à la fois la créativité de l’IA musicale et une qualité audio irréprochable

    • J’ai toujours souhaité quelque chose de ce genre aussi pour les IA de génération d’images. Au lieu d’une amélioration itérative magique à partir d’une image finalisée, ce serait bien plus cool et intéressant de voir l’IA essayer de peindre au pinceau ou de colorier
      Je ne sais pas quel type de dataset ou d’architecture pourrait convenir à ça, mais ce serait vraiment fascinant
    • Avec le MIDI, comment peut-on obtenir par exemple une guitare jouée de façon rugueuse, ou le léger écho produit par un enregistrement dans une salle de bain ?
    • Ce n’est pas justement ce que fait suno.ai ?
  • Ce n’est pas pour minimiser les progrès réalisés ici, c’est impressionnant
    En tant que batteur, un « solo de batterie » fait partie des choses les plus ennuyeuses, et on y entend des sons bizarres. Au final, tout dépendra probablement du public visé
    À titre de référence, même les effets sonores ne me paraissent pas réalistes à l’oreille, à l’heure actuelle
    Cela dit, les progrès sont considérables, bravo

    • En tant que batteur, si on considère ça comme quelque chose qui se déroule sur un 4/4 régulier, ce « solo de batterie » était étonnamment intéressant à écouter
      Son caractère aléatoire sans être totalement aléatoire produit des motifs rythmiques assez atypiques. J’aimerais pouvoir improviser ce genre de syncopes sur le moment
      Ne me demandez pas de le transcrire en partition
      La régularité du tempo est excellente. En revanche, les bruits parasites inutiles et les résonances aléatoires de cymbales montrent les limites du modèle
    • C’est une tentative impressionnante, mais on est encore très loin de générer de la musique ou des sons réellement exploitables
      Il existe déjà des millions de morceaux de bibliothèque musicale et d’effets sonores qui sonnent bien mieux. Pour rivaliser avec cela, l’IA générative exigerait des investissements massifs, et contrairement au texte ou à l’image, je ne vois pas de viabilité économique
    • J’ai été encore plus déçu par l’absence de transitions dans les extraits musicaux. La plupart des morceaux comportent des modulations ou des transitions percussives
    • Le solo de batterie montre bien à quel point ce modèle passe à côté de l’essence même d’un solo de batterie. Je ne suis pas batteur, mais ce n’est pas du tout agréable à écouter
      On dirait quelqu’un qui tape sur une batterie au hasard tout en restant à peu près dans le tempo
      En revanche, pour des choses comme la musique d’ascenseur, il s’en sort à peu près, ce qui correspond aussi aux attentes
  • Il est intéressant qu’ils publient le code et un guide pédagogique pour l’entraînement, mais pas le modèle lui-même
    C’est presque comme s’ils suppliaient des inconnus de brancher le data loader sur leur compte Apple Music et de le faire tourner autant qu’ils veulent. Bien sûr, personne ne suggère de faire ça

    • J’imagine qu’ils ont peut-être obtenu l’accès à la bibliothèque audio de stock sous licence d’AudioSparx pour l’entraînement à condition de ne pas redistribuer le modèle résultant
  • L’idée de générer des effets sonores m’avait brièvement enthousiasmé, mais ces « bruits de pas » sont incroyablement mauvais

    • J’ai essayé la génération musicale sur stableaudio.com et oui, ce n’est pas terrible. Cela dit, le rythme de développement de ces modèles est si rapide que je ne serais pas surpris que cela devienne incroyablement bon d’ici 1 à 2 ans
  • Il n’y a donc pas de poids publiés ? Il est difficile de trouver une formulation claire dans un sens ou dans l’autre
    Modification : ah, je ne pensais pas que ce serait un commentaire controversé. J’aurais préféré qu’on réponde à la question avant de voter négativement, mais bon, peu importe

  • « Pour les prompts d’effets sonores, il est généralement utile d’ajouter “high-quality, stereo”. »
    Je trouve drôle qu’on ait découvert que demander poliment à un LLM de produire un meilleur résultat améliore la sortie

    • Parfois, on peut vouloir le son d’une vieille cassette, ou celui, encore plus ancien, d’un disque 78 tours rayé
      Comme toujours avec les ordinateurs, ils exécutent non pas ce que nous voulions dire, mais ce que nous avons demandé