1 points par GN⁺ 2025-10-22 | 1 commentaires | Partager sur WhatsApp
  • Les codecs audio neuronaux sont des composants clés pour intégrer efficacement les données audio aux grands modèles de langage (LLM)
  • Les interfaces vocales LLM existantes sont surtout des wrappers textuels, ce qui limite la compréhension audio réelle et la reconnaissance émotionnelle
  • La modélisation audio, contrairement au texte, implique de nombreux échantillons et rend difficile le maintien d’une cohérence à long terme, ce qui rend la compression et la tokenisation efficaces indispensables
  • Les codecs audio neuronaux récents convertissent l’audio en tokens discrets compatibles avec les LLM à l’aide de techniques avancées comme la Residual Vector Quantization (RVQ)
  • L’adoption de codecs audio neuronaux de pointe comme Mimi de Kyutai améliore progressivement l’expressivité et la qualité des LLM audio

Contexte d’introduction des codecs audio neuronaux et des LLM audio

  • La plupart des modèles vocaux basés sur des LLM se contentent d’un flux de transcription → réponse → synthèse au lieu de comprendre réellement l’audio
  • En compréhension vocale réelle, il est essentiel de saisir l’émotion, l’intonation, le sarcasme et les nuances non verbales
  • Certains modèles (Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi) prennent en charge l’entrée vocale, mais leurs capacités de compréhension audio approfondie restent limitées en pratique
  • Les LLM textuels ont gagné en performance très vite en augmentant données, algorithmes et ressources de calcul, alors que la difficulté de traitement des données audio est bien plus élevée

Différences entre approches de tokenisation pour texte et audio

  • Pour le texte, même un tokenizer fixe relativement simple comme le byte-pair encoding donne déjà d’excellents résultats
  • Même les premiers LSTM ou RNN obtenaient des résultats raisonnables avec une simple prédiction d’un échantillon–caractère à la fois
  • L’audio nécessite des milliers d’échantillons par seconde ; pour 10 secondes, il faut prévoir des centaines de milliers de prédictions de séries temporelles
  • Avec des modèles comme WaveNet qui génèrent l’audio échantillon par échantillon, la qualité sonore peut être bonne, mais la transmission du sens reste difficile

Verrouillage de la modélisation audio et limites de la prédiction par échantillon

  • La génération échantillon par échantillon est en pratique très lente et ne garantit pas non plus la cohérence entre unités de sens
  • Dans une expérience (151M de paramètres, 1000 heures de données), la présence de bruit dans la parole et le manque de cohérence réduisent fortement l’usage pratique
  • Le taux d’échantillonnage élevé de l’audio (16 kHz, 2048 contextes = 128 ms) provoque une limite de traitement du contexte pour les LLM
  • Pour un traitement audio en temps réel, une compression efficace est indispensable

Codec audio neuronal : autoencodeurs et RVQ

Principes de base des autoencodeurs et de la quantification vectorielle (VQ-VAE)

  • Il s’agit d’une architecture neuronale qui compresse une entrée (audio, image, etc.) vers un espace latent plus petit, puis la reconstruit
  • Les embeddings sont quantifiés en tokens discrets par quantification vectorielle (ex. k-means) pour être injectés dans un LLM
  • La technique du straight-through estimator permet d’entraîner indirectement des opérations non différentiables
  • Une commitment loss est ajoutée pour minimiser la distance entre l’embedding et le centre de cluster
  • La structure VQ-VAE est une forme d’autoencodeur évoluée pour être plus adaptée à la quantification

Concept de Residual Vector Quantization (RVQ)

  • Lorsqu’un grand nombre de niveaux de quantification est nécessaire, des tokens de résidu (niveau résiduel) sont introduits afin de contourner les limites d’un seul jeu de clusters
  • L’embedding initial est d’abord quantifié, puis on quantifie en plus le résidu, ce qui maximise l’efficacité de compression
  • Si nécessaire, une quantification multi-niveaux à 2 niveaux ou plus est possible, avec une extension de la structure très simple (for level in range(levels))
  • Le RVQ est appliqué de manière centrale dans des codecs audio neuronaux récents comme SoundStream (2021)

Tokenisation audio et application aux LLM

  • Un autoencodeur CNN downsample l’audio (par ex. 128x, vecteurs de 32 dimensions), puis applique une RVQ indépendante à chaque embedding
  • Les sorties du code RVQ (par ex. RVQ à 8 niveaux) sont ensuite aplates en séquence de tokens 1D et envoyées directement aux LLM
  • Avec le flattening, il peut y avoir une perte partielle de compression temporelle (par ex. 128x downsampling → expansion à nouveau en 8x)
  • Le niveau de codebook, le nombre de niveaux, l’ordre de FLATTEN influencent chacun la qualité et le taux de compression

Entraînement réel des codecs audio neuronaux et amélioration de la qualité

  • Les expériences montrent qu’augmenter les niveaux RVQ réduit la perte de reconstruction et améliore la qualité sonore
  • Toutefois, même un codec simple maison conserve encore un peu de bruit et une certaine distorsion de timbre
  • Les codecs audio neuronaux modernes comme Mimi de Kyutai poussent la qualité au maximum via des innovations comme la perte basée GAN et le RVQ dropout
    • Le discriminateur GAN apprend à distinguer l’audio réel de l’audio faux
    • Utilisation aléatoire de seulement quelques niveaux RVQ (dropout), pour maintenir la qualité quel que soit le niveau de compression

Évolution des performances des LLM avec le codec Mimi

  • Mimi permet un downsampling plus agressif et une compression efficace, avec 24 kHz de taux d’échantillonnage et 12,5 fps
  • La tokenisation de 10 000 heures de données Libri-Light avec Mimi réduit environ de moitié la capacité de stockage, tout en améliorant l’efficacité d’entraînement et la qualité
  • Le modèle montre une meilleure cohérence textuelle en génération audio sémantique (chansons, poésie, etc.)

Introduction des semantic tokens

  • Le niveau supérieur de Mimi correspond à des semantic tokens extraits d’un BERT vocal comme WavLM
  • Les semantic tokens portent le contenu de la parole, tandis que les tokens RVQ inférieurs gèrent les informations acoustiques comme le timbre et la voix
  • En fixant les semantic tokens puis en régénérant uniquement les autres, il devient possible d’obtenir le même message parlé avec une autre voix

Compromis sémantique–qualité acoustique

  • Moins il y a de niveaux RVQ, plus la part des semantic tokens augmente, ce qui améliore le taux de correspondance sémantique et renforce la capacité du LLM à générer des phrases de type poétique
  • En pratique, on peut même atteindre un niveau de mémorisation de certaines données d’entraînement, comme des annonces du type Librivox
  • Selon le poids accordé à la loss sémantique ou à la loss de qualité, les usages peuvent être adaptés (Moshi privilégie la loss sémantique avec un facteur x100)

Tendances récentes des modèles et recherches d’LLM audio

  • Avec les progrès accumulés ces dernières années, Kyutai Moshi, Sesame CSM et Alibaba Qwen3-Omni pilotent la recherche sur les LLM audio natifs
  • La plupart des modèles reposent encore sur une approche parallèle en flux texte, la plupart du raisonnement contextuel étant réalisé principalement dans le texte
  • La combinaison croisée de tokens texte et audio, ainsi que des alternatives comme la génération en espace latent continu (modèles diffusion, consistency), font également l’objet d’un fort intérêt

Conclusion et perspectives

  • Les codecs audio neuronaux sont l’infrastructure centrale des LLM audio, améliorant nettement la qualité de génération vocale en tokenisant de manière équilibrée informations sémantiques et acoustiques
  • Il existe encore un modality gap par rapport aux LLM textuels en matière de reasoning et de compréhension audio
  • Kyutai Moshi et d’autres initiatives poursuivent de nombreuses innovations, dont les premières tentatives de Voice AI de bout en bout, et l’évolution de l’IA audio reste attendue avec intérêt

Articles de référence et lectures complémentaires

  • WaveNet (2016), SampleRNN (2016), MelGAN (2019), HiFi-GAN (2020), et autres modèles de création audio présentant l’évolution des concepts clés
  • Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio, etc., pour les recherches applicatives autour des codecs et modèles
  • Présentation du potentiel de génération audio continue avec les modèles Diffusion/Consistency

Exemples de LLM basés sur l’audio (au 2025)

  • Moshi (Kyutai)
  • CSM (Sesame)
  • Qwen3-Omni (Alibaba)
  • MiMo-Audio (Xiaomi)
  • LFM2-Audio (Liquid AI)

1 commentaires

 
GN⁺ 2025-10-22
Commentaires Hacker News
  • Il explique que demander à un LLM en voix haute « Est-ce que je parle avec une voix grave ou une voix aiguë ? » révèle qu’il a du mal à faire la distinction. Il se demande si cela relève plutôt des limites du LLM ou d’un surapprentissage lié à la sécurité. Il note aussi que le mode voix de ChatGPT contient de nombreuses protections — blocage de la génération musicale, refus d’imiter certains accents (par exemple ne pas copier un accent indien), prévention des biais raciaux ou des préjugés liés à l’identité — et suppose que ces protections ont peut-être été supprimées du modèle de base.

    • En tant qu’auteur, il pense qu’il s’agit davantage d’une limite de capacité que d’un problème de sécurité. L’apprentissage audio reste plus difficile que l’apprentissage texte et généralise moins bien. Pour le pallier, les modèles audio s’appuient souvent sur des techniques qui combinent texte et audio (par exemple, un modèle unique avec entrées et sorties texte + tokens audio), de sorte que les tokens audio finissent par faire office de convertisseur parole-texte intégré. Ses collègues ayant travaillé chez Moshi ont observé la même chose, comme d’autres modèles ; il pense aussi que le fine-tuning sur des données synthétiques joue un rôle, car un entraînement sur des données générées par TTS supprime l’information de tonalité et apprend au modèle à l’ignorer.

    • Concernant l’"accent matching" (empêcher un LLM d’adopter l’accent indien quand l’interlocuteur parle avec cet accent), il se demande pourquoi cela ne fonctionne pas. Il a constaté qu’un ajustement de l’accent comparable améliore fortement la compréhension réciproque ; dans de nombreuses situations, il est utile d’adapter son accent à quelqu’un qui ne sait pas en changer. Selon lui, s’il pouvait utiliser un anglais à l’accent indien, ce serait vraiment pratique pour discuter avec les centres d’assistance de fournisseurs externalisés.

    • Il demande s’il y a eu des cas où les LLM ont réagi différemment selon la race, alors que si leurs données d’entraînement sont surtout des conversations textuelles, il serait étonnant qu’ils apprennent autant de biais.

    • Il signale que Qwen3 Omni Transcriber décrit remarquablement bien la voix et l’émotion.

    • Il ne pense pas que cela ne vienne que des garde-fous : il a l’impression que le modèle ne comprend pas non plus la hauteur elle-même. Même lorsqu’il a demandé au mode vocal avancé de ChatGPT d’identifier un air en fredonnant, la réponse a été toujours « Beethoven 5 » ; il pense que son hummm a sans doute été tokenisé sous une forme du type « tum-tum-tum-tum~ ».

  • En audio, le long-range context n’est pas si crucial, donc les modèles à espace linéaire et temps constant (RWKV, S4, etc.) pourraient être plus adaptés, non ? Il imagine des transformers exécutés en parallèle à faible fréquence, tandis qu’un modèle linéaire transmettrait une fois par seconde un token de résumé (texte + émotion, etc.) comme retour. En entraînant les deux modèles en parallèle, le sens des summary tokens ne serait pas prédéfini, mais émergerait de l’entraînement. Ce serait une approche end-to-end purement phonétique sans passage texte ; les segments peu utiles ou à faible information pourraient être compressés en tokens plus compacts. Sur le plan logique/algorithmique, c’est un angle où les LLM textuels seront difficiles à battre, mais même les humains peinent à expliquer précisément un algorithme en conversation naturelle.

    • Il ne connaît pas bien les modèles linéaires en profondeur, mais mentionne que ce type de modélisation hiérarchique est une idée courante en recherche vocale. Par exemple, Jukebox d’OpenAI (2020) utilise un codec audio à trois niveaux : le modèle de langage prédit d’abord le niveau le plus grossier, puis reconstruit progressivement les niveaux plus fins. Récemment, MiMo-audio prédit un patch correspondant à 4 pas de temps groupés. Il partage l’article OpenAI Jukebox et le rapport technique MiMo-Audio.

    • Il précise que Cartesia développe un modèle audio à temps constant, avec le lien du site web.

    • Il encourage aussi : « Écris ça en papier, s’il te plaît ! »

  • Sur la question de l’usage de codecs audio classiques (JPEG, MP3), il explique qu’un MP3 reconstruit complètement quelques dizaines de millisecondes d’audio par trame, de manière indépendante ; à 128 kbps, 26 ms = 418 octets, soit une réduction de 10 à 11 fois par rapport à la source, et les informations inutiles sont supprimées. Avec un transcodeur, on pourrait imaginer utiliser ces trames comme tokens.

    • Il partage le résumé d’un papier sur l’usage direct de JPEG comme entrée en deep learning : entraîner un CNN sur les coefficients DCT permet de faire sauter la restauration visuelle puis le re-encodage ; appliqué à ResNet-50, cela a accéléré l’entraînement jusqu’à 1,77x et amélioré la précision. Il juge donc que MP3 pourrait être une bonne idée.

    • En tant qu’auteur, il souligne qu’une raison centrale est le rapport de compression. Le premier neural audio codec SoundStream reste très bon dès 3 kbps, alors que MP3 tourne à 128 kbps ; SoundStream ayant été conçu initialement pour la compression audio de Google Meet, les neural codecs actuels sont encore plus efficaces. L’équivalent moderne de MP3, Opus, peut descendre à 12 kbps, mais reste moins efficient qu’un neural audio codec. Les codecs classiques ont toutefois l’avantage d’être moins coûteux en CPU.

    • Il est possible d’entraîner un adaptateur qui convertit une trame MP3 de 400 octets en embeddings pour LLM ; encore faut-il que la structure soit digestible pour un réseau neuronal. Les réseaux aiment les données redondantes (comme le texte tokenisé) et supportent moins bien les données ultra-compressées (type GZIP). C’est une piste facile à tester, mais le résultat n’est pas certain, même si des approches surprenantes marchent parfois.

    • L’approche TFA encode dans un espace 32D, bien au-delà des méthodes de compression psychoacoustique ; elle élimine aussi des informations quasi imperceptibles, ce qui a peu de sens si l’objectif est de générer de nouveaux contenus (synthèse vocale, etc.).

    • La perception humaine est basée sur les composantes fréquentielles ; la cochlée contient une banque de filtres résonants (avec différentes fréquences selon la longueur des cils). La perception de la parole repose sur les formants pour inférer les gestes articulatoires. Si on tokenise une trame MP3, l’information fréquentielle est dissimulée via quantification, codage de Huffman et structure de trame, ce qui revient à une boîte noire. Cela peut permettre de prédire du texte, mais plus l’entrée masque l’information importante, plus c’est difficile. Sans accès direct aux formants, la généralisation devient complexe ; si un LLM est entraîné sur un seul type de voix, on peut douter de sa robustesse sur les voix enfantines ou synthétiques.

  • Il dit que c’était la meilleure explication visuellement, et partage lui-même son expérience de tokenization de texte rendu avec VQ-VAE : à partir d’une fonte 10 pt et d’une source PDF, il a entraîné un modèle de diffusion générant des images de texte complètes, avec une représentation latente apprenant aussi le type de document et la langue. Il en a beaucoup appris et trouve l’article très beau dans sa formulation.

  • Sur la question « pourquoi ne pas créer un LLM directement sur l’audio tokenisé, au lieu de dépendre toujours d’une transcription texte ? », il rappelle qu’il existe énormément de données audio disponibles.

    • Il dit que ce post parle précisément de ce problème (transformer le signal sonore continu en tokens discrets) ; la fenêtre audio fait 10 à 100 ms, difficile à encoder en un seul token. La residual vector quantization passe donc une même slice temporelle à travers plusieurs dictionnaires successifs pour la quantifier. Il indique que la fin du post inclut des exemples d’entraînement de LLM avec le codec Mimi.

    • Les données texte sont déjà beaucoup plus nettoyées et normalisées, alors que l’audio doit intégrer langue, dialecte, accent, prosodie, expressions faciales et gestes, donc c’est bien plus complexe. Convertir l’audio en texte permet d’éliminer ce bruit et de garder un jeu de tokens propre centré sur le sens linguistique, ce qui est efficace et plus robuste pour la projection multilingue.

    • L’entraînement basé sur des tokens audio est plus coûteux, mais il pense qu’un jour ce sera la norme dominante. Entraîner sur des transcriptions de cours vidéo YouTube ne produira pas les mêmes gains ni les mêmes résultats qu’un entraînement sur les données audio brutes.

    • En audio tokenization, le nombre de tokens est au moins 4x supérieur à celui du texte, donc le problème commence par l’efficacité ; il ajoute aussi que la question de la quantité de données suffisante pour entraîner un LLM en pur audio reste entière.

    • Il pense qu’aucun “révolutionnaire” transformer audio n’est encore arrivé, mais estime que les modèles audio-first pourraient être théoriquement bien meilleurs.

  • Il n’avait pas connu Kyutai, mais trouve que le projet correspond parfaitement à ce qu’il est en train de faire.

  • Il trouve ce travail vraiment fascinant : l’audio est effectivement plus difficile à traiter que le texte, et la question clé pour un LLM audio est de trouver le codec le plus efficace. Il imagine qu’un jour le codec voix qui ira bien avec les LLM ne viendra pas de la transformée de Fourier, mais d’une représentation basée sur des paramètres physiques réels (cordes vocales, langue, lèvres). En se fondant sur le fait que l’anatomie humaine change peu, il imagine qu’un tel modèle pourrait devenir une norme statistique stable ; il parle ici de formant speech encoding, qu’il a initialement étudié dans la synthèse de la parole.

    • En tant qu’auteur, il commence par remercier pour l’encouragement, puis estime que les codecs basés sur des paramètres physiques (cordes vocales, langue, etc.) vont à l’encontre de la direction ML actuelle, qui tend à injecter un minimum de connaissance domaine et à confier un maximum au transformer. Plus on impose de contraintes, plus l’espace sonore représentable se réduit et plus la limite de qualité arrive vite ; à l’inverse, contraindre le modèle peut aussi faire émerger des recherches efficaces et intéressantes. À titre d’exemple, le papier DDSP contrôle un synthétiseur via le ML pour générer des sons d’instruments, et on peut probablement faire pareil pour la parole : la qualité baisse mais le nombre de paramètres est bien plus faible. C’est aussi l’idée derrière des systèmes Tiny TTS comme KokoroTTS, qui synthétisent directement consonnes et voyelles avec très peu de paramètres fonctionnels, selon DDSP paper, KokoroTTS project

    • Ces tentatives de voix basées sur la physique existent depuis longtemps, avec des expériences qui reconstruisent la configuration buccale et les flux d’air pour faire parler réellement un système ; elles reposent sur une erreur d’interprétation si l’on suppose que la parole dérive de l’écriture.

    • Dans le codage et la synthèse de la parole, le modèle source-filter (paramétrisation source + filtre vocal) est le modèle fondateur, bien antérieur à la redécouverte de la FFT.

  • Il se demande si 100k heures d’entraînement suffisent : pour un LLM, ce n’est pas énorme, et il évoque le principe de la « Bitter Lesson » (la donnée et le calcul sont les clés).

    • Il estime qu’un entraînement de 1M steps (batch size 64, block size 2048) converge, et le modèle fait 150M de paramètres, donc assez petit pour un LLM. Il ne cherchait pas la performance de pointe, mais à montrer à quel point changer seulement le tokenizer peut modifier le comportement d’un modèle.
  • Il dit avoir trouvé le post très bien structuré et utile, et vouloir le partager avec son équipe ; il commence justement à intégrer audio/voix dans ses produits IA, donc c’est une ressource très concrète.