1 points par GN⁺ 2024-03-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Principales améliorations d’Opus 1.5

  • La version Opus 1.5 a été annoncée, avec diverses améliorations, dont des gains de qualité fondés sur le machine learning.
  • De nouvelles fonctionnalités ont été introduites pour améliorer l’expérience audio tout en restant parfaitement compatibles avec les versions précédentes.
  • Pour la première fois, des techniques de deep learning sont utilisées pour le traitement et la génération du signal.

Gestion de la perte de paquets

  • La perte de paquets est l’un des plus gros désagréments pendant un appel : si les paquets ne sont pas transmis, la qualité du codec importe peu.
  • La dissimulation de perte de paquets (PLC) sert à combler l’audio à la place des paquets manquants, et le machine learning y apporte une aide majeure.
  • La PLC est réalisée à l’aide d’un réseau de neurones profond (DNN), comme on peut le voir dans l’article et les détails techniques.

Redondance profonde (DRED)

  • Lorsque des paquets sont perdus de façon consécutive, la seule PLC atteint ses limites, et la redondance permet de résoudre ce problème.
  • Opus inclut déjà un mécanisme de redondance à faible débit (LBRR), mais introduit DRED, qui utilise le ML pour compresser efficacement la parole.
  • DRED peut transmettre une seconde de redondance avec un surcoût d’environ 12 à 32 kb/s.

Vocodeur neuronal

  • La faible complexité de DRED et de la PLC devient possible grâce à une nouvelle technologie de vocodeur neuronal.
  • Le vocodeur FARGAN n’a qu’un cinquième de la complexité de LPCNet et utilise moins de 1 % d’un cœur CPU sur un ordinateur portable ou un smartphone récent.

Amélioration de la qualité vocale à bas débit

  • Quand le débit binaire est insuffisant, des artefacts de codage peuvent devenir audibles ; deux méthodes d’amélioration, LACE et NoLACE, ont été introduites.
  • LACE ressemble à un post-filtre traditionnel, mais un DNN optimise les coefficients du post-filtre à partir de toutes les données dont le décodeur dispose.
  • NoLACE demande davantage de calcul, mais se montre plus puissant grâce à un traitement du signal non linéaire supplémentaire.

Intégration à WebRTC

  • DRED exige une intégration étroite avec le jitter buffer, dont la taille détermine la quantité maximale de retard d’arrivée des paquets pouvant être tolérée.
  • Les données DRED sont traitées comme des paquets audio arrivant en retard, et la taille du buffer peut diminuer lorsque les conditions réseau s’améliorent.

IETF et normalisation

  • Ce travail est mené au sein du groupe de travail mlcodec de l’IETF et se concentre sur le mécanisme général d’extension d’Opus, la redondance profonde et l’amélioration du codage vocal.
  • Le mécanisme DRED ajoute des informations aux paquets Opus tout en permettant aux décodeurs des versions précédentes de continuer à décoder les données Opus normales.

Autres améliorations

  • Opus ajoute la prise en charge d’AVX2 et la détection en temps réel, ce qui accélère le nouveau code DNN ainsi que l’encodeur SILK.
  • Les optimisations ARMv7 Neon ont été réactivées sur AArch64, ce qui rend l’encodage plus efficace.
  • Afin de simuler la perte de paquets de manière plus réaliste, il est possible de générer un modèle de perte reproduisant des pertes proches des conditions réelles.

Avis de GN⁺

  • Opus 1.5 propose une approche innovante consistant à améliorer les technologies de codec audio existantes grâce au machine learning. Cela pourrait constituer une avancée importante pour les technologies de communication.
  • Le problème de la perte de paquets est central dans les communications en temps réel, et les technologies d’Opus 1.5 offrent un moyen efficace d’y répondre. Des fonctions comme DRED peuvent être particulièrement utiles dans les environnements où le réseau est instable.
  • Des technologies comme le vocodeur neuronal jouent un rôle important dans l’amélioration de la qualité vocale, mais compte tenu de leur complexité et de leurs exigences en performances, il reste à débattre si tous les utilisateurs pourront réellement en bénéficier.
  • Les technologies d’Opus 1.5 peuvent révéler tout leur potentiel lorsqu’elles sont intégrées à des plateformes de communication en temps réel comme WebRTC, ce qui pourrait nettement améliorer la qualité du télétravail et des communications en ligne.
  • Le processus de normalisation joue un rôle essentiel pour assurer une adoption large de ces technologies et préserver la compatibilité, et les efforts de l’IETF contribueront à leur utilisation dans un éventail plus large d’applications et de services.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.