- AV2 est le prochain codec vidéo open source développé par l’Alliance for Open Media. Après 5 ans de développement, sa spécification finale est attendue pour fin 2025
- Selon les tests, AV2 atteint, à qualité d’image équivalente, un débit binaire inférieur d’environ 30 % à celui d’AV1, avec une amélioration de 32,59 % selon le VMAF
- Sa particularité est d’améliorer l’efficacité non pas grâce à l’IA, mais via une optimisation mathématique et des améliorations algorithmiques
- Les superblocs 256×256, le partitionnement entièrement récursif, les modes de prédiction basés sur les données, ainsi que le TIP (Temporal Interpolation) améliorent les performances sur les hautes résolutions et les mouvements rapides
- La validation de l’efficacité matérielle est terminée, et le développement doit désormais se concentrer sur l’optimisation de l’encodeur et l’extension des profils avec prise en charge de l’IA
État du développement d’AV2
- AV2 conserve la structure hybride par blocs d’AV1 tout en introduisant des superblocs plus grands de 256×256 et un partitionnement entièrement récursif
- La séparation du partitionnement de la luminance (luma) et de la chrominance (chroma) permet une prédiction plus fine
- Le système de prédiction intègre des modes intra basés sur les données, une modélisation chroma-from-luma améliorée, ainsi qu’un système de références hiérarchisé utilisant jusqu’à 7 images de référence
- La fonction TIP (Temporal Interpolation Prediction) a été ajoutée afin d’améliorer l’efficacité de la compensation de mouvement dans les scènes à mouvement rapide ou en haute résolution
Qualité et efficacité de compression
- Andrey Norkin de Netflix a annoncé avoir confirmé une réduction du débit binaire de 28,63 % en PSNR-YUV et de 32,59 % en VMAF
- Le VMAF (Video Multi-Method Assessment Fusion) est un indicateur de qualité vidéo développé par Netflix, qui reflète l’évaluation subjective de la qualité d’image
- Ces améliorations sont le résultat d’une modélisation mathématique et d’innovations algorithmiques plutôt que de l’IA. Le groupe AOM a évoqué des possibilités d’extension liées à l’IA, mais le codec lui-même reste fondé sur des approches traditionnelles
Système de transformation et de quantification
- Un quantificateur exponentiel unifié (exponential quantizer) a été introduit afin de mieux prendre en charge les vidéos 8, 10 et 12 bits avec une plage plus large et une plus grande précision
- La quantification basée sur Trellis et les matrices personnalisées permettent un contrôle plus fin même à faible débit binaire
- Les transformées basées sur l’apprentissage (transform) et les transformées inter-composantes réduisent les artefacts de compression tout en préservant les textures
- Le codage des coefficients (coefficient coding) a été amélioré pour les contenus d’écran et les contenus mixtes
Filtrage et post-traitement
- Un deblocker généralisé unifié préserve mieux les textures fines, tandis que de nouveaux filtres comme le Guided Detail Filter et le Cross-Component Sample Offset améliorent les performances de réduction du bruit
- La synthèse du grain de film (film grain synthesis) peut être appliquée de manière plus flexible
- La prise en charge de la vidéo multicouche (multi-layer) et de la vidéo stéréoscopique (stereo video) permet de répondre aux formats multimédias de nouvelle génération
Prochaines étapes
- Tous les outils AV2 ont achevé la validation de leur efficacité matérielle
- La prochaine étape portera sur l’optimisation de l’encodeur ainsi que sur le développement de profils pour haute profondeur de bits et extensions IA
- La spécification finale est prévue pour fin 2025, et sa commercialisation devrait ensuite être progressivement adoptée par les principales plateformes et services de streaming
3 commentaires
Je trouvais déjà que le nom AV1 était particulier, mais tout était prévu depuis le début...
Je pensais qu’avec AV1, on en resterait là, mais il y a donc encore un potentiel d’évolution ?!
La technologie est vraiment impossible à prévoir...
Avis Hacker News
Je me demande à quel moment les services de streaming arrêteront la compression excessive. J’utilise pourtant un téléviseur 4K haut de gamme et une connexion Internet gigabit, mais à cause des artefacts de compression, l’image ressemble parfois à de la pâte à modeler. En réalité, la meilleure qualité d’image que j’aie jamais vue, c’était il y a 20 ans avec une simple antenne numérique. Les traces de compression se voient particulièrement dans les dégradés ou les scènes sombres des films. Pour référence, mon téléviseur est parfaitement calibré et j’utilise l’abonnement de streaming avec la bande passante maximale. Un exemple visuellement similaire est visible ici
Pour les services de streaming, les coûts de diffusion du contenu sont énormes, et c’est la plus grosse dépense restante après la production du contenu. Ils vont donc très loin pour réduire le bitrate. C’est pourquoi Netflix a introduit un algorithme qui supprime le grain de la caméra (le bruit) puis ajoute côté client un bruit généré artificiellement ; il y a aussi eu récemment un cas où YouTube Shorts a utilisé une technique de débruitage extrême. Le bruit étant une donnée aléatoire, il est très difficile à compresser, donc ils veulent l’éliminer autant que possible. Mais quand on retire le bruit d’une vidéo filmée en direct, on perd aussi des détails très fins. Voir la discussion associée ici
Le fait de voir des artefacts de compression dans les dégradés ou les scènes sombres est aussi un symptôme d’un mauvais calibrage du téléviseur. Souvent, le contraste est réglé trop haut. Les gens ont tendance à l’ajuster pour voir tous les détails dans les scènes sombres, alors qu’en réalité certaines zones ne sont pas censées être visibles. Sur un écran correctement réglé, les zones sombres devraient être presque invisibles. La plupart des codecs sont d’ailleurs conçus pour supprimer les détails dans les scènes sombres. Bien sûr, les services de streaming poussent parfois cette logique beaucoup trop loin, mais une partie du conflit vient aussi du fait que beaucoup de gens règlent mal leur écran
Avant le COVID, Netflix utilisait environ 8 Mbps pour les contenus en 1080P. Avec x264/beamr, c’était déjà assez correct, et encore meilleur en HEVC. Mais après le COVID, tous les services de streaming ont réduit la qualité d’image en invoquant la hausse de la demande et les limites de bande passante. Depuis, les clients se sont habitués à cette qualité inférieure, et il semble peu probable que cela remonte. D’après des tests récents, on est plutôt entre 3 et 5 Mbps. Les codecs HEVC/AV1/AV2 permettent certes plus de 50 % de réduction de bitrate par rapport à H.264, mais au-delà de la plage 0,5~4 Mbps, les gains diminuent rapidement, et l’encodeur x264 peut même être meilleur à haut bitrate
Netflix n’est pas le seul à utiliser des bitrates moyens aussi bas, et cela varie selon les services. Si l’on regarde quelques exemples : Kate sur Netflix est à 11.15 Mbps, Andor sur Disney à 15.03 Mbps, Jack Ryan sur Amazon à 15.02 Mbps, The Last of Us sur Max à 19.96 Mbps, et For All Mankind sur Apple à 25.12 Mbps. Des chiffres plus détaillés et des comparaisons sont disponibles ici
Le piratage te conviendrait peut-être mieux, au final
C’est assez fascinant que les gens trouvent encore des moyens de réduire davantage la taille des vidéos. Je me demande si cela vient simplement d’idées plus ingénieuses, ou de la puissance de calcul accrue disponible pour l’encodage et le décodage
Les deux. À mesure que les formats évoluent, on peut appliquer des méthodes plus créatives ou mobiliser davantage de ressources de calcul. Par exemple, les changements entre images sont encodés par « superblocs » (similaires aux <a href="https://en.wikipedia.org/wiki/Macroblock">macroblocs</a>). Ces blocs estiment les variations en se référant à d’autres parties de l’image ou à l’image précédente. Plus on peut définir précisément la zone de changement, plus c’est efficace. Mais il faut aussi des données pour décrire la position des blocs, donc il existe des règles de contrainte visant à minimiser cette description. Dans AV2, la manière de définir les blocs a changé, ce qui facilite leur adaptation aux zones de variation, et la taille maximale des blocs a aussi doublé, ce qui permet de compresser plus efficacement les grands mouvements en réduisant le nombre de blocs. Il y a eu bien d’autres évolutions, et la créativité algorithmique des encodeurs continue elle aussi de progresser. Pour que ces avancées soient réellement exploitables, il faut néanmoins un consensus standard sur les transformations autorisées dans le bitstream, les techniques de prédiction, etc. Une vidéo de référence est disponible ici
Les brevets continuent de jouer un rôle important. Toute nouvelle technologie doit faire très attention à ne pas enfreindre des brevets existants. Il peut donc y avoir des astuces ou techniques qui ne peuvent pas être utilisées dans AV1/AV2
Il faut les deux. Les codecs modernes ont chacun des compromis différents entre la qualité d’image (PSNR, SSIM), la complexité de calcul (CPU vs DSP vs mémoire), le stockage, le bitrate, etc. Il n’existe donc pas de codec unique optimal pour toutes les situations
Je me demande quand les codecs à base d’IA générative arriveront réellement en production. Le concept est relativement simple : l’encodeur connaît exactement le modèle que le décodeur va utiliser, envoie seulement les pixels essentiels, puis le décodeur complète le reste avec l’IA. Par exemple, il pourrait générer des visages aléatoires dans une foule, ou recevoir davantage de données sur une zone donnée pour orienter la génération vers le visage d’une mascotte d’équipe précise. Si la compression va assez loin, il ne restera pratiquement plus une vidéo, mais seulement des données décrivant les scènes comme un script textuel
Je ne connais pas très bien les détails d’AV2, mais lors du passage de H.265 à H.266, le nombre d’angles de prédiction angulaire a doublé, des outils permettant de prédire la chroma à partir de la luma, la copie de blocs de pixels, et diverses autres techniques ont été ajoutés rien que pour la prédiction intra. La prédiction inter a elle aussi énormément progressé. Tout cela consomme beaucoup de logique matérielle et de surface de silicium dans les décodeurs matériels, mais les gains en réduction de bitrate sont importants. Du point de vue d’un décodeur CPU, la charge de calcul supplémentaire n’est pas si élevée. Le vrai coût se situe côté encodage. Pour maximiser l’efficacité de compression, il faut choisir parmi beaucoup plus d’outils de prédiction, ce qui augmente le temps d’encodage. C’est pourquoi Google ne réserve l’encodage AV1 qu’aux vidéos ayant énormément de vues
Comme il s’agit cette fois d’un deuxième lancement, j’espère que ce sera plus solide. Une session en direct est prévue à l’AOM le 20 octobre, et j’ai hâte d’y être. Il devrait y être question de davantage de données et de chiffres, de la complexité d’encodage/décodage, de la feuille de route des décodeurs matériels, de la conformité de la spécification et des kits de test, des profils futurs, des améliorations d’AVIF et d’AV2, ainsi que d’une comparaison avec JPEG-XL. Je me demande si les 30 % de BDRATE sont mesurés par rapport au dernier encodeur AV1 ou à la version 1.0. Il y aura peut-être aussi des annonces sur les progrès de l’encodage live
Une réduction de 30 % par rapport à AV1, c’est dingue. On a l’impression qu’il vient juste de sortir, alors qu’il date de 2019
Je n’ai utilisé mon premier appareil avec support matériel AV1 que l’an dernier. Il y a toujours un revers à l’évolution rapide des codecs : soit il faut conserver les contenus en permanence dans plusieurs formats, soit le client doit faire du décodage logiciel, ce qui vide la batterie. YouTube préfère clairement la seconde option
C’est tellement impressionnant que ça en devient presque suspect. Si c’est vrai, c’est vraiment remarquable
Le travail d’implémentation et d’optimisation des codecs a probablement été l’une des choses les plus amusantes de ma vie. J’aimerais vraiment explorer AV2 en profondeur, mais je n’ai pas le temps en ce moment
Enfin un codec qui n’a pas un nom du type AVI, ça fait plaisir
Toute cette fibre optique ultra-rapide finit par ne plus servir à grand-chose...
Dans la majeure partie du monde, les gens consomment encore les données et la vidéo principalement via les réseaux mobiles
Oui. Heureusement, je suis encore dans la période de retour de ma carte microSD 1 To
On pourrait bientôt voir arriver le streaming de contenus 8K, ou l’utiliser pour de la vidéo VR 16K
L’idéal est de viser à la fois l’efficacité maximale et la disponibilité maximale. C’est un principe qui devrait aussi s’appliquer à la puissance de calcul et au marché de l’énergie
Plus il y a de médias, plus la demande en débit augmente ; et plus le débit augmente, plus les médias prolifèrent : une boucle sans fin
Je pensais que le nom AV1 était un clin d’œil ou une blague en référence à AVI (audio video interlace), mais avec AV2 cet effet disparaît. AV1 a aussi l’extension de fichier
.av1et le type MIMEvideo/AV1, alors je me demande si avec AV2 il faudra tout dupliquer en.av2etvideo/AV2. Et je me demande aussi ce qu’il adviendra du format AVIFL’extension
.av1correspond à des données AV1 brutes. AV2 utilisera probablement.av2, et les deux ne sont pas compatibles. En pratique, les flux vidéo sont placés dans des conteneurs comme Matroska (.mkv), WebM ou MP4, avec un code de type de codec spécifié (av01,av02). AVIF est lui aussi un conteneur ; même si son nom signifie AV1 image format, il pourrait en théorie être étendu à AV2. Pour que ce soit vraiment cohérent, il faudrait le renommer en AOMedia Video Image FormatTu veux dire que l’extension de fichier ne devrait refléter que le format du fichier, indépendamment du codec interne ? Historiquement, c’est justement ce genre de chose qui a déjà causé des problèmes. C’est pratique de savoir à partir de l’extension seule si un fichier pourra être lu
Est-ce que quelqu’un d’autre voit un message de blocage Cloudflare sur les formats AV1 ou AV2 ?
Je me demande quand arrivera un codec vidéo basé sur le gaussian splatting