AV1@Scale : l’éveil de la synthèse du grain film
(netflixtechblog.com)- Netflix a commencé à déployer à grande échelle la technologie AV1 Film Grain Synthesis (synthèse du grain film) auprès de ses abonnés dans le monde entier
- Cette fonctionnalité permet de préserver de façon plus réaliste le bruit et la texture cinématographique tout en améliorant l’efficacité de la compression vidéo
- AV1 FGS utilise deux techniques clés (restauration du motif, réglage de l’intensité) pour reproduire avec précision les caractéristiques du grain d’origine
- Cela permet à la fois une réduction du bitrate, une amélioration de la qualité vidéo et une meilleure expérience de visionnage
- Grâce à cette technologie, Netflix préserve l’intégrité artistique tout en améliorant l’efficacité des données sur davantage de contenus
AV1@Scale : l’éveil de la synthèse du grain film
Netflix adopte la synthèse du grain film et renforce la qualité vidéo pour des millions de personnes
- Netflix concrétise une innovation qui maximise l’efficacité des données tout en préservant la sensibilité artistique et le réalisme du grain film, grâce au déploiement à grande échelle des flux AV1 Film Grain Synthesis (FGS)
- Le grain film est un élément visuel important qui ajoute de la profondeur à la narration et renforce l’atmosphère ainsi que le réalisme des films classiques
- Cependant, les algorithmes de compression traditionnels avaient du mal à traiter et compresser efficacement un grain fortement aléatoire
# Comprendre la synthèse du grain film dans AV1
-
L’outil AV1 Film Grain Synthesis (FGS) utilise deux modèles principaux
- Motif de grain film : un modèle auto-régressif (AR) imite le motif du grain, et les coefficients AR sont estimés à partir de la différence (le bruit) entre la vidéo source et la vidéo débruitée
- À partir de ces coefficients, un template de bruit 64x64 est généré, puis des patchs aléatoires de 32x32 sont extraits à la lecture et fusionnés avec l’image reconstruite
- Cette méthode reproduit fidèlement les caractéristiques du bruit et les corrélations spatiales de la vidéo d’origine
- Intensité du grain film : une fonction de mise à l’échelle ajuste finement l’intensité du grain selon les conditions de luminosité
- Lors de l’encodage, la relation entre les valeurs des pixels et l’intensité du bruit est modélisée par une fonction linéaire par segments, puis l’intensité du grain est ajustée selon la luminosité et la couleur de la vidéo
- Cette méthode permet de restaurer plus précisément la texture de la vidéo d’origine
- Motif de grain film : un modèle auto-régressif (AR) imite le motif du grain, et les coefficients AR sont estimés à partir de la différence (le bruit) entre la vidéo source et la vidéo débruitée
-
La norme AV1 n’impose pas de méthode spécifique pour les techniques de débruitage, ce qui permet aux utilisateurs de choisir le débruiteur de leur choix
-
Après le débruitage, la vidéo (sans grain) est compressée puis transmise avec les paramètres de motif et d’intensité du grain
-
Côté lecteur, le grain est reconstruit selon une méthode basée sur des blocs, avec une implémentation optimisée pour les appareils grand public
# Efficacité de compression, qualité vidéo et bénéfices pour les spectateurs
- Avec l’activation d’AV1 FGS chez Netflix, il devient possible de proposer un streaming vidéo haute qualité qui conserve l’ambiance artistique des œuvres tout en obtenant une réduction du bitrate
- Des exemples concrets montrent qu’il est possible d’obtenir à la fois une meilleure qualité et une baisse de la consommation de données par rapport aux approches existantes
- FGS répond particulièrement bien aux contenus comportant beaucoup de traitements de filtre ou de grain ajouté, en conciliant efficacité des données et préservation de la texture d’origine
# Résumé
- AV1 Film Grain Synthesis (synthèse du grain film) est une technologie qui permet de concilier intégrité artistique, amélioration de l’expérience de visionnage et optimisation de l’efficacité du streaming
- Grâce à son déploiement à grande échelle, Netflix peut diffuser davantage d’œuvres avec un équilibre entre qualité et réduction des données
- Des films classiques aux vidéos contemporaines, cette approche permet ainsi de réunir texture émotionnelle et efficacité technique
1 commentaires
Commentaires Hacker News
Je pense que cette discussion passe à côté d’un point essentiel : le bruit synthétique ne peut pas reproduire parfaitement les informations fines et les détails présents dans le bruit d’origine. Quand un encodage haute qualité contient du vrai bruit, on ressent souvent une nette hausse de résolution lorsqu’on passe d’une image fixe à la vidéo. À 24 fps, le bruit semble bouger au-dessus du signal, tandis que le signal lui-même reste net. En revanche, si une compression avec pertes ou un bruit synthétique est appliqué image par image, les détails d’origine sont irrécupérables. Sur une vraie vidéo 24 fps, on perçoit alors davantage de flou, et sur de vieux films la différence de détail peut être plus que doublée. Si h.265 ou AV1 encodait toujours en tenant compte de plusieurs images pour ne retirer que le bruit en fonction du mouvement, il n’y aurait pas de perte de détail, mais je ne sais pas si c’est réellement ainsi que cela fonctionne. On ne peut pas juger suppression du bruit vs synthèse à partir d’images fixes ; il faut comparer des vidéos réelles côte à côte. Le bruit est aussi, en soi, une forme de détail.
À mon avis, le grain (le motif de bruit) existe indépendamment à chaque image et ne se déplace pas avec les objets de la scène ; donc tant que le bruit synthétique n’a pas de motif temporel évident, une comparaison sur image fixe suffit. D’un point de vue esthétique, le grain synthétique d’AV1 ne reflète pas correctement la taille du grain source, donc les gros cristaux des vieux films ressortent mal, et les canaux de couleur ne sont pas modélisés séparément ; cela dit, comme les sources Netflix sont de toute façon en chroma subsampling, ce n’est peut-être pas si important. Le papier associé est ici. Je n’ai lu ça qu’assez superficiellement, donc je peux me tromper.
Pour expliquer l’aspect temporel, on peut penser aux vieux projecteurs de films. Entre chaque image, il y a un instant sombre, mais l’œil perçoit à peine ce clignotement et le moyenne (flicker fusion threshold). Le bruit et le grain sont perçus un peu de la même manière, donc ils ressortent moins qu’un signal stable. En astrophotographie aussi, on combine plusieurs images pour obtenir un meilleur SNR, et le cerveau humain traite un peu les choses ainsi. Le bruit converge vers une moyenne dans le temps, ce qui fait davantage ressortir le signal. Un algorithme de débruitage qui traite chaque image seule n’a pas ce contexte, donc il perd du détail ou compense par conjecture. AV1 ne prescrit pas d’algorithme de débruitage particulier, donc un algorithme intelligent pourrait sans doute bien préserver ce contexte temporel.
Le bruit lui-même ne contient pas de signal ; c’est un parasite aléatoire ajouté au signal, pas de l’information. Si on moyenne plusieurs images statiques, le signal reste tandis que le bruit s’annule, ce qui améliore le SNR ; de ce point de vue, conserver volontairement le bruit n’a pas beaucoup de sens. S’il y a un effet visible, il vient peut-être du plaisir esthétique lié au grain d’origine, ou bien d’une comparaison entre une vidéo à faible bitrate (fortement compressée) avec artefacts et une vidéo à haut bitrate (plus fidèle à la source).
Je trouve cette partie vraiment fascinante. Le machine learning aussi arrive parfois à mieux analyser que l’humain des vidéos tournées de nuit, et même le bruit du capteur peut servir de feature. Cela souligne bien que le bruit n’est pas seulement du bruit.
Les Blu-ray 4K récents utilisent la technologie DRR, et il arrive qu’au cours du débruitage jusqu’aux pores du visage disparaissent, donnant aux acteurs une apparence cireuse.
En laissant de côté la signification philosophique de l’ajout de bruit, dans cet exemple le débruitage applique clairement trop de flou : c’est moins net que l’original, et le grain synthétique lui-même ressemble davantage à du bruit qu’à un vrai grain de pellicule.
Je pense aussi que c’est vrai. Tant qu’on n’atteint pas un haut bitrate, la compression dépense au contraire trop de bits pour le grain d’origine, ce qui rend l’image plus floue ou plus boueuse. La synthèse de grain de pellicule (FGS) est assez raisonnable pour le streaming à bande passante limitée, mais je suis d’accord pour dire que, dans les exemples montrés, le grain synthétique ne ressemble pas à du vrai grain. Selon le degré et la méthode de débruitage, le détail de la scène peut clairement être dégradé.
En post-production cinéma, on a toujours utilisé toutes sortes d’astuces. J’aimerais qu’il existe une option permettant au spectateur de choisir d’appliquer ou non l’effet voulu (par exemple une simulation de pellicule). Dans un film comme The Holdovers, qui cherche à recréer une époque précise, la simulation de pellicule m’a semblé vraiment superbe. J’imagine aussi que Netflix finira par faire traiter davantage de post-effets côté client, par exemple avec un mode pour daltoniens ou la possibilité de désactiver le grain artificiel.
Le FGS d’AV1 permet de régler le niveau, et à mes yeux il semble un peu trop élevé ici (même si, selon le contexte de bitrate, cela peut rester bien plus agréable que d’autres artefacts). À noter aussi qu’une scène fixe a ses limites pour évaluer la qualité vidéo, et que même un filtre théoriquement parfait de suppression du bruit — conservant 100 % du détail non bruité — peut paraître moins détaillé que l’original. Le cerveau et les yeux ont tendance à « créer » davantage de détail lorsqu’ils regardent une image bruitée.
Le film emblématique sur ce thème est Blowup d’Antonioni. Wikipédia de Blowup
Pour avoir observé de près de la pellicule de cinéma, je trouve que le grain de l’exemple vidéo est assez éloigné de la réalité. Au final, cela ressemble surtout à une forme de dithering.
Le point le plus important ici, c’est le « at scale ». Jusqu’à présent, la synthèse de grain de pellicule existait bien dans les encodeurs AV1, mais il fallait ajuster les paramètres à la main à chaque fois pour éviter les problèmes, donc l’usage réel restait limité à certains contenus. L’article n’explique pas en détail comment cette méthode surmonte cette difficulté, mais le fait qu’elle soit désormais exploitable à grande échelle est une bonne nouvelle.
À propos de la vision négative du grain de pellicule : toute image contient un certain niveau de bruit ou de grain. C’est vrai même avec les meilleurs capteurs numériques, et même avec nos yeux. Ce n’est pas seulement esthétique : cela peut aussi renforcer la perception de netteté et masquer le banding ou les artefacts de compression. Bien sûr, tout grain n’est pas forcément bon, et il résulte parfois de limites techniques ou de mauvais choix créatifs. Malgré cela, je trouve qu’un résultat où toutes les vidéos sont débruitées et lissées est encore plus irréaliste et plus désagréable.
Le grain des capteurs numériques avancés est aujourd’hui négligeable comparé à ce qui est ajouté dans les films modernes.
Mon problème est que l’application ou non du grain devrait relever d’une décision artistique du créateur, pas du choix arbitraire d’un groupe chargé de la compression des données.
L’animation d’introduction de HBO exploite le bruit des anciens signaux analogiques de diffusion, et même en 4K la qualité est catastrophique. Le bruit aléatoire est presque impossible à compresser, donc une méthode comme celle-ci — suppression puis restauration du bruit — devient indispensable.
Je ne suis pas d’accord avec l’idée que « le grain donne du réalisme et ajoute de la profondeur au récit ». Moi, je ne vois rien de tel dans le grain, donc la logique « réalité = grain » ne me parle pas. Cela dit, en tant qu’outil esthétique, je trouve le grain intéressant, et j’ai trouvé cette technologie elle aussi intéressante.
L’article évoque l’effet de masquage du grain (cacher les artefacts) ainsi que l’habitude et la nostalgie, mais il y a une autre explication. Toutes les surfaces du réel ont une microtexture ; lorsqu’on les enregistre en vidéo, une partie de ce détail disparaît à cause de la caméra, de la résolution, des limites de compression, etc. Le grain de pellicule réintroduit ce type de stimulation visuelle haute fréquence. L’œil et le cerveau apprécient cette stimulation en elle-même, sans trop se soucier de la position ou du motif exact du bruit. Par exemple, les paramètres
psy-rdetpsy-rdoqde l’encodeur x265 permettent d’ajuster l’image pour qu’elle « conserve de l’énergie » (donc une légère rugosité) et paraisse meilleure sans consommer plus de données.Dans la nuit noire, on peut aussi percevoir avec nos yeux une sorte de « scintillement » ou de « statique », et techniquement l’œil humain comporte lui aussi un peu de bruit. L’impression de réalité est définie par les traces de la technologie d’une époque. Comme les coups de pinceau chez Vincent van Gogh font partie du tableau, le grain de pellicule fait partie de la réalité de ce médium ; si possible, on cherche donc à en préserver au maximum la trace.
Les gens aiment rationaliser logiquement leurs goûts esthétiques. Plus leur expérience et leur compréhension des médias sont élevées, plus ils sont sensibles à ce genre de variations fines, et cela influence leurs préférences. Un enfant réagira au contenu d’une vieille comédie muette sans se soucier des propriétés de la pellicule. À l’inverse, un expert devient plus sensible à ce genre de détail. Le fait même que le grain de pellicule paraisse « réel » est aussi le produit d’une expérience sociale et d’une conscience de soi propres à une époque. Dans 40 ans, on considérera peut-être le grain de cinéma comme quelque chose de surréel, ou simplement comme du « bruit ».
À mon avis, le grain donne à l’image une impression de détail supérieure à la réalité et masque aussi les artefacts de compression ou le flou. Je ne sais pas trop pour les facteurs psychologiques, mais il semble bien qu’il apporte une composante haute fréquence supplémentaire, ou un effet proche du dithering. Il y a bien du grain dans l’œil humain à cause de phénomènes quantiques, mais le cerveau le filtre fortement, donc nous ne le percevons pas.
À l’époque où les caméras numériques se généralisaient, l’image numérique paraissait artificielle, et il était courant de juger les films tournés sur pellicule plus beaux. Les cinéphiles attachés aux classiques y ont sans doute contribué. Au final, je pense que c’est un outil esthétique utile quand on veut réduire la sensation de netteté.
Le codec audio AMR-WB des appels téléphoniques prend officiellement en charge de 50 Hz à 7 000 Hz, mais à 12,65 Kbps — le mode le plus répandu — il ne stocke en pratique que jusqu’à 6 400 Hz, puis reconstruit la partie supérieure à partir des basses fréquences plus du bruit synthétique. Cela sonne bien plus naturel qu’une simple coupure nette sans bruit.
En tant que photographe sur appareil mirrorless, j’essaie toujours de créer un rendu particulier en post-traitement. Par exemple, je ferme au maximum le diaphragme et j’utilise de façon agressive le débruitage, le sharpening et l’étalonnage. Si mes photos donnent l’impression de sortir d’un vieux livre, je le prends positivement. J’ai essayé divers filtres « film look », mais je n’ai encore jamais trouvé de filtre qui reproduise vraiment le style de grain de pellicule que j’ai en tête : des cristaux irréguliers, comme des pixels non uniformes déjà présents sur le film avant la prise de vue. La plupart produisent plutôt un grain carré de type pixel, peu convaincant.
Je ne suis pas d’accord avec l’idée que « le grain de pellicule ajoute une sensation d’authenticité et de nostalgie ». De mon point de vue, ce n’est qu’un bruit visuel qui masque les détails. La nostalgie vient des acteurs ou de mes souvenirs de l’époque, pas du grain en lui-même. Et l’argument du « réalisme » me paraît lui aussi peu réaliste. Le fait qu’AV1 permette de ne pas gaspiller des bits pour ce déchet visuel, tout en pouvant le synthétiser ou le supprimer facilement et avec souplesse, me semble positif.
Un documentaire peut viser la « reproduction du réel », mais dans un film, c’est la vision du réalisateur qui prime. Le grain peut alors être vu comme un élément artistique, au même titre que la musique, pour construire l’émotion et l’atmosphère.
Physiquement, l’éclairage et la prise de vue comportent déjà du shot noise, donc il n’existe pas de réalité « parfaitement sans bruit ». Voir Shot noise sur Wikipédia.
Je ne pense pas que ses avantages aient été très bien expliqués, mais en pratique le grain renforce bien l’impression de netteté et de détail de l’image — même si c’est en partie une illusion — et le directeur de la photographie Steve Yedlin dit aussi que cela « donne quelque chose à saisir à l’œil du spectateur ».
Je pense que, dans le cinéma, la distinction entre « bruit » et « détail » relève largement d’une interprétation subjective. Et il existe aujourd’hui bien d’autres formes de bruit visuel dues aux techniques modernes de compression vidéo.
Beaucoup de gens passent à côté d’un point essentiel : si on supprime le bruit avant compression, l’efficacité de compression augmente énormément. À bitrate égal, si on compresse en laissant le bruit, les détails et les contours sont bien plus abîmés. C’est un principe utilisé depuis longtemps même dans les lecteurs multimédias sur desktop.
Je pense qu’il est temps de se débarrasser du grain de pellicule. L’époque des photos sépia et des films muets à 16 fps est terminée, et celle du grain devrait l’être aussi. Eastman Business Park a été démoli. J’aimerais aussi ne plus voir d’effets de poussière et de rayures sur les vidéos YouTube.
À la rigueur contre le faux grain de pellicule, pourquoi pas, mais vouloir supprimer complètement le grain revient un peu à vouloir effacer aussi les coups de pinceau d’une peinture à l’huile.
Je me demande pour quelle raison précise le grain de pellicule devrait absolument disparaître.