- Une nouvelle approche générative pour la complétion d’image, développée par Google Research et l’université Cornell
- RealFill vise à créer des images plus réalistes en remplissant les parties manquantes d’une image avec le contenu qui devrait s’y trouver à l’origine
- Le modèle est personnalisé à l’aide de quelques images de référence, qui n’ont pas besoin de correspondre exactement à l’image cible et peuvent varier en point de vue, conditions d’éclairage, ouverture de l’appareil photo ou style d’image
- RealFill surpasse nettement les approches existantes sur un nouveau benchmark de complétion d’image couvrant des scénarios variés et difficiles
- Le processus consiste à affiner un modèle de diffusion d’inpainting préentraîné sur les images de référence et l’image cible, afin qu’il apprenne le contenu, l’éclairage et le style de la scène de l’image d’entrée
- Le modèle affiné est ensuite utilisé pour remplir les zones manquantes de l’image cible via un processus standard d’échantillonnage par diffusion
- RealFill génère des images de haute qualité, fidèles à la scène d’origine et visuellement attrayantes, même lorsque les différences entre la référence et la cible sont importantes
- Les limites de RealFill incluent un processus d’affinage basé sur les gradients relativement lent, ainsi que des difficultés à reconstruire une scène 3D lorsque le changement de point de vue entre les images de référence et cible est très important
- RealFill rencontre aussi des difficultés sur des cas complexes pour des modèles de base préentraînés comme Stable Diffusion
1 commentaires
Avis Hacker News