Ovi - Fusion cross-modale à double backbone pour la génération audio-vidéo

(github.com/character-ai)

1 points par GN⁺ 2025-10-24 | 1 commentaires | Partager sur WhatsApp

Ovi, développé par Character AI, est un modèle d’IA capable de générer simultanément de l’audio et de la vidéo à partir d’une entrée texte ou image
Ovi combine une branche audio de 5B de paramètres entraînée en interne et une branche vidéo basée sur Wan2.2 afin de produire des contenus audiovisuels synchronisés de haute qualité
Le modèle a été entraîné en résolution 720×720, mais génère des résultats naturels aussi en 960×960 et au-delà, avec prise en charge de plusieurs ratios d’aspect (9:16, 16:9, etc.)
Il propose diverses options d’exécution et d’optimisation, dont une interface Gradio, l’intégration ComfyUI (WIP), l’inférence multi-GPU et la quantification qint8/fp8
Ce projet constitue un exemple récent des avancées en génération texte-vers-vidéo (T2V) et image-vers-vidéo (I2V), et pose un nouveau standard pour la génération fusionnée audio-vidéo

Présentation d’Ovi

Ovi est un modèle génératif cross-modal développé conjointement par Character AI et des chercheurs de Yale University, conçu pour générer simultanément un audio et une vidéo synchronisés à partir d’une entrée texte ou texte+image
- Son architecture, baptisée « Twin Backbone Cross-Modal Fusion », repose sur un apprentissage parallèle puis une fusion des branches audio et vidéo
- Le projet est dirigé par Weimin Wang, avec les contributions de Chetwin Low et Calder Katyal
Présenté comme un modèle proche de Veo-3, il s’appuie sur le dataset audio interne de Character AI pour préentraîner depuis zéro une branche audio de 5B de paramètres
Les vidéos générées ont par défaut une durée de 5 secondes, en 24 FPS et en 720×720, avec prise en charge de formats variés comme 9:16, 16:9 et 1:1

Fonctions et caractéristiques principales

🎬 Génération vidéo+audio : génère simultanément l’audio et la vidéo à partir d’une entrée texte ou image
🎵 Branche audio haute qualité : branche audio entraînée sur un vaste dataset audio construit en interne
📝 Entrées flexibles : prise en charge du texte seul ou du couple texte+image
⏱️ Génération de vidéos de 5 secondes : création de clips courts de 5 secondes à 24 FPS
🎯 Prise en charge haute résolution : résultats naturels possibles en 960×960 et au-delà
- Exemples fournis dans plusieurs ratios, dont 1280×704, 1504×608 et 1344×704
🚀 Capacité d’upscaling : bien qu’entraîné en 720×720, le modèle conserve une cohérence temporelle et spatiale à plus haute résolution

Plateformes et démos disponibles

Génération texte→vidéo et image→vidéo sur Wavespeed.ai
- https://wavespeed.ai/models/character-ai/ovi/image-to-video
- https://wavespeed.ai/models/character-ai/ovi/text-to-video
Démo également disponible sur HuggingFace Spaces
- https://huggingface.co/spaces/akhaliq/Ovi
Intégration ComfyUI (WIP) : possibilité d’intégrer le modèle Ovi dans un workflow via ComfyUI-WanVideoWrapper

Entraînement et performances

Résolution d’entraînement : 720×720
Extension de résolution en inférence : prise en charge du 960×960 et de divers ratios d’aspect
Maintien de la cohérence temporelle : transitions naturelles entre les frames
Qualité de synchronisation audio-vidéo : synchronisation réglable via l’ajustement de l’échelle de guidage audio

Exécution et configuration

Procédure d’installation
- Installation de PyTorch 2.6.0, Flash Attention et des dépendances de requirements.txt
- Téléchargement des checkpoints avec download_weights.py (dont T5, VAE, MMAudio)
- En présence de 24GB de VRAM GPU, utilisation possible des versions quantifiées fp8 ou qint8
Fichier de configuration d’inférence : ovi/configs/inference/inference_fusion.yaml
- Principaux paramètres :
  - num_steps : nombre d’étapes de denoising (30 à 50)
  - audio_guidance_scale, video_guidance_scale : intensité de synchronisation audio/vidéo
  - sp_size : taille du parallélisme de séquence (à définir selon le nombre de GPU)
  - cpu_offload : mode d’économie de VRAM GPU
  - fp8 : exécution possible dans un environnement à 24GB de VRAM
Exemples d’exécution de l’inférence
- GPU unique : python3 inference.py --config-file ...
- Multi-GPU : torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Performances et besoins mémoire

Le modèle de base nécessite au minimum 32GB de VRAM, avec possibilité de descendre à 24GB en mode fp8
FlashAttention-3 améliore la vitesse de traitement lorsqu’il est activé
Avec le parallélisme de séquence, le temps de traitement se situe autour de 40 à 55 secondes sur 4 à 8 GPU
Le CPU offloading permet d’économiser de la VRAM, au prix d’une augmentation d’environ 20 secondes du temps de traitement

Exécution de l’interface Gradio

L’interface basée sur Gradio peut être lancée avec une commande simple
- python3 gradio_app.py
- Prise en charge de divers environnements via les options --cpu_offload, --use_image_gen, --qint8, --fp8
En mode I2V, le modèle de génération d’image pour produire la première frame est activé automatiquement

Structure des prompts et exemples

Text-to-Audio-Video (T2AV) : example_prompts/gpt_examples_t2v.csv
Image-to-Audio-Video (I2AV) : example_prompts/gpt_examples_i2v.csv
Utilisation de balises spéciales
- ... : texte destiné à la conversion vocale
- ... : description de la musique de fond et des effets sonores
Génération de prompts avec GPT
- À partir des CSV d’exemple, on peut demander à GPT d’adapter les dialogues à un thème précis (par ex. « affrontement entre l’IA et l’humain »)
- Le prompt modifié peut ensuite être injecté dans Ovi pour générer une vidéo thématique

Feuille de route (Todo List)

Publication prévue d’un article de recherche et d’un site de démo
Publication des checkpoints du modèle 11B et du code d’inférence multi-GPU
Implémentation prévue des poids fp8, d’une meilleure efficacité du parallélisme de séquence et de l’inférence avec sharding FSDP
Travaux en cours sur le fine-tuning avec des données haute résolution et l’amélioration des performances basée sur le RL
Développement prévu de la génération de vidéos longues, du conditionnement par voix de référence et d’un modèle distillé pour accélérer l’inférence

Remerciements techniques et collaboration

Wan2.2 : utilisé pour l’initialisation de la branche vidéo
MMAudio : réutilisé pour l’audio VAE
Contributeurs : @rkfg (optimisation fp8), @gluttony-10 (quantification qint8)
Propositions de collaboration et contact : possibilité de contacter Weimin Wang

Informations de citation

Article : Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
arXiv : https://arxiv.org/abs/2510.01284
BibTeX fourni, citation recommandée pour un usage de recherche

Métadonnées du projet

Licence : Apache-2.0
Répartition des langages : Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
Statistiques GitHub : ★955, forks 92, issues 20, PR 2
Développeurs : équipe Character AI, chercheurs de Yale University

1 commentaires

GN⁺ 2025-10-24

Avis sur Hacker News

Cela fait des mois que j’utilise des outils de génération par IA, et ce qui me surprend, c’est à quel point ils se fusionnent rapidement en une seule pile utilisable même sur une machine locale
J’utilise Ovi depuis la semaine dernière, et c’est vraiment amusant. Les contenus générés par IA ressemblent un peu à une machine à sous : même avec un bon prompt, le résultat peut être raté, mais en lançant plusieurs essais, on finit par obtenir quelque chose d’exploitable
J’ai produit avec I2V et T2V des vidéos à l’apparence et au son assez réalistes. T2V donne parfois un rendu qui rappelle la qualité TV des années 1990, mais cela renforce presque l’impression de réalisme
En utilisant Flux SPRO comme source d’image, on obtient des vidéos assez réalistes. Mon GPU est une 5090, et il lui faut environ 4 à 5 minutes pour générer un clip de 5 secondes
Le modèle vidéo semble être basé sur Wan 2.2
L’activité autour de Wan est très intense en ce moment, et je suis heureux de voir apparaître un modèle ouvert et flexible face aux modèles fermés soutenus par les énormes moyens d’OpenAI ou de Runway
- Les modèles vidéo open source centrés sur la confidentialité proposés par VeniceAI constituent l’offre principale. Ovi prend en charge image→vidéo, Wan 2.1 image→vidéo, et Wan 2.2 texte→vidéo
  Wan 2.5 existe aussi, mais passe par un routage anonyme via des fournisseurs officiels. C’est bien moins cher que des options intermédiaires comme Kling, Veo ou Sora
- La discussion associée a aussi été abordée dans le fil Wan – Open-source alternative to VEO 3
- Et Google est aussi impliqué dans tout ça
J’ai travaillé autrefois sur Ovi de Nokia. À l’époque, Ovi était une sorte de GSuite pour les téléphones Nokia, et l’explication officielle était que « Ovi » signifiait porte en finnois, mais en interne, on plaisantait en disant que cela voulait dire jardin d’enfants en hongrois. Je n’ai pas trouvé l’origine du nom de cet Ovi-ci
- J’ai moi aussi travaillé sur un projet lié à Ovi. Lors de réunions initiales au siège d’Helsinki, j’ai entendu des dirigeants dire qu’ils voulaient prendre Google pour concurrent, ce qui était une tentative assez audacieuse
  Mais l’ensemble s’est finalement effondré, plombé par l’absence de stratégie de marque et par une politique logicielle ratée sur les appareils. Je pense que tout s’est complètement arrêté vers 2013. J’avais déjà quitté l’entreprise à ce moment-là
Mes oreilles viennent sans doute de la génération d’avant AutoTune, donc je continue à entendre dans l’audio des traces de justesse parfaite et de compression dynamique
Cela ressemble notamment à la voix du personnage Machine Head dans la série Invincible
Cela dit, l’ensemble reste un excellent travail
Le projet en lui-même est intéressant, mais je ne vois toujours pas très bien l’utilité pratique des contenus audiovisuels génératifs
Pour l’instant, cela semble apporter plus de complications que de bénéfices
À ce rythme, j’ai l’impression que d’ici quelques mois on pourrait voir des courts-métrages de haute qualité entièrement générés
- Mais on verra probablement aussi des cas où des vies seront détruites par des abus liés aux deepfakes
- On pourrait même voir apparaître un futur de soirées prompts, où des amis se réunissent, écrivent chacun des prompts puis regardent ensemble un film assemblé à partir de tout ça. Rien que d’y penser, ça me fait rire
- Cela dit, je pense qu’un long-métrage a plus de chances d’arriver avant un court-métrage, parce qu’une vidéo courte est plus difficile à réussir parfaitement
Je me demandais si ces projets étaient liés entre eux, alors j’ai comparé ce fil et ce fil
- Chaque fois qu’un nouveau modèle à poids ouverts sort, des opportunistes enregistrent des domaines à son nom pour essayer de monétiser le SEO
  De nos jours, les outils de coding IA rendent beaucoup plus facile l’automatisation de la génération de landing pages
Dans le cas d’I2V, avec un GPU NVIDIA 4070 ou supérieur et suffisamment de VRAM, on peut obtenir une ébauche exploitable en 1 à 2 minutes en 440x440
Pour T2V, la qualité reste encore stable surtout à proximité de la résolution d’entraînement. Malgré cela, on obtient parfois de bons résultats aux résolutions connues de Wan
Avec CUDA 12.8 ou plus, Torch 2.8 ou plus, et en utilisant SageAttention plutôt que Flash 2, la qualité s’améliore nettement
Développement intéressant, mais c’est regrettable qu’une entreprise comme CAI ait mis la main dessus
Utiliser l’IA en visant des personnes jeunes et seules

Ovi - Fusion cross-modale à double backbone pour la génération audio-vidéo

Présentation d’Ovi

Fonctions et caractéristiques principales

Plateformes et démos disponibles

Entraînement et performances

Exécution et configuration

Performances et besoins mémoire

Exécution de l’interface Gradio

Structure des prompts et exemples

Feuille de route (Todo List)

Remerciements techniques et collaboration

Informations de citation

Métadonnées du projet

À lire aussi

1 commentaires

Avis sur Hacker News