1 points par GN⁺ 2025-10-24 | 1 commentaires | Partager sur WhatsApp
  • Ovi, développé par Character AI, est un modèle d’IA capable de générer simultanément de l’audio et de la vidéo à partir d’une entrée texte ou image
  • Ovi combine une branche audio de 5B de paramètres entraînée en interne et une branche vidéo basée sur Wan2.2 afin de produire des contenus audiovisuels synchronisés de haute qualité
  • Le modèle a été entraîné en résolution 720×720, mais génère des résultats naturels aussi en 960×960 et au-delà, avec prise en charge de plusieurs ratios d’aspect (9:16, 16:9, etc.)
  • Il propose diverses options d’exécution et d’optimisation, dont une interface Gradio, l’intégration ComfyUI (WIP), l’inférence multi-GPU et la quantification qint8/fp8
  • Ce projet constitue un exemple récent des avancées en génération texte-vers-vidéo (T2V) et image-vers-vidéo (I2V), et pose un nouveau standard pour la génération fusionnée audio-vidéo

Présentation d’Ovi

  • Ovi est un modèle génératif cross-modal développé conjointement par Character AI et des chercheurs de Yale University, conçu pour générer simultanément un audio et une vidéo synchronisés à partir d’une entrée texte ou texte+image
    • Son architecture, baptisée « Twin Backbone Cross-Modal Fusion », repose sur un apprentissage parallèle puis une fusion des branches audio et vidéo
    • Le projet est dirigé par Weimin Wang, avec les contributions de Chetwin Low et Calder Katyal
  • Présenté comme un modèle proche de Veo-3, il s’appuie sur le dataset audio interne de Character AI pour préentraîner depuis zéro une branche audio de 5B de paramètres
  • Les vidéos générées ont par défaut une durée de 5 secondes, en 24 FPS et en 720×720, avec prise en charge de formats variés comme 9:16, 16:9 et 1:1

Fonctions et caractéristiques principales

  • 🎬 Génération vidéo+audio : génère simultanément l’audio et la vidéo à partir d’une entrée texte ou image
  • 🎵 Branche audio haute qualité : branche audio entraînée sur un vaste dataset audio construit en interne
  • 📝 Entrées flexibles : prise en charge du texte seul ou du couple texte+image
  • ⏱️ Génération de vidéos de 5 secondes : création de clips courts de 5 secondes à 24 FPS
  • 🎯 Prise en charge haute résolution : résultats naturels possibles en 960×960 et au-delà
    • Exemples fournis dans plusieurs ratios, dont 1280×704, 1504×608 et 1344×704
  • 🚀 Capacité d’upscaling : bien qu’entraîné en 720×720, le modèle conserve une cohérence temporelle et spatiale à plus haute résolution

Plateformes et démos disponibles

Entraînement et performances

  • Résolution d’entraînement : 720×720
  • Extension de résolution en inférence : prise en charge du 960×960 et de divers ratios d’aspect
  • Maintien de la cohérence temporelle : transitions naturelles entre les frames
  • Qualité de synchronisation audio-vidéo : synchronisation réglable via l’ajustement de l’échelle de guidage audio

Exécution et configuration

  • Procédure d’installation
    • Installation de PyTorch 2.6.0, Flash Attention et des dépendances de requirements.txt
    • Téléchargement des checkpoints avec download_weights.py (dont T5, VAE, MMAudio)
    • En présence de 24GB de VRAM GPU, utilisation possible des versions quantifiées fp8 ou qint8
  • Fichier de configuration d’inférence : ovi/configs/inference/inference_fusion.yaml
    • Principaux paramètres :
      • num_steps : nombre d’étapes de denoising (30 à 50)
      • audio_guidance_scale, video_guidance_scale : intensité de synchronisation audio/vidéo
      • sp_size : taille du parallélisme de séquence (à définir selon le nombre de GPU)
      • cpu_offload : mode d’économie de VRAM GPU
      • fp8 : exécution possible dans un environnement à 24GB de VRAM
  • Exemples d’exécution de l’inférence
    • GPU unique : python3 inference.py --config-file ...
    • Multi-GPU : torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Performances et besoins mémoire

  • Le modèle de base nécessite au minimum 32GB de VRAM, avec possibilité de descendre à 24GB en mode fp8
  • FlashAttention-3 améliore la vitesse de traitement lorsqu’il est activé
  • Avec le parallélisme de séquence, le temps de traitement se situe autour de 40 à 55 secondes sur 4 à 8 GPU
  • Le CPU offloading permet d’économiser de la VRAM, au prix d’une augmentation d’environ 20 secondes du temps de traitement

Exécution de l’interface Gradio

  • L’interface basée sur Gradio peut être lancée avec une commande simple
    • python3 gradio_app.py
    • Prise en charge de divers environnements via les options --cpu_offload, --use_image_gen, --qint8, --fp8
  • En mode I2V, le modèle de génération d’image pour produire la première frame est activé automatiquement

Structure des prompts et exemples

  • Text-to-Audio-Video (T2AV) : example_prompts/gpt_examples_t2v.csv
  • Image-to-Audio-Video (I2AV) : example_prompts/gpt_examples_i2v.csv
  • Utilisation de balises spéciales
    • ... : texte destiné à la conversion vocale
    • ... : description de la musique de fond et des effets sonores
  • Génération de prompts avec GPT
    • À partir des CSV d’exemple, on peut demander à GPT d’adapter les dialogues à un thème précis (par ex. « affrontement entre l’IA et l’humain »)
    • Le prompt modifié peut ensuite être injecté dans Ovi pour générer une vidéo thématique

Feuille de route (Todo List)

  • Publication prévue d’un article de recherche et d’un site de démo
  • Publication des checkpoints du modèle 11B et du code d’inférence multi-GPU
  • Implémentation prévue des poids fp8, d’une meilleure efficacité du parallélisme de séquence et de l’inférence avec sharding FSDP
  • Travaux en cours sur le fine-tuning avec des données haute résolution et l’amélioration des performances basée sur le RL
  • Développement prévu de la génération de vidéos longues, du conditionnement par voix de référence et d’un modèle distillé pour accélérer l’inférence

Remerciements techniques et collaboration

  • Wan2.2 : utilisé pour l’initialisation de la branche vidéo
  • MMAudio : réutilisé pour l’audio VAE
  • Contributeurs : @rkfg (optimisation fp8), @gluttony-10 (quantification qint8)
  • Propositions de collaboration et contact : possibilité de contacter Weimin Wang

Informations de citation

  • Article : Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
  • arXiv : https://arxiv.org/abs/2510.01284
  • BibTeX fourni, citation recommandée pour un usage de recherche

Métadonnées du projet

  • Licence : Apache-2.0
  • Répartition des langages : Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
  • Statistiques GitHub : ★955, forks 92, issues 20, PR 2
  • Développeurs : équipe Character AI, chercheurs de Yale University

1 commentaires

 
GN⁺ 2025-10-24
Avis sur Hacker News
  • Cela fait des mois que j’utilise des outils de génération par IA, et ce qui me surprend, c’est à quel point ils se fusionnent rapidement en une seule pile utilisable même sur une machine locale
    J’utilise Ovi depuis la semaine dernière, et c’est vraiment amusant. Les contenus générés par IA ressemblent un peu à une machine à sous : même avec un bon prompt, le résultat peut être raté, mais en lançant plusieurs essais, on finit par obtenir quelque chose d’exploitable
    J’ai produit avec I2V et T2V des vidéos à l’apparence et au son assez réalistes. T2V donne parfois un rendu qui rappelle la qualité TV des années 1990, mais cela renforce presque l’impression de réalisme
    En utilisant Flux SPRO comme source d’image, on obtient des vidéos assez réalistes. Mon GPU est une 5090, et il lui faut environ 4 à 5 minutes pour générer un clip de 5 secondes

  • Le modèle vidéo semble être basé sur Wan 2.2
    L’activité autour de Wan est très intense en ce moment, et je suis heureux de voir apparaître un modèle ouvert et flexible face aux modèles fermés soutenus par les énormes moyens d’OpenAI ou de Runway

    • Les modèles vidéo open source centrés sur la confidentialité proposés par VeniceAI constituent l’offre principale. Ovi prend en charge image→vidéo, Wan 2.1 image→vidéo, et Wan 2.2 texte→vidéo
      Wan 2.5 existe aussi, mais passe par un routage anonyme via des fournisseurs officiels. C’est bien moins cher que des options intermédiaires comme Kling, Veo ou Sora
    • La discussion associée a aussi été abordée dans le fil Wan – Open-source alternative to VEO 3
    • Et Google est aussi impliqué dans tout ça
  • J’ai travaillé autrefois sur Ovi de Nokia. À l’époque, Ovi était une sorte de GSuite pour les téléphones Nokia, et l’explication officielle était que « Ovi » signifiait porte en finnois, mais en interne, on plaisantait en disant que cela voulait dire jardin d’enfants en hongrois. Je n’ai pas trouvé l’origine du nom de cet Ovi-ci

    • J’ai moi aussi travaillé sur un projet lié à Ovi. Lors de réunions initiales au siège d’Helsinki, j’ai entendu des dirigeants dire qu’ils voulaient prendre Google pour concurrent, ce qui était une tentative assez audacieuse
      Mais l’ensemble s’est finalement effondré, plombé par l’absence de stratégie de marque et par une politique logicielle ratée sur les appareils. Je pense que tout s’est complètement arrêté vers 2013. J’avais déjà quitté l’entreprise à ce moment-là
  • Mes oreilles viennent sans doute de la génération d’avant AutoTune, donc je continue à entendre dans l’audio des traces de justesse parfaite et de compression dynamique
    Cela ressemble notamment à la voix du personnage Machine Head dans la série Invincible
    Cela dit, l’ensemble reste un excellent travail

  • Le projet en lui-même est intéressant, mais je ne vois toujours pas très bien l’utilité pratique des contenus audiovisuels génératifs
    Pour l’instant, cela semble apporter plus de complications que de bénéfices

  • À ce rythme, j’ai l’impression que d’ici quelques mois on pourrait voir des courts-métrages de haute qualité entièrement générés

    • Mais on verra probablement aussi des cas où des vies seront détruites par des abus liés aux deepfakes
    • On pourrait même voir apparaître un futur de soirées prompts, où des amis se réunissent, écrivent chacun des prompts puis regardent ensemble un film assemblé à partir de tout ça. Rien que d’y penser, ça me fait rire
    • Cela dit, je pense qu’un long-métrage a plus de chances d’arriver avant un court-métrage, parce qu’une vidéo courte est plus difficile à réussir parfaitement
  • Je me demandais si ces projets étaient liés entre eux, alors j’ai comparé ce fil et ce fil

    • Chaque fois qu’un nouveau modèle à poids ouverts sort, des opportunistes enregistrent des domaines à son nom pour essayer de monétiser le SEO
      De nos jours, les outils de coding IA rendent beaucoup plus facile l’automatisation de la génération de landing pages
  • Dans le cas d’I2V, avec un GPU NVIDIA 4070 ou supérieur et suffisamment de VRAM, on peut obtenir une ébauche exploitable en 1 à 2 minutes en 440x440
    Pour T2V, la qualité reste encore stable surtout à proximité de la résolution d’entraînement. Malgré cela, on obtient parfois de bons résultats aux résolutions connues de Wan
    Avec CUDA 12.8 ou plus, Torch 2.8 ou plus, et en utilisant SageAttention plutôt que Flash 2, la qualité s’améliore nettement

  • Développement intéressant, mais c’est regrettable qu’une entreprise comme CAI ait mis la main dessus
    Utiliser l’IA en visant des personnes jeunes et seules