📝 TL;DR
- LTX-2 = nouveau standard des modèles open source multimodaux de génération vidéo
- Génération en temps réel de 4K + audio sur du matériel grand public
- Publication complète des poids du modèle + code + benchmarks fin novembre
- Créé par Lightricks, article arXiv déjà publié
🔑 Points clés
-
Premier modèle open source de génération audio-vidéo synchronisée
- Sora 2 et Movie Gen sont commerciaux / fermés, LTX-2 sera publié en open source complet fin novembre
- Génération de vidéos 4K à 50 fps, jusqu’à 10 secondes, avec audio synchronisé
-
Vitesse de génération plus rapide que le temps réel
- H100 : génération en seulement 2 secondes d’une vidéo de 5 secondes à 24 fps en 768x512
- Coût de calcul réduit de 50 % par rapport aux modèles existants
- Exécutable aussi sur des GPU grand public (RTX 4090, etc.)
-
Innovation de l’architecture hybride DiT
- Video-VAE : taux de compression de 1:192 (downscaling 32x32x8)
- Le décodeur VAE assure jusqu’au débruitage final → conservation de détails fins sans upsampling séparé
- Performances en temps réel obtenues via une stack d’inférence multi-GPU
-
Contrôle créatif fin
- Conditioning multi-keyframes, logique de caméra 3D
- Fine-tuning LoRA pour préserver la cohérence de style/de marque/IP
- Trois modes Fast/Pro/Ultra pour ajuster le compromis vitesse-qualité
-
Écosystème immédiatement exploitable
- Intégration déjà finalisée avec Fal.ai, Replicate et ComfyUI
- Test possible dans l’API Playground
- Prise en charge de l’intégration directe avec les outils d’édition, les stacks VFX et les moteurs de jeu
Aucun commentaire pour le moment.