6 points par xguru 2025-02-14 | 2 commentaires | Partager sur WhatsApp
  • Goku est une nouvelle famille de modèles de génération d’images et de vidéos basée sur le "Rectified Flow Transformer", avec pour objectif d’atteindre des performances de tout premier plan dans l’industrie
  • Diverses optimisations ont été appliquées pour une génération visuelle de haute qualité, notamment dans la "sélection des données, la conception du modèle et la formulation du flow"
  • Principales caractéristiques
    • Génération précise d’images et de vidéos grâce à une sélection rigoureuse de données de haute qualité
    • Renforcement des interactions entre les tokens d’image et de vidéo à l’aide de la méthode Rectified Flow
    • Excellentes performances en génération d’images et de vidéos
  • Tâches de génération prises en charge
    • Texte → génération vidéo
    • Image → génération vidéo
    • Texte → génération d’image
  • Benchmarks de performance : scores élevés sur les principaux benchmarks
    • 0.76 (GenEval - texte → génération d’image)
    • 83.65 (DPG-Bench - texte → génération d’image)
    • 84.85 (VBench - texte → génération vidéo)
  • Goku-T2V a obtenu un score de 84.85 dans la comparaison de performances VBench, se classant 2e au 7 octobre 2024
    • Une performance supérieure à plusieurs modèles commerciaux de text-to-video (AnimateDiff-V2, OpenSora, Gen-3, Kling, etc.)

2 commentaires

 
kimhj 2025-02-14

ByteDance publie énormément d’articles scientifiques sur ces technologies ces derniers temps… j’ai l’impression qu’elles seront bientôt aussi appliquées à TikTok.

 
xguru 2025-02-14

Goku+: Video Ads Foundation Models

Les cas d’usage concrets présentés plus bas sont encore plus intéressants.

Il permet de créer des avatars marketing, ou de générer des clips vidéo à partir d’images de produits.
Ensuite, il s’en sert pour fusionner une personne et un produit afin de produire directement des vidéos de présentation produit.
On obtient ainsi sans difficulté des vidéos où l’on mange, où l’on porte des vêtements en marchant, ou encore où l’on se maquille et fait un shampooing.
J’imagine qu’il s’agit d’exemples particulièrement adaptés au social commerce chinois.