5 points par GN⁺ 2025-01-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Janus-Pro : version améliorée d’un modèle unifié de compréhension et de génération multimodales
  • Il fait évoluer le modèle Janus existant avec les améliorations suivantes
    • stratégie d’entraînement optimisée
    • données d’entraînement étendues
    • passage à une plus grande échelle de modèle
  • Objectif : améliorer les performances en compréhension multimodale et en génération texte-image, tout en renforçant la stabilité de la génération

Principales améliorations de performance

Compréhension multimodale

  • Janus-Pro atteint le meilleur score, 79.2, sur le benchmark de compréhension multimodale MMBench
  • Il surpasse les modèles existants (Janus, TokenFlow, MetaMorph)
  • Il atténue les conflits entre compréhension et génération en séparant l’encodage visuel

Génération texte-image

  • Sur le benchmark GenEval, il dépasse notamment DALL-E 3 (67 %) et SD3-Medium (74 %) avec une précision de 80 %
  • Sur DPG-Bench, il obtient 84.19 points, avec de meilleures performances que tous les autres modèles

Structure du modèle et améliorations

Architecture du modèle

  • L’encodage visuel est séparé entre compréhension multimodale et génération
  • Utilisation d’un encodeur SigLIP pour extraire des caractéristiques sémantiques de haute dimension
  • Le décodeur d’image convertit les images en ID afin de les relier à l’entrée du LLM

Stratégie d’entraînement optimisée

  • Entraînement par étapes : amélioration de l’inefficacité de l’ancienne stratégie en 3 étapes
    • application d’un temps d’entraînement plus long sur les données ImageNet (Stage I)
    • concentration de l’entraînement uniquement sur des données texte-image (Stage II)
  • Ajustement des proportions de données : réduction de la part des données texte-image et renforcement des performances en compréhension multimodale

Extension des données et du modèle

  • Extension des données :
    • ajout de 90 millions d’échantillons pour la compréhension multimodale
    • renforcement des données de génération texte-image avec 70 millions de données esthétiques synthétiques
  • Extension du modèle :
    • passage de 1.5B à 7B, avec de fortes améliorations de l’efficacité d’entraînement et des performances

Expériences et évaluation

Comparaison des performances

  • Janus-Pro-7B affiche les meilleures performances parmi les modèles de taille équivalente
    • il dépasse de grands modèles comme TokenFlow-XL (13B) aussi bien en compréhension multimodale qu’en génération
  • La stabilité des images générées et leur qualité esthétique sont toutes deux améliorées

Limites

  • La faible résolution (384 × 384) reste limitée pour les tâches détaillées (OCR, etc.)
  • La génération texte-image manque encore de finesse dans les détails

Conclusion

  • Janus-Pro représente une avancée importante en matière de stratégie d’entraînement, de données et de taille de modèle
  • Il atteint les meilleures performances à la fois en compréhension multimodale et en génération texte-image
  • Une amélioration future de la résolution est prévue afin de traiter des tâches plus détaillées

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.