- Janus-Pro : version améliorée d’un modèle unifié de compréhension et de génération multimodales
- Il fait évoluer le modèle Janus existant avec les améliorations suivantes
- stratégie d’entraînement optimisée
- données d’entraînement étendues
- passage à une plus grande échelle de modèle
- Objectif : améliorer les performances en compréhension multimodale et en génération texte-image, tout en renforçant la stabilité de la génération
Principales améliorations de performance
Compréhension multimodale
- Janus-Pro atteint le meilleur score, 79.2, sur le benchmark de compréhension multimodale MMBench
- Il surpasse les modèles existants (Janus, TokenFlow, MetaMorph)
- Il atténue les conflits entre compréhension et génération en séparant l’encodage visuel
Génération texte-image
- Sur le benchmark GenEval, il dépasse notamment DALL-E 3 (67 %) et SD3-Medium (74 %) avec une précision de 80 %
- Sur DPG-Bench, il obtient 84.19 points, avec de meilleures performances que tous les autres modèles
Structure du modèle et améliorations
Architecture du modèle
- L’encodage visuel est séparé entre compréhension multimodale et génération
- Utilisation d’un encodeur SigLIP pour extraire des caractéristiques sémantiques de haute dimension
- Le décodeur d’image convertit les images en ID afin de les relier à l’entrée du LLM
Stratégie d’entraînement optimisée
- Entraînement par étapes : amélioration de l’inefficacité de l’ancienne stratégie en 3 étapes
- application d’un temps d’entraînement plus long sur les données ImageNet (Stage I)
- concentration de l’entraînement uniquement sur des données texte-image (Stage II)
- Ajustement des proportions de données : réduction de la part des données texte-image et renforcement des performances en compréhension multimodale
Extension des données et du modèle
- Extension des données :
- ajout de 90 millions d’échantillons pour la compréhension multimodale
- renforcement des données de génération texte-image avec 70 millions de données esthétiques synthétiques
- Extension du modèle :
- passage de 1.5B à 7B, avec de fortes améliorations de l’efficacité d’entraînement et des performances
Expériences et évaluation
Comparaison des performances
- Janus-Pro-7B affiche les meilleures performances parmi les modèles de taille équivalente
- il dépasse de grands modèles comme TokenFlow-XL (13B) aussi bien en compréhension multimodale qu’en génération
- La stabilité des images générées et leur qualité esthétique sont toutes deux améliorées
Limites
- La faible résolution (384 × 384) reste limitée pour les tâches détaillées (OCR, etc.)
- La génération texte-image manque encore de finesse dans les détails
Conclusion
- Janus-Pro représente une avancée importante en matière de stratégie d’entraînement, de données et de taille de modèle
- Il atteint les meilleures performances à la fois en compréhension multimodale et en génération texte-image
- Une amélioration future de la résolution est prévue afin de traiter des tâches plus détaillées
Aucun commentaire pour le moment.