DeepSeek dévoile Janus Pro, un modèle de génération texte-vers-image [PDF]

(github.com/deepseek-ai)

5 points par GN⁺ 2025-01-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Janus-Pro : version améliorée d’un modèle unifié de compréhension et de génération multimodales
Il fait évoluer le modèle Janus existant avec les améliorations suivantes
- stratégie d’entraînement optimisée
- données d’entraînement étendues
- passage à une plus grande échelle de modèle
Objectif : améliorer les performances en compréhension multimodale et en génération texte-image, tout en renforçant la stabilité de la génération

Principales améliorations de performance

Compréhension multimodale

Janus-Pro atteint le meilleur score, 79.2, sur le benchmark de compréhension multimodale MMBench
Il surpasse les modèles existants (Janus, TokenFlow, MetaMorph)
Il atténue les conflits entre compréhension et génération en séparant l’encodage visuel

Génération texte-image

Sur le benchmark GenEval, il dépasse notamment DALL-E 3 (67 %) et SD3-Medium (74 %) avec une précision de 80 %
Sur DPG-Bench, il obtient 84.19 points, avec de meilleures performances que tous les autres modèles

Structure du modèle et améliorations

Architecture du modèle

L’encodage visuel est séparé entre compréhension multimodale et génération
Utilisation d’un encodeur SigLIP pour extraire des caractéristiques sémantiques de haute dimension
Le décodeur d’image convertit les images en ID afin de les relier à l’entrée du LLM

Stratégie d’entraînement optimisée

Entraînement par étapes : amélioration de l’inefficacité de l’ancienne stratégie en 3 étapes
- application d’un temps d’entraînement plus long sur les données ImageNet (Stage I)
- concentration de l’entraînement uniquement sur des données texte-image (Stage II)
Ajustement des proportions de données : réduction de la part des données texte-image et renforcement des performances en compréhension multimodale

Extension des données et du modèle

Extension des données :
- ajout de 90 millions d’échantillons pour la compréhension multimodale
- renforcement des données de génération texte-image avec 70 millions de données esthétiques synthétiques
Extension du modèle :
- passage de 1.5B à 7B, avec de fortes améliorations de l’efficacité d’entraînement et des performances

Expériences et évaluation

Comparaison des performances

Janus-Pro-7B affiche les meilleures performances parmi les modèles de taille équivalente
- il dépasse de grands modèles comme TokenFlow-XL (13B) aussi bien en compréhension multimodale qu’en génération
La stabilité des images générées et leur qualité esthétique sont toutes deux améliorées

Limites

La faible résolution (384 × 384) reste limitée pour les tâches détaillées (OCR, etc.)
La génération texte-image manque encore de finesse dans les détails

Conclusion

Janus-Pro représente une avancée importante en matière de stratégie d’entraînement, de données et de taille de modèle
Il atteint les meilleures performances à la fois en compréhension multimodale et en génération texte-image
Une amélioration future de la résolution est prévue afin de traiter des tâches plus détaillées

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.