- En s’appuyant sur la série Qwen2.5-VL lancée en janvier, le modèle a été optimisé via l’apprentissage par renforcement, et un nouveau modèle VL de 32B de paramètres, Qwen2.5-VL-32B-Instruct, a été publié en open source sous licence Apache 2.0
- Par rapport au modèle précédent, ce modèle VL 32B se distingue par :
- Des réponses mieux alignées sur les préférences humaines : le style de sortie a été ajusté pour fournir des réponses plus détaillées et mieux structurées.
- Raisonnement mathématique : la précision dans la résolution de problèmes mathématiques complexes a été fortement améliorée.
- Compréhension et raisonnement d’image fins : la précision et l’analyse détaillée ont été renforcées dans des tâches comme le parsing d’images, la reconnaissance de contenu et le raisonnement logique visuel.
Performances
- Grâce à un vaste benchmarking face aux derniers modèles de la même catégorie, Qwen2.5-VL-32B-Instruct dépasse des modèles de référence comme Mistral-Small-3.1-24B et Gemma-3-27B-IT, et surpasse également le plus grand Qwen2-VL-72B-Instruct.
- Il présente notamment un avantage significatif sur des tâches multimodales complexes et à raisonnement en plusieurs étapes, comme MMMU, MMMU-Pro et MathVista.
- Sur MM-MT-Bench, qui met l’accent sur l’évaluation subjective de l’expérience utilisateur, il affiche des performances nettement supérieures à Qwen2-VL-72B-Instruct.
- Au-delà de ses capacités visuelles, il atteint aussi des performances de tout premier plan en pur texte à taille équivalente.
1 commentaires
Avis Hacker News