5 points par GN⁺ 2025-03-25 | 1 commentaires | Partager sur WhatsApp
  • En s’appuyant sur la série Qwen2.5-VL lancée en janvier, le modèle a été optimisé via l’apprentissage par renforcement, et un nouveau modèle VL de 32B de paramètres, Qwen2.5-VL-32B-Instruct, a été publié en open source sous licence Apache 2.0
  • Par rapport au modèle précédent, ce modèle VL 32B se distingue par :
    • Des réponses mieux alignées sur les préférences humaines : le style de sortie a été ajusté pour fournir des réponses plus détaillées et mieux structurées.
    • Raisonnement mathématique : la précision dans la résolution de problèmes mathématiques complexes a été fortement améliorée.
    • Compréhension et raisonnement d’image fins : la précision et l’analyse détaillée ont été renforcées dans des tâches comme le parsing d’images, la reconnaissance de contenu et le raisonnement logique visuel.

Performances

  • Grâce à un vaste benchmarking face aux derniers modèles de la même catégorie, Qwen2.5-VL-32B-Instruct dépasse des modèles de référence comme Mistral-Small-3.1-24B et Gemma-3-27B-IT, et surpasse également le plus grand Qwen2-VL-72B-Instruct.
  • Il présente notamment un avantage significatif sur des tâches multimodales complexes et à raisonnement en plusieurs étapes, comme MMMU, MMMU-Pro et MathVista.
  • Sur MM-MT-Bench, qui met l’accent sur l’évaluation subjective de l’expérience utilisateur, il affiche des performances nettement supérieures à Qwen2-VL-72B-Instruct.
  • Au-delà de ses capacités visuelles, il atteint aussi des performances de tout premier plan en pur texte à taille équivalente.

1 commentaires

 
GN⁺ 2025-03-25
Avis Hacker News
  • Grande journée pour la sortie de modèles chinois open source. DeepSeek-v3-0324 a été mis à jour et publié aujourd’hui sous licence MIT (auparavant, c’était une licence DeepSeek personnalisée)
  • J’avais utilisé Llama vision 3.2 il y a quelques mois, et j’avais été très déçu par la vitesse et la qualité des résultats. En cherchant des alternatives sur Hugging Face, je suis tombé sur Qwen. La différence de précision et de vitesse était énorme. Si on lui demande d’analyser une image et de répondre, on obtient avec une 4090 une réponse généralement correcte en une demi-seconde. Plus impressionnant encore, lorsqu’il extrait des noms d’entités d’une image, il fournit le nom complet même si celui-ci est tronqué (par exemple, si « Coca-C » apparaît faiblement en arrière-plan, il renvoie « Coca-Cola »). Il gère aussi très bien des entités peu connues ou connues seulement dans certaines régions. Depuis que j’utilise Qwen, je ne suis pas revenu à Llama ni à d’autres modèles de vision
  • Le modèle 32B est actuellement l’une de mes tailles de modèle préférées. Il est très puissant, tout en restant assez petit pour tourner sur un seul GPU ou sur un MacBook aux spécifications correctes (32 Go ou plus)
  • Ce modèle est maintenant disponible en plusieurs tailles dans MLX
    • Il s’exécute avec uv sans qu’il soit nécessaire d’installer une bibliothèque
    • J’ai téléchargé un modèle d’environ 18 Go et obtenu des résultats très impressionnants
  • C’est peut-être une question bête, mais je me demande comment OpenAI, Claude, etc. peuvent encore avoir une valorisation aussi élevée vu tous les modèles open source disponibles. Je ne dis pas qu’ils vont disparaître ou rétrécir, mais je m’interroge sur la raison d’une telle valeur
  • Les modèles open weight sortent tellement vite qu’il est difficile de suivre. Je me demande si quelqu’un maintient une liste pour savoir ce qui est « à jour » pour chaque modèle
  • Je me demande si quelqu’un sait quel impact le fait de rendre un modèle multimodal a sur ses capacités en texte. L’article affirme qu’il fonctionne aussi bien en texte pur, mais je me demande s’il existe une analyse de l’impact réel. Certains affirment même que cela améliore les performances en texte, mais sans données, j’ai du mal à le croire
  • J’aimerais mieux comprendre quelle taille de carte vidéo est nécessaire. D’après le lien HuggingFace, c’est du bfloat16, donc il faudrait sans doute au minimum 64 Go. Est-ce que le -7B pourrait tourner sur ma carte AMD de 16 Go ?
  • Qwen est développé par Alibaba Cloud (ce n’est mentionné nulle part dans le billet de blog)
  • Aujourd’hui Qwen, demain le nouveau modèle SOTA de Google, puis la semaine prochaine R2. On n’a pas encore atteint la limite