Retour d’expérience sur le nouveau modèle de raisonnement visuel QvQ de Qwen
(simonwillison.net)- L’équipe d’Alibaba Qwen a annoncé le nouveau modèle de raisonnement visuel QvQ-72B-Preview.
- Il prend en entrée des images et des prompts pour effectuer un raisonnement détaillé.
- Il était initialement annoncé sous licence Apache 2.0, mais a depuis été changé pour la licence Qwen.
- Différences avec le modèle QwQ précédent
- QwQ se concentrait sur le raisonnement basé sur le texte et a été conçu avec un mécanisme censé refléter les limites de la réflexion.
- QvQ ajoute à cela une entrée visuelle pour effectuer une analyse approfondie à partir d’images.
Cas d’utilisation et tests de QvQ
- Le modèle QvQ est disponible sur Hugging Face Spaces.
- Lorsqu’une image et un prompt unique sont fournis, il génère une réponse très longue, et il n’est pas possible d’ajouter un prompt supplémentaire.
- Il analyse l’image d’entrée et explique progressivement le processus de raisonnement.
- Résultats des tests
- Comptage des pélicans : avec le prompt « Count the pelicans », il calcule le nombre de pélicans dans la photo
- Il a compté précisément 4 pélicans, en excluant les oiseaux partiellement visibles.
- Il explique le raisonnement dans un ton chaleureux et conversationnel.
- Puzzle ARC-AGI : il a relevé le défi de résoudre des problèmes complexes, mais n’a pas obtenu de résultat exact.
- Il a proposé une approche originale, notamment basée sur des automates cellulaires.
- Estimation de la hauteur d’un dinosaure (dragon) : il a tenté d’estimer la hauteur d’un dragon sans objet de comparaison.
- Il a proposé une hauteur d’environ 8 à 9 pieds, démontrant une observation fine.
- Comptage des pélicans : avec le prompt « Count the pelicans », il calcule le nombre de pélicans dans la photo
Exécution du modèle QvQ
-
Environnement hébergé
- Il est possible de tester avec les poids du modèle GPU sur Hugging Face Spaces.
- Utilisation du package Python qwen-vl-utils pour l’exécution.
-
Exécution locale
- Prince Canuma a converti le modèle pour le framework Apple MLX, qui peut être exécuté via le package mlx-vlm.
- Il a été exécuté avec succès sur macOS M2 avec 64 Go de RAM, en version quantifiée 4 bits.
- Commande d’exécution :
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- Commande d’exécution :
Changement de licence de QvQ
- La licence de QvQ est passée de Apache 2.0 à la licence Qwen.
- Cela semble être la correction d’une erreur initiale.
- Le modèle QwQ reste sous licence Apache 2.0.
- Une politique de licence différenciée entre les deux modèles est constatée.
Conclusion
- QvQ est un modèle de raisonnement visuel puissant combinant image et texte, qui génère des résultats intéressants dans de nombreux tests.
- Des mises à jour et de nouveaux usages sont attendus.
1 commentaires
Avis de Hacker News
Il explique comment exécuter le modèle
QVQ-72B-Preview-4bitsur un portable M2 avec 64 Go de RAM pour analyser des images.uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpgLe modèle est amusant.
Il a testé avec une grille de mots à trouver, mais le modèle QvQ a échoué.
Lorsqu’il a saisi la photo célèbre du « Tank Man », il a reçu une réponse vide.
Le commentateur dit que le jeu de données de raisonnement en voix haute à partir d’images est PixMo.
Il demande si le modèle Q* est open source.
Lorsqu’il a posé la question du nombre de pélicans sur une photo, le style de réponse était amusant.
Il y a également eu une discussion sur les problèmes de licence du modèle QvQ-72B-Preview.
QvQ montre d’excellentes performances pour analyser des photos de célébrités, de chiens et des dessins de The New Yorker.
Il peut également traiter des images de formules mathématiques.