Retour d’expérience sur le nouveau modèle de raisonnement visuel QvQ de Qwen

(simonwillison.net)

5 points par GN⁺ 2024-12-26 | 1 commentaires | Partager sur WhatsApp

L’équipe d’Alibaba Qwen a annoncé le nouveau modèle de raisonnement visuel QvQ-72B-Preview.
- Il prend en entrée des images et des prompts pour effectuer un raisonnement détaillé.
- Il était initialement annoncé sous licence Apache 2.0, mais a depuis été changé pour la licence Qwen.
Différences avec le modèle QwQ précédent
- QwQ se concentrait sur le raisonnement basé sur le texte et a été conçu avec un mécanisme censé refléter les limites de la réflexion.
- QvQ ajoute à cela une entrée visuelle pour effectuer une analyse approfondie à partir d’images.

Cas d’utilisation et tests de QvQ

Le modèle QvQ est disponible sur Hugging Face Spaces.
- Lorsqu’une image et un prompt unique sont fournis, il génère une réponse très longue, et il n’est pas possible d’ajouter un prompt supplémentaire.
- Il analyse l’image d’entrée et explique progressivement le processus de raisonnement.
Résultats des tests
- Comptage des pélicans : avec le prompt « Count the pelicans », il calcule le nombre de pélicans dans la photo
  - Il a compté précisément 4 pélicans, en excluant les oiseaux partiellement visibles.
  - Il explique le raisonnement dans un ton chaleureux et conversationnel.
- Puzzle ARC-AGI : il a relevé le défi de résoudre des problèmes complexes, mais n’a pas obtenu de résultat exact.
  - Il a proposé une approche originale, notamment basée sur des automates cellulaires.
- Estimation de la hauteur d’un dinosaure (dragon) : il a tenté d’estimer la hauteur d’un dragon sans objet de comparaison.
  - Il a proposé une hauteur d’environ 8 à 9 pieds, démontrant une observation fine.

Exécution du modèle QvQ

Environnement hébergé
- Il est possible de tester avec les poids du modèle GPU sur Hugging Face Spaces.
- Utilisation du package Python qwen-vl-utils pour l’exécution.
Exécution locale
- Prince Canuma a converti le modèle pour le framework Apple MLX, qui peut être exécuté via le package mlx-vlm.
- Il a été exécuté avec succès sur macOS M2 avec 64 Go de RAM, en version quantifiée 4 bits.
  - Commande d’exécution :
```
uv run --with 'numpy<2.0' --with mlx-vlm python \  
  -m mlx_vlm.generate \  
  --model mlx-community/QVQ-72B-Preview-4bit \  
  --max-tokens 10000 \  
  --temp 0.0 \  
  --prompt "describe this" \  
  --image pelicans-on-bicycles-veo2.jpg  
```

Changement de licence de QvQ

La licence de QvQ est passée de Apache 2.0 à la licence Qwen.
- Cela semble être la correction d’une erreur initiale.
Le modèle QwQ reste sous licence Apache 2.0.
- Une politique de licence différenciée entre les deux modèles est constatée.

Conclusion

QvQ est un modèle de raisonnement visuel puissant combinant image et texte, qui génère des résultats intéressants dans de nombreux tests.
Des mises à jour et de nouveaux usages sont attendus.

1 commentaires

GN⁺ 2024-12-26

Avis de Hacker News

Il explique comment exécuter le modèle QVQ-72B-Preview-4bit sur un portable M2 avec 64 Go de RAM pour analyser des images.
- Il utilise la commande uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
- Les résultats sont disponibles sur le lien
Le modèle est amusant.
- En important une image et en demandant quelque chose comme « dites votre raisonnement en regardant cette image », on obtient des réponses intéressantes.
- Par exemple, face à une image de sandwich, il donne une description détaillée et imagine le goût.
Il a testé avec une grille de mots à trouver, mais le modèle QvQ a échoué.
- La sortie de Gemini sur AI Studio a aussi échoué au départ, puis a finalement réussi à trouver les mots après quelques essais.
- Générer un programme pour résoudre le problème donnait de meilleurs résultats que de demander directement une solution.
Lorsqu’il a saisi la photo célèbre du « Tank Man », il a reçu une réponse vide.
Le commentateur dit que le jeu de données de raisonnement en voix haute à partir d’images est PixMo.
- Cela suggère que QvQ pourrait avoir été entraîné de manière similaire.
Il demande si le modèle Q* est open source.
- Lorsqu’on lui demande conseil sur la façon d’agir face à l’autorité, il recommande fortement l’obéissance.
Lorsqu’il a posé la question du nombre de pélicans sur une photo, le style de réponse était amusant.
- Il donne une ambiance différente de GPT-4, plus décontractée.
Il y a également eu une discussion sur les problèmes de licence du modèle QvQ-72B-Preview.
- Il y a eu confusion entre la licence Apache 2.0 et la licence Qwen.
QvQ montre d’excellentes performances pour analyser des photos de célébrités, de chiens et des dessins de The New Yorker.
Il peut également traiter des images de formules mathématiques.

Retour d’expérience sur le nouveau modèle de raisonnement visuel QvQ de Qwen

Cas d’utilisation et tests de QvQ

Exécution du modèle QvQ

Changement de licence de QvQ

Conclusion

À lire aussi

1 commentaires

Avis de Hacker News