5 points par GN⁺ 2024-12-26 | 1 commentaires | Partager sur WhatsApp
  • L’équipe d’Alibaba Qwen a annoncé le nouveau modèle de raisonnement visuel QvQ-72B-Preview.
    • Il prend en entrée des images et des prompts pour effectuer un raisonnement détaillé.
    • Il était initialement annoncé sous licence Apache 2.0, mais a depuis été changé pour la licence Qwen.
  • Différences avec le modèle QwQ précédent
    • QwQ se concentrait sur le raisonnement basé sur le texte et a été conçu avec un mécanisme censé refléter les limites de la réflexion.
    • QvQ ajoute à cela une entrée visuelle pour effectuer une analyse approfondie à partir d’images.

Cas d’utilisation et tests de QvQ

  • Le modèle QvQ est disponible sur Hugging Face Spaces.
    • Lorsqu’une image et un prompt unique sont fournis, il génère une réponse très longue, et il n’est pas possible d’ajouter un prompt supplémentaire.
    • Il analyse l’image d’entrée et explique progressivement le processus de raisonnement.
  • Résultats des tests
    • Comptage des pélicans : avec le prompt « Count the pelicans », il calcule le nombre de pélicans dans la photo
      • Il a compté précisément 4 pélicans, en excluant les oiseaux partiellement visibles.
      • Il explique le raisonnement dans un ton chaleureux et conversationnel.
    • Puzzle ARC-AGI : il a relevé le défi de résoudre des problèmes complexes, mais n’a pas obtenu de résultat exact.
      • Il a proposé une approche originale, notamment basée sur des automates cellulaires.
    • Estimation de la hauteur d’un dinosaure (dragon) : il a tenté d’estimer la hauteur d’un dragon sans objet de comparaison.
      • Il a proposé une hauteur d’environ 8 à 9 pieds, démontrant une observation fine.

Exécution du modèle QvQ

  • Environnement hébergé

  • Exécution locale

    • Prince Canuma a converti le modèle pour le framework Apple MLX, qui peut être exécuté via le package mlx-vlm.
    • Il a été exécuté avec succès sur macOS M2 avec 64 Go de RAM, en version quantifiée 4 bits.
      • Commande d’exécution :
        uv run --with 'numpy<2.0' --with mlx-vlm python \  
          -m mlx_vlm.generate \  
          --model mlx-community/QVQ-72B-Preview-4bit \  
          --max-tokens 10000 \  
          --temp 0.0 \  
          --prompt "describe this" \  
          --image pelicans-on-bicycles-veo2.jpg  
        

Changement de licence de QvQ

  • La licence de QvQ est passée de Apache 2.0 à la licence Qwen.
    • Cela semble être la correction d’une erreur initiale.
  • Le modèle QwQ reste sous licence Apache 2.0.
    • Une politique de licence différenciée entre les deux modèles est constatée.

Conclusion

  • QvQ est un modèle de raisonnement visuel puissant combinant image et texte, qui génère des résultats intéressants dans de nombreux tests.
  • Des mises à jour et de nouveaux usages sont attendus.

1 commentaires

 
GN⁺ 2024-12-26
Avis de Hacker News
  • Il explique comment exécuter le modèle QVQ-72B-Preview-4bit sur un portable M2 avec 64 Go de RAM pour analyser des images.

    • Il utilise la commande uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
    • Les résultats sont disponibles sur le lien
  • Le modèle est amusant.

    • En important une image et en demandant quelque chose comme « dites votre raisonnement en regardant cette image », on obtient des réponses intéressantes.
    • Par exemple, face à une image de sandwich, il donne une description détaillée et imagine le goût.
  • Il a testé avec une grille de mots à trouver, mais le modèle QvQ a échoué.

    • La sortie de Gemini sur AI Studio a aussi échoué au départ, puis a finalement réussi à trouver les mots après quelques essais.
    • Générer un programme pour résoudre le problème donnait de meilleurs résultats que de demander directement une solution.
  • Lorsqu’il a saisi la photo célèbre du « Tank Man », il a reçu une réponse vide.

  • Le commentateur dit que le jeu de données de raisonnement en voix haute à partir d’images est PixMo.

    • Cela suggère que QvQ pourrait avoir été entraîné de manière similaire.
  • Il demande si le modèle Q* est open source.

    • Lorsqu’on lui demande conseil sur la façon d’agir face à l’autorité, il recommande fortement l’obéissance.
  • Lorsqu’il a posé la question du nombre de pélicans sur une photo, le style de réponse était amusant.

    • Il donne une ambiance différente de GPT-4, plus décontractée.
  • Il y a également eu une discussion sur les problèmes de licence du modèle QvQ-72B-Preview.

    • Il y a eu confusion entre la licence Apache 2.0 et la licence Qwen.
  • QvQ montre d’excellentes performances pour analyser des photos de célébrités, de chiens et des dessins de The New Yorker.

  • Il peut également traiter des images de formules mathématiques.