Qwen3.6-35B-A3B génère une image de pélican meilleure que Claude Opus 4.7
(simonwillison.net)- En comparant Qwen3.6-35B-A3B et Claude Opus 4.7 pour générer une image de « pélican à vélo », Qwen a produit une illustration plus aboutie
- Le modèle Qwen est la dernière version d’Alibaba, exécutée en local via LM Studio sur un MacBook Pro M5 à partir d’un modèle quantifié de 20,9 Go distribué par Unsloth
- Claude Opus 4.7 présentait une erreur dans la représentation du cadre du vélo, et même avec l’option
thinking_level: max, la qualité s’est à peine améliorée - Le « benchmark du pélican » était au départ un test satirique de comparaison de modèles, mais ce résultat montre qu’un LLM local peut dépasser un modèle commercial
- Qwen3.6-35B-A3B constitue un exemple prouvant la compétitivité des grands modèles exécutables en local
Expérience comparative entre Qwen3.6-35B-A3B et Claude Opus 4.7
- Une expérience comparative a été menée avec Qwen3.6-35B-A3B et Claude Opus 4.7 pour générer une image de « pélican à vélo »
- Le modèle Qwen est la dernière version publiée par Alibaba, en utilisant un modèle quantifié (quantized) de 20,9 Go fourni par Unsloth
- Exécution en local sur MacBook Pro M5 via LM Studio et le plugin llm-lmstudio
- Pour Claude Opus 4.7, le dernier modèle cloud d’Anthropic a été utilisé
- Au final, Qwen3.6-35B-A3B a généré une image de pélican plus aboutie
- Claude Opus 4.7 a commis une erreur dans la représentation du cadre du vélo
- Un nouvel essai a été effectué en ajoutant l’option
thinking_level: max, mais l’amélioration de qualité a été minime
- Certains ont soupçonné que les modèles avaient été entraînés pour ce « benchmark du pélican »
- L’auteur rejette cette hypothèse, mais a ajouté un nouveau test, « un flamant rose sur un monocycle », afin de vérifier la fiabilité du résultat
- Qwen3.6-35B-A3B a de nouveau obtenu un meilleur résultat, et les commentaires « ”” » dans le code SVG ont été jugés impressionnants
Signification et limites du benchmark du pélican
- Le « benchmark du pélican à vélo » a d’abord commencé comme un test humoristique destiné à tourner en dérision l’absurdité des comparaisons de modèles
- Mais en pratique, il existait une certaine corrélation entre la qualité du dessin du pélican et les performances générales du modèle
- Les premiers résultats d’octobre 2024 étaient grossiers, mais les modèles ont ensuite progressivement produit des illustrations réellement exploitables
- Dans cette expérience, cette corrélation s’est brisée pour la première fois
- Bien que le modèle Qwen ait donné un excellent résultat, il est jugé difficile d’affirmer qu’une version quantifiée de 21 Go est plus puissante que le dernier modèle commercial d’Anthropic
- En revanche, s’il faut générer le SVG d’un pélican à vélo, Qwen3.6-35B-A3B exécutable en local est actuellement le meilleur choix
- Dans l’ensemble, cette comparaison est considérée comme un exemple montrant le niveau de progression des LLM locaux et la réduction de l’écart avec les grands modèles commerciaux
- Il est particulièrement notable qu’elle démontre la possibilité d’exécuter de grands modèles dans l’environnement LM Studio
1 commentaires
Commentaires Hacker News
J’ai du mal à être d’accord sur ce test de secours. Opus flamingo représente de manière fonctionnelle les pédales, la selle, les rayons de la roue, et même le bec d’un vrai vélo. Du point de vue du réalisme, Qwen est complètement à côté. Je trouve même assez étonnant que quelqu’un préfère le résultat de Qwen. On dirait plutôt que Qwen a surappris (overfitting) les données Pelican
Si on se base sur les performances en code, Qwen 3.6 35b a3b a résolu 11 tâches sur 98 dans le Power Ranking. Qwen 3.5 de taille comparable en résolvait 10, Qwen 3.5 27b dense en résolvait 26, et Opus en a résolu 95. Autrement dit, Qwen 3.6 n’apporte qu’une amélioration minime
Je comprends l’aspect amusant du « test du pélican », mais je ne sais plus très bien ce qu’il prouve désormais. Si l’on veut voir à quel point un modèle s’adapte à des situations hors distribution, il serait plus pertinent d’essayer d’autres combinaisons d’animaux et d’activités (par exemple une baleine qui fait du skateboard)
Aujourd’hui, j’ai essayé de corriger un diagramme de slides avec Gemini, j’y ai perdu du temps puis j’ai abandonné. Il sait très bien rendre quelque chose drôle d’un coup, mais faire des retouches fines du type « change juste légèrement cette partie » est presque impossible. J’ai vraiment ressenti le fossé entre un jouet et un outil
Sur HN, quand on parle de « mon laptop », on dirait toujours qu’il s’agit d’un MacBook très haut de gamme. C’est plus puissant que la plupart des ordinateurs
Si on demande directement à Opus « est-ce que tu es bon en génération d’images ? », il répond « non ». Il n’a jamais été commercialisé à l’origine pour la génération d’images
Le langage contient fondamentalement beaucoup de métaphores spatiales (spatial metaphor). Par exemple, au lieu de dire que l’argent « augmente », on dit qu’il « monte ». Ce type de structure métaphorique peut aussi se refléter dans la structure de l’espace des poids d’un modèle. Ainsi, plus un modèle apprend des stratégies complexes, plus ces schémas pourraient se renforcer en profondeur. J’aimerais faire à l’avenir un projet comparant la géométrie des activations entre anciens et nouveaux modèles
Les performances d’Opus et de Sonnet sur les tâches non liées au code baissent progressivement depuis la version 4.1
Je ne vois pas ce que ce genre de démo prouve. Les LLM ne sont forts que sur les tâches sur lesquelles ils ont été entraînés, ou sur des tâches similaires. La génération de SVG n’était pas une tâche de ce type à l’origine. Avant, ils n’y arrivaient pas faute d’exemples dans les données d’entraînement, puis ils sont devenus passablement capables quand on a ajouté des exemples à des fins de démonstration. Mais cela reste peu pratique. Ce genre d’amélioration ne se traduit pas par une progression d’autres capacités. Maintenant que l’augmentation de la taille des modèles s’est arrêtée, l’optimisation de tâches spécifiques est devenue centrale. S’il existait des tâches secrètes absentes de l’entraînement, on pourrait s’en servir pour évaluer la vraie capacité de généralisation, mais ce n’est pas ce type de test
Je suis un iguane et je dois aller faire laver mon vélo à la station de lavage. J’hésite entre y aller à pied ou prendre le bus