Qwen3.6-35B-A3B génère une image de pélican meilleure que Claude Opus 4.7

(simonwillison.net)

6 points par GN⁺ 13 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

En comparant Qwen3.6-35B-A3B et Claude Opus 4.7 pour générer une image de « pélican à vélo », Qwen a produit une illustration plus aboutie
Le modèle Qwen est la dernière version d’Alibaba, exécutée en local via LM Studio sur un MacBook Pro M5 à partir d’un modèle quantifié de 20,9 Go distribué par Unsloth
Claude Opus 4.7 présentait une erreur dans la représentation du cadre du vélo, et même avec l’option thinking_level: max, la qualité s’est à peine améliorée
Le « benchmark du pélican » était au départ un test satirique de comparaison de modèles, mais ce résultat montre qu’un LLM local peut dépasser un modèle commercial
Qwen3.6-35B-A3B constitue un exemple prouvant la compétitivité des grands modèles exécutables en local

Expérience comparative entre Qwen3.6-35B-A3B et Claude Opus 4.7

Une expérience comparative a été menée avec Qwen3.6-35B-A3B et Claude Opus 4.7 pour générer une image de « pélican à vélo »
- Le modèle Qwen est la dernière version publiée par Alibaba, en utilisant un modèle quantifié (quantized) de 20,9 Go fourni par Unsloth
- Exécution en local sur MacBook Pro M5 via LM Studio et le plugin llm-lmstudio
- Pour Claude Opus 4.7, le dernier modèle cloud d’Anthropic a été utilisé
Au final, Qwen3.6-35B-A3B a généré une image de pélican plus aboutie
- Claude Opus 4.7 a commis une erreur dans la représentation du cadre du vélo
- Un nouvel essai a été effectué en ajoutant l’option thinking_level: max, mais l’amélioration de qualité a été minime
Certains ont soupçonné que les modèles avaient été entraînés pour ce « benchmark du pélican »
- L’auteur rejette cette hypothèse, mais a ajouté un nouveau test, « un flamant rose sur un monocycle », afin de vérifier la fiabilité du résultat
- Qwen3.6-35B-A3B a de nouveau obtenu un meilleur résultat, et les commentaires « ”” » dans le code SVG ont été jugés impressionnants

Le « benchmark du pélican à vélo » a d’abord commencé comme un test humoristique destiné à tourner en dérision l’absurdité des comparaisons de modèles
- Mais en pratique, il existait une certaine corrélation entre la qualité du dessin du pélican et les performances générales du modèle
- Les premiers résultats d’octobre 2024 étaient grossiers, mais les modèles ont ensuite progressivement produit des illustrations réellement exploitables
Dans cette expérience, cette corrélation s’est brisée pour la première fois
- Bien que le modèle Qwen ait donné un excellent résultat, il est jugé difficile d’affirmer qu’une version quantifiée de 21 Go est plus puissante que le dernier modèle commercial d’Anthropic
- En revanche, s’il faut générer le SVG d’un pélican à vélo, Qwen3.6-35B-A3B exécutable en local est actuellement le meilleur choix
Dans l’ensemble, cette comparaison est considérée comme un exemple montrant le niveau de progression des LLM locaux et la réduction de l’écart avec les grands modèles commerciaux
- Il est particulièrement notable qu’elle démontre la possibilité d’exécuter de grands modèles dans l’environnement LM Studio