Qwen3.6-35B-A3B génère une image de pélican meilleure que Claude Opus 4.7
(simonwillison.net)- En comparant Qwen3.6-35B-A3B et Claude Opus 4.7 pour générer une image de « pélican à vélo », Qwen a produit une illustration plus aboutie
- Le modèle Qwen est la dernière version d’Alibaba, exécutée en local via LM Studio sur un MacBook Pro M5 à partir d’un modèle quantifié de 20,9 Go distribué par Unsloth
- Claude Opus 4.7 présentait une erreur dans la représentation du cadre du vélo, et même avec l’option
thinking_level: max, la qualité s’est à peine améliorée - Le « benchmark du pélican » était au départ un test satirique de comparaison de modèles, mais ce résultat montre qu’un LLM local peut dépasser un modèle commercial
- Qwen3.6-35B-A3B constitue un exemple prouvant la compétitivité des grands modèles exécutables en local
Expérience comparative entre Qwen3.6-35B-A3B et Claude Opus 4.7
- Une expérience comparative a été menée avec Qwen3.6-35B-A3B et Claude Opus 4.7 pour générer une image de « pélican à vélo »
- Le modèle Qwen est la dernière version publiée par Alibaba, en utilisant un modèle quantifié (quantized) de 20,9 Go fourni par Unsloth
- Exécution en local sur MacBook Pro M5 via LM Studio et le plugin llm-lmstudio
- Pour Claude Opus 4.7, le dernier modèle cloud d’Anthropic a été utilisé
- Au final, Qwen3.6-35B-A3B a généré une image de pélican plus aboutie
- Claude Opus 4.7 a commis une erreur dans la représentation du cadre du vélo
- Un nouvel essai a été effectué en ajoutant l’option
thinking_level: max, mais l’amélioration de qualité a été minime
- Certains ont soupçonné que les modèles avaient été entraînés pour ce « benchmark du pélican »
- L’auteur rejette cette hypothèse, mais a ajouté un nouveau test, « un flamant rose sur un monocycle », afin de vérifier la fiabilité du résultat
- Qwen3.6-35B-A3B a de nouveau obtenu un meilleur résultat, et les commentaires « ”” » dans le code SVG ont été jugés impressionnants
Signification et limites du benchmark du pélican
- Le « benchmark du pélican à vélo » a d’abord commencé comme un test humoristique destiné à tourner en dérision l’absurdité des comparaisons de modèles
- Mais en pratique, il existait une certaine corrélation entre la qualité du dessin du pélican et les performances générales du modèle
- Les premiers résultats d’octobre 2024 étaient grossiers, mais les modèles ont ensuite progressivement produit des illustrations réellement exploitables
- Dans cette expérience, cette corrélation s’est brisée pour la première fois
- Bien que le modèle Qwen ait donné un excellent résultat, il est jugé difficile d’affirmer qu’une version quantifiée de 21 Go est plus puissante que le dernier modèle commercial d’Anthropic
- En revanche, s’il faut générer le SVG d’un pélican à vélo, Qwen3.6-35B-A3B exécutable en local est actuellement le meilleur choix
- Dans l’ensemble, cette comparaison est considérée comme un exemple montrant le niveau de progression des LLM locaux et la réduction de l’écart avec les grands modèles commerciaux
- Il est particulièrement notable qu’elle démontre la possibilité d’exécuter de grands modèles dans l’environnement LM Studio
Aucun commentaire pour le moment.