6 points par GN⁺ 13 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • En comparant Qwen3.6-35B-A3B et Claude Opus 4.7 pour générer une image de « pélican à vélo », Qwen a produit une illustration plus aboutie
  • Le modèle Qwen est la dernière version d’Alibaba, exécutée en local via LM Studio sur un MacBook Pro M5 à partir d’un modèle quantifié de 20,9 Go distribué par Unsloth
  • Claude Opus 4.7 présentait une erreur dans la représentation du cadre du vélo, et même avec l’option thinking_level: max, la qualité s’est à peine améliorée
  • Le « benchmark du pélican » était au départ un test satirique de comparaison de modèles, mais ce résultat montre qu’un LLM local peut dépasser un modèle commercial
  • Qwen3.6-35B-A3B constitue un exemple prouvant la compétitivité des grands modèles exécutables en local

Expérience comparative entre Qwen3.6-35B-A3B et Claude Opus 4.7

  • Une expérience comparative a été menée avec Qwen3.6-35B-A3B et Claude Opus 4.7 pour générer une image de « pélican à vélo »
    • Le modèle Qwen est la dernière version publiée par Alibaba, en utilisant un modèle quantifié (quantized) de 20,9 Go fourni par Unsloth
    • Exécution en local sur MacBook Pro M5 via LM Studio et le plugin llm-lmstudio
    • Pour Claude Opus 4.7, le dernier modèle cloud d’Anthropic a été utilisé
  • Au final, Qwen3.6-35B-A3B a généré une image de pélican plus aboutie
    • Claude Opus 4.7 a commis une erreur dans la représentation du cadre du vélo
    • Un nouvel essai a été effectué en ajoutant l’option thinking_level: max, mais l’amélioration de qualité a été minime
  • Certains ont soupçonné que les modèles avaient été entraînés pour ce « benchmark du pélican »
    • L’auteur rejette cette hypothèse, mais a ajouté un nouveau test, « un flamant rose sur un monocycle », afin de vérifier la fiabilité du résultat
    • Qwen3.6-35B-A3B a de nouveau obtenu un meilleur résultat, et les commentaires « ”” » dans le code SVG ont été jugés impressionnants

Signification et limites du benchmark du pélican

  • Le « benchmark du pélican à vélo » a d’abord commencé comme un test humoristique destiné à tourner en dérision l’absurdité des comparaisons de modèles
    • Mais en pratique, il existait une certaine corrélation entre la qualité du dessin du pélican et les performances générales du modèle
    • Les premiers résultats d’octobre 2024 étaient grossiers, mais les modèles ont ensuite progressivement produit des illustrations réellement exploitables
  • Dans cette expérience, cette corrélation s’est brisée pour la première fois
    • Bien que le modèle Qwen ait donné un excellent résultat, il est jugé difficile d’affirmer qu’une version quantifiée de 21 Go est plus puissante que le dernier modèle commercial d’Anthropic
    • En revanche, s’il faut générer le SVG d’un pélican à vélo, Qwen3.6-35B-A3B exécutable en local est actuellement le meilleur choix
  • Dans l’ensemble, cette comparaison est considérée comme un exemple montrant le niveau de progression des LLM locaux et la réduction de l’écart avec les grands modèles commerciaux
    • Il est particulièrement notable qu’elle démontre la possibilité d’exécuter de grands modèles dans l’environnement LM Studio

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.