6 points par GN⁺ 2026-04-17 | 1 commentaires | Partager sur WhatsApp
  • En comparant Qwen3.6-35B-A3B et Claude Opus 4.7 pour générer une image de « pélican à vélo », Qwen a produit une illustration plus aboutie
  • Le modèle Qwen est la dernière version d’Alibaba, exécutée en local via LM Studio sur un MacBook Pro M5 à partir d’un modèle quantifié de 20,9 Go distribué par Unsloth
  • Claude Opus 4.7 présentait une erreur dans la représentation du cadre du vélo, et même avec l’option thinking_level: max, la qualité s’est à peine améliorée
  • Le « benchmark du pélican » était au départ un test satirique de comparaison de modèles, mais ce résultat montre qu’un LLM local peut dépasser un modèle commercial
  • Qwen3.6-35B-A3B constitue un exemple prouvant la compétitivité des grands modèles exécutables en local

Expérience comparative entre Qwen3.6-35B-A3B et Claude Opus 4.7

  • Une expérience comparative a été menée avec Qwen3.6-35B-A3B et Claude Opus 4.7 pour générer une image de « pélican à vélo »
    • Le modèle Qwen est la dernière version publiée par Alibaba, en utilisant un modèle quantifié (quantized) de 20,9 Go fourni par Unsloth
    • Exécution en local sur MacBook Pro M5 via LM Studio et le plugin llm-lmstudio
    • Pour Claude Opus 4.7, le dernier modèle cloud d’Anthropic a été utilisé
  • Au final, Qwen3.6-35B-A3B a généré une image de pélican plus aboutie
    • Claude Opus 4.7 a commis une erreur dans la représentation du cadre du vélo
    • Un nouvel essai a été effectué en ajoutant l’option thinking_level: max, mais l’amélioration de qualité a été minime
  • Certains ont soupçonné que les modèles avaient été entraînés pour ce « benchmark du pélican »
    • L’auteur rejette cette hypothèse, mais a ajouté un nouveau test, « un flamant rose sur un monocycle », afin de vérifier la fiabilité du résultat
    • Qwen3.6-35B-A3B a de nouveau obtenu un meilleur résultat, et les commentaires « ”” » dans le code SVG ont été jugés impressionnants
Publicité

Signification et limites du benchmark du pélican

  • Le « benchmark du pélican à vélo » a d’abord commencé comme un test humoristique destiné à tourner en dérision l’absurdité des comparaisons de modèles
    • Mais en pratique, il existait une certaine corrélation entre la qualité du dessin du pélican et les performances générales du modèle
    • Les premiers résultats d’octobre 2024 étaient grossiers, mais les modèles ont ensuite progressivement produit des illustrations réellement exploitables
  • Dans cette expérience, cette corrélation s’est brisée pour la première fois
    • Bien que le modèle Qwen ait donné un excellent résultat, il est jugé difficile d’affirmer qu’une version quantifiée de 21 Go est plus puissante que le dernier modèle commercial d’Anthropic
    • En revanche, s’il faut générer le SVG d’un pélican à vélo, Qwen3.6-35B-A3B exécutable en local est actuellement le meilleur choix
  • Dans l’ensemble, cette comparaison est considérée comme un exemple montrant le niveau de progression des LLM locaux et la réduction de l’écart avec les grands modèles commerciaux
    • Il est particulièrement notable qu’elle démontre la possibilité d’exécuter de grands modèles dans l’environnement LM Studio

1 commentaires

 
GN⁺ 2026-04-17
Commentaires Hacker News
  • J’ai du mal à être d’accord sur ce test de secours. Opus flamingo représente de manière fonctionnelle les pédales, la selle, les rayons de la roue, et même le bec d’un vrai vélo. Du point de vue du réalisme, Qwen est complètement à côté. Je trouve même assez étonnant que quelqu’un préfère le résultat de Qwen. On dirait plutôt que Qwen a surappris (overfitting) les données Pelican

    • Le flamant de Qwen est bien plus intéressant artistiquement. C’est un flamant borgne avec des lunettes de soleil et un nœud papillon en train de fumer. À l’inverse, Opus dessine un flamant ennuyeux et un peu maladroit. Le ciel et le sol en arrière-plan sont aussi plus intéressants chez Qwen. Mais pour un résultat physiquement plausible, Opus s’en rapproche bien davantage
    • Qwen dessine au moins un cadre de vélo complet. Celui d’Opus semble pouvoir se casser en deux et paraît impossible à diriger
    • Qwen a ajouté des détails à l’arrière-plan, mais le pélican lui-même ressemble à une cigogne au bec tordu, et ses pattes sont coupées. C’est impressionnant pour un modèle local, mais ce n’est pas le gagnant
    • C’est un modèle 3B. Le simple fait d’obtenir un résultat aussi proche est déjà surprenant. Le débat sur l’aspect artistique n’est pas le cœur du sujet
  • Si on se base sur les performances en code, Qwen 3.6 35b a3b a résolu 11 tâches sur 98 dans le Power Ranking. Qwen 3.5 de taille comparable en résolvait 10, Qwen 3.5 27b dense en résolvait 26, et Opus en a résolu 95. Autrement dit, Qwen 3.6 n’apporte qu’une amélioration minime

    • Ce benchmark a le même problème de chevauchement entre données d’entraînement et données de benchmark que le Brokk Power Ranking
    • La vitesse s’est clairement améliorée. Sur un M1 Max, pour la description d’images, Qwen 3.6 35b a3b atteint 34 tokens/s, Qwen 3.5 27b atteint 10 tokens/s, et Qwen 3.5 35b a3b ne prend pas en charge l’entrée d’images
    • Comparer un petit modèle pour l’inférence locale à un modèle frontier coûteux n’est pas équitable. Il faudrait le comparer à des modèles d’un prix similaire, ou à de petits modèles frontier comme Haiku, Flash ou GPT Nano
  • Je comprends l’aspect amusant du « test du pélican », mais je ne sais plus très bien ce qu’il prouve désormais. Si l’on veut voir à quel point un modèle s’adapte à des situations hors distribution, il serait plus pertinent d’essayer d’autres combinaisons d’animaux et d’activités (par exemple une baleine qui fait du skateboard)

    • C’est pour ça que j’ai essayé un flamant sur un monocycle. Pendant un instant, j’ai soupçonné le fournisseur du modèle de l’avoir entraîné spécifiquement sur les pélicans, mais en voyant le résultat avec le flamant, j’ai été convaincu que ce n’était pas le cas
    • Plus un benchmark est populaire, plus il est probable qu’il ait été traité spécialement pendant l’entraînement du modèle. J’aimerais tester avec des prompts comme « un éléphant dans une voiture » ou « un lion qui dort dans un lit »
    • Si on lit bien le billet, il est précisé que ce test a été conçu dans une intention humoristique. Il n’a fait que suivre de loin les tendances de performance des modèles, et ce résultat montre justement que cette tendance s’est brisée
    • Les modèles reconnaissent peut-être le test, mais ils n’auront probablement pas été entraînés sur « une tortue qui fait un kickflip sur un skateboard ». Comme on peut le voir dans le tweet de Jeff Dean, l’échec d’Opus 4.7 sur le pélican en est plutôt la preuve
    • Cette blague a déjà fait son temps. Mais au milieu du hype excessif de l’industrie de l’IA, certaines personnes la prennent encore au sérieux. On voit sans cesse revenir l’idée qu’un bon dessin de pélican serait une preuve de la supériorité d’un modèle
  • Aujourd’hui, j’ai essayé de corriger un diagramme de slides avec Gemini, j’y ai perdu du temps puis j’ai abandonné. Il sait très bien rendre quelque chose drôle d’un coup, mais faire des retouches fines du type « change juste légèrement cette partie » est presque impossible. J’ai vraiment ressenti le fossé entre un jouet et un outil

  • Sur HN, quand on parle de « mon laptop », on dirait toujours qu’il s’agit d’un MacBook très haut de gamme. C’est plus puissant que la plupart des ordinateurs

  • Si on demande directement à Opus « est-ce que tu es bon en génération d’images ? », il répond « non ». Il n’a jamais été commercialisé à l’origine pour la génération d’images

    • Ces derniers temps, je me demande si OpenAI n’essaie pas de manipuler les commentaires HN pour orienter la discussion. On voit revenir de façon répétée des commentaires qui défendent uniquement OpenAI sur certains sujets ou qui critiquent excessivement les autres modèles
    • Claude est très bon pour générer du SVG. Je m’en sers souvent pour créer de petites icônes. Mais une illustration SVG de type pélican à vélo n’a, en pratique, aucune utilité. Les pélicans ne peuvent pas faire de vélo
  • Le langage contient fondamentalement beaucoup de métaphores spatiales (spatial metaphor). Par exemple, au lieu de dire que l’argent « augmente », on dit qu’il « monte ». Ce type de structure métaphorique peut aussi se refléter dans la structure de l’espace des poids d’un modèle. Ainsi, plus un modèle apprend des stratégies complexes, plus ces schémas pourraient se renforcer en profondeur. J’aimerais faire à l’avenir un projet comparant la géométrie des activations entre anciens et nouveaux modèles

  • Les performances d’Opus et de Sonnet sur les tâches non liées au code baissent progressivement depuis la version 4.1

  • Je ne vois pas ce que ce genre de démo prouve. Les LLM ne sont forts que sur les tâches sur lesquelles ils ont été entraînés, ou sur des tâches similaires. La génération de SVG n’était pas une tâche de ce type à l’origine. Avant, ils n’y arrivaient pas faute d’exemples dans les données d’entraînement, puis ils sont devenus passablement capables quand on a ajouté des exemples à des fins de démonstration. Mais cela reste peu pratique. Ce genre d’amélioration ne se traduit pas par une progression d’autres capacités. Maintenant que l’augmentation de la taille des modèles s’est arrêtée, l’optimisation de tâches spécifiques est devenue centrale. S’il existait des tâches secrètes absentes de l’entraînement, on pourrait s’en servir pour évaluer la vraie capacité de généralisation, mais ce n’est pas ce type de test

    • J’ai comparé les résultats SVG des modèles GPT-5.4, mini et nano, et c’était assez intéressant. Voir le bas de ce billet
  • Je suis un iguane et je dois aller faire laver mon vélo à la station de lavage. J’hésite entre y aller à pied ou prendre le bus

    • Quelqu’un a proposé de confier le vélo au pélican pour qu’il le fasse laver à ma place
    • On m’a aussi conseillé : « C’est trop loin. Réserve avec $PartnerRideshareCo »