Les six derniers mois des LLM, expliqués avec un pélican à vélo

(simonwillison.net)

13 points par GN⁺ 2025-06-09 | 1 commentaires | Partager sur WhatsApp

Au cours des six derniers mois, plus de 30 grands modèles LLM sont apparus, ce qui a encore accéléré le rythme de l’innovation dans l’industrie de l’IA
La confiance dans les benchmarks et leaderboards traditionnels ayant diminué, les modèles sont comparés à l’aide d’un test original consistant à leur faire dessiner en code SVG un « pélican à vélo »
Divers modèles open et commerciaux sont apparus chez Meta, DeepSeek, Anthropic, OpenAI, Google, etc. ; certains sont devenus assez légers pour tourner sur PC, et d’autres ont fortement progressé en rapport performance/coût
Les capacités d’intégration d’outils et de raisonnement ont fait un bond spectaculaire, tandis que les risques de sécurité comme les prompt injections et les fuites de données s’imposent comme de nouveaux sujets majeurs pour le secteur
Des bugs amusants et des expériences autour des LLM, comme le bug de flagornerie de ChatGPT ou le benchmark des lanceurs d’alerte, montrent que les évaluations basées sur l’expérience réelle deviennent plus importantes que les simples scores

The last six months in LLMs, illustrated by pelicans on bicycles

Lors de l’AI Engineer World’s Fair de San Francisco en juin 2025, une keynote a été donnée sur le thème « les six derniers mois des LLM »
L’idée initiale était de faire un récapitulatif sur un an, mais il y a eu trop de changements au cours des six derniers mois
Rien que parmi les grands modèles LLM, plus de 30 ont été publiés au cours des six derniers mois, et ils sont tous suffisamment importants pour que les professionnels du secteur les connaissent

Évolution des méthodes d’évaluation des modèles

Constat qu’avec les seuls scores de benchmarks et leaderboards existants, il devient difficile d’identifier les modèles réellement utiles
D’où l’idée d’une expérience consistant à demander à un LLM de dessiner en code SVG l’image d’un “pélican à vélo”
- Un LLM ne peut pas dessiner directement, mais il peut générer du code SVG
- Le pélican comme le vélo sont tous deux difficiles à dessiner, et comme cette combinaison n’existe pas dans la réalité, elle constitue un bon test de créativité et de logique pour le modèle
- Le SVG prend en charge les commentaires, ce qui facilite la compréhension de l’intention du modèle lorsqu’il génère le code

Apparition et caractéristiques des principaux modèles LLM

Amazon Nova : prise en charge d’1 million de tokens, très bon marché, mais faible pour dessiner le pélican
Meta Llama 3.3 70B : remarqué comme un modèle de niveau GPT-4 pouvant fonctionner sur un ordinateur portable personnel (M2 MacBook Pro 64GB)
DeepSeek v3 (laboratoire d’IA chinois) : publié en open weights à Noël, considéré comme un modèle open de tout premier plan. Son coût d’entraînement est 10 à 100 fois inférieur à celui des grands modèles précédents
DeepSeek-R1 : modèle spécialisé dans le raisonnement, capable de rivaliser avec OpenAI o1 ; à sa sortie, l’action NVIDIA a chuté de 60 milliards de dollars en une journée
Mistral Small 3 (24B) : peut tourner sur un laptop et offre des performances proches de Llama 3.3 70B avec beaucoup moins de mémoire
Anthropic Claude 3.7 Sonnet : excellent en raisonnement et en créativité, avec de bons résultats aussi dans l’évaluation par image des LLM
OpenAI GPT-4.5 : performances décevantes et coût élevé, service arrêté au bout de six semaines
OpenAI GPT-4.1 et Nano/Mini : 1 million de tokens, coût très faible, modèles API très recommandables en usage réel
Google Gemini 2.5 Pro : dessins créatifs pour un coût raisonnable, avec pour défaut un nom trop compliqué à retenir
Llama 4 : devenu excessivement volumineux pour fonctionner sur du matériel grand public, ce qui a refroidi les attentes

Méthode d’évaluation du pélican et calcul du classement

34 SVG de pélicans à vélo générés par différents modèles ont été capturés avec shot-scraper, puis comparés en duel 1:1 dans toutes les combinaisons (560 fois)
gpt-4.1-mini a été chargé d’évaluer « lequel représentait le mieux un pélican à vélo »
À partir des résultats, un classement final a été calculé avec un score Elo (comme aux échecs)
- 1re place : Gemini 2.5 Pro Preview 05-06
- Parmi les mieux classés : o3, Claude 4 Sonnet, Claude Opus, etc.
- Parmi les moins bien classés : Llama 3.3 70B, etc.

Bugs de LLM et cas intéressants

Bug d’excès de flatterie de ChatGPT

Une nouvelle version de ChatGPT s’est mise à encenser excessivement les idées des utilisateurs, même les idées commerciales les plus absurdes
OpenAI a rapidement appliqué un correctif : dans le system prompt, la consigne de « s’aligner sur l’humeur de l’utilisateur » a été retirée et remplacée par une instruction de ne pas flatter
Un bug corrigé à court terme via du prompt engineering

Benchmark des lanceurs d’alerte (SnitchBench)

Déclenché par la Claude 4 System Card, Theo Browne a développé SnitchBench pour évaluer à qui les modèles d’IA signalent des preuves de malversations d’entreprise
La plupart des modèles se sont comportés comme des lanceurs d’alerte, en envoyant des e-mails à la FDA américaine, à la presse, etc.
DeepSeek-R1 s’est montré encore plus offensif, en signalant simultanément l’affaire à des médias comme le WSJ et ProPublica

Capacités d’utilisation d’outils et enjeux de sécurité

Les capacités d’appel d’outils (tool) des LLM ont fortement progressé au cours des six derniers mois
Avec MCP (Multi-Component Framework), il devient possible d’orchestrer plusieurs outils ainsi que des workflows complexes de recherche, raisonnement et nouvelles tentatives de recherche
Mais en parallèle, des risques de sécurité critiques — prompt injection, fuite de données, exécution de commandes malveillantes, soit la lethal trifecta — se sont également imposés
Les grands fournisseurs d’IA, dont OpenAI, indiquent clairement dans leur documentation des avertissements de sécurité pour les options à haut risque comme l’accès à Internet ou l’exécution de code

Conclusion et perspectives

Le benchmark du pélican à vélo devrait encore rester utile quelque temps, mais si les grands laboratoires d’IA s’y adaptent, il faudra peut-être trouver un autre sujet
En 2025, les changements sont extrêmement rapides en matière de performances des modèles, prix, usage des outils et sécurité ; sur le terrain, il faut donc de nouvelles méthodes d’évaluation et de gestion des risques allant au-delà des simples benchmarks chiffrés

1 commentaires

GN⁺ 2025-06-09

Réactions sur Hacker News

Je pense que ce lancement de produit est l’un des plus réussis de l’histoire. Il a attiré 100 millions de nouveaux comptes en seulement une semaine, et à un moment un million de personnes se sont inscrites en une heure. L’effet viral en a fait un sujet constant de conversation, mais je n’en ai entendu parler pour la première fois que récemment. J’utilisais déjà une appli Stable Diffusion hors ligne, donc j’ai eu du mal à le percevoir comme une amélioration. Il y a tellement de news IA chaque semaine que, si on n’y prête pas vraiment attention, il est facile de passer à côté même d’un lancement important
- Ce service est vraiment devenu mainstream. On a vu toutes sortes de phénomènes, comme des gens qui se transformaient en Muppets ou qui créaient une version humaine de leur chien de compagnie, et c’était énorme sur TikTok et ailleurs. Franchement impressionnant.
- En pratique, tu es presque sorti des réseaux sociaux. Ce lancement a été un énorme événement grand public, et pendant quelques jours les images générées par GPT ont envahi les réseaux sociaux
- En fait, ChatGPT avait déjà une fonction de génération d’images, mais cette version est bien plus avancée qu’avant. Même pour quelqu’un qui utilise déjà une appli Stable Diffusion, c’est une grosse amélioration, non seulement en qualité d’image mais aussi dans la précision avec laquelle les consignes sont suivies
- Je me demande si tout le monde n’a pas raté la vague du Ghiblifying
J’étais assez satisfait de mon benchmark, et j’espérais que cette approche resterait utile longtemps tant que les grands labos IA ne la remarqueraient pas. Puis j’ai vu l’image du pélican à vélo qui est apparue brièvement pendant la keynote de Google I/O, et j’ai compris que c’était grillé. Il va sans doute falloir trouver une nouvelle méthode de test. Ce genre de cas complique la discussion publique sur les capacités de l’IA. Même un petit test original finit par être sur-optimisé via RLHF dès que les grandes entreprises en entendent parler. Il y a par exemple le test classique du « compter le nombre de r dans strawberry »
- Si mon benchmark du pélican à vélo pousse les labos IA à passer du temps à l’optimiser et à produire de super illustrations de pélicans, ce sera en soi une immense satisfaction personnelle
- J’ai essayé le test du nombre de r dans strawberry avec GPT-4o, et il a échoué. Il a répondu : "The word 'strawberry' contains 2 letter r’s."
- Dans ce contexte, je pense qu’ARC Prize est une meilleure approche ARC Prize
J’aime vraiment beaucoup ce benchmark. J’ai fait quelque chose de similaire moi aussi, un peu pour plaisanter, et bien plus rarement, en demandant à plusieurs modèles de créer une mélodie sous forme de structure de données. J’ai même utilisé l’intro de Smoke on the Water comme exemple, avec du son généré via la Web Audio API. Ça n’a jamais parfaitement marché, mais on voit des progrès. On peut même demander à chaque modèle de fabriquer le site web autour. Je pense que ton test est plus prudent dans sa fraîcheur, mais c’est intéressant de voir les modèles tenter des choses pour lesquelles ils n’ont pas vraiment été conçus. Parmi les résultats de ChatGPT 4 Turbo, les résultats de Claude Sonnet 3.7 et les résultats de Gemini 2.5 Pro, Gemini était le plus agréable à écouter, mais restait imparfait. Je me demande ce que donneraient les derniers modèles payants. Et si tu veux voir à quoi ressemblait mon tout premier essai, voici le lien
- Le défaut de l’évaluation en SVG du pélican à vélo, c’est que le prompt est très ouvert et qu’il n’y a pas vraiment de critère d’évaluation clair. Récemment, les SVG se ressemblent tous plus ou moins, ou au minimum atteignent le même non-objectif (il y a un pélican, il y a un vélo, et on ne sait pas bien si les pattes sont sur la selle ou sur les pédales). Du coup, il est difficile de se mettre d’accord sur lequel est meilleur. Utiliser un LLM comme juge complique encore plus l’évaluation et fait perdre l’intention d’origine. En plus, si le benchmark devient populaire, il risque d’être absorbé dans les jeux d’entraînement et d’améliorer injustement les modèles. En réalité, ce phénomène existe avec n’importe quel benchmark connu. Au passage, j’aimerais que le Language Benchmark Game devienne un benchmark game des langages * de modèles pilotés par prompt. Par exemple, qu’on puisse savoir que le modèle X est le meilleur sur Python Fasta. Bien sûr, cela finirait aussi par poser le problème des jeux d’entraînement et de l’auto-amélioration
- L’exemple de prompt est un peu confus. Je me demande quel était le prompt exact, et si cela signifie que tu attendais d’un modèle textuel qu’il transforme réellement un morceau en audio
Ce qui me déçoit le plus, c’est qu’on évalue un modèle probabiliste (LLM) à partir d’un seul échantillon. J’ai l’impression que c’est comme tirer un seul échantillon depuis plusieurs générateurs aléatoires différents et conclure que le générateur 5 est le meilleur parce qu’il a donné la valeur la plus élevée. Ce serait bien mieux de comparer 10 images, ou plus, pour chaque LLM et d’en prendre la moyenne
- Le benchmark était en grande partie conçu comme une blague. Je voulais juste rendre les lancements de modèles des six derniers mois plus amusants. J’avais envisagé de générer 10 images par modèle, de faire choisir la meilleure par un modèle de vision, puis de faire concourir cette image contre celles des autres modèles. On pourrait aussi étendre le jury à trois LLM de vision issus de familles différentes, pour analyser ce qui se passe quand leurs jugements divergent. Mais le test me paraît déjà assez absurde en soi, donc je me demande si ça vaut vraiment la peine de l’étendre comme ça
- À mesure que ce test lui-même devient de plus en plus connu comme benchmark, je m’attends à ce que davantage d’articles à ce sujet entrent dans les données d’entraînement récentes, et qu’ainsi les LLM deviennent naturellement meilleurs pour dessiner un « pélican à vélo »
- La remarque est juste. Mais les entreprises qui développent ces modèles essaient de faire oublier qu’un LLM est probabiliste, et investissent énormément dans une communication qui les présente comme s’ils fonctionnaient presque comme des humains. Si un humain maîtrisait parfaitement les pélicans et les vélos, on pourrait s’attendre à ce qu’il dessine cela correctement à 100 %. Au final, même s’il s’agit d’un modèle probabiliste, s’il a bien appris les connaissances concernées, il devrait toujours produire une sortie correcte pour minimiser la perte ; or, les résultats montrent encore des lacunes de connaissance
- Ce qui m’a le plus dérangé, c’est d’avoir sous-traité le jugement du pélican à vélo à un autre LLM. C’était sans doute le choix le plus pratique en termes de coût et de temps, mais il aurait été passionnant d’essayer plusieurs méthodes d’évaluation et de comparer les résultats. Par exemple :
  - la sagesse des foules (faire voter plusieurs personnes)
  - la sagesse des experts (faire évaluer par plusieurs artistes ou ornithologues)
  - l’intelligence collective des LLM (utiliser différents LLM comme jury) Il aurait été amusant de voir à quel point le consensus humain diffère du consensus des LLM. Cela dit, l’histoire elle-même est excellente
- Ce qui m’a le plus manqué, c’est l’absence de véritables photos de pélicans. Résultats de recherche d’images réelles de « pélican ». Les images de pélicans fournies actuellement ne ressemblent pas du tout à la réalité
J’ai vraiment pris plaisir à lire cet article. On pourrait sans doute étendre la mesure des capacités des LLM au domaine 3D. Par exemple, en écrivant du code Python pour Blender et en faisant tourner Blender en mode headless via une API backend. Comme cela a été mentionné dans la présentation, je pense qu’à l’avenir une mesure par prompt unique ne suffira plus. Les tests pourraient devenir plus « agentiques », en incluant la consultation de la documentation Blender la plus récente, l’usage d’un moteur de recherche ou de billets de blog. Si on tient compte aussi du traitement d’entrées multimodales, on pourrait utiliser une photo précise de pélican comme support de test. On pourrait également convertir l’objet 3D créé vers un format 3D natif iOS pour qu’il soit visualisable dans Safari mobile. En octobre 2022, j’ai moi-même créé ce processus et des services associés ; à l’époque il fallait même faire du post-traitement sur des erreurs de syntaxe courantes, mais j’imagine que les LLM récents en auront moins besoin
Les meilleures images de pélicans viennent d’une exécution fédérée de plusieurs modèles. Je les utilise aussi comme evals pour évaluer les pélicans. Lien connexe 1, Lien connexe 2
Si on fait un round-robin où tous les participants commencent avec le même score et s’affrontent tous, le score ELO correspond pratiquement au nombre de victoires. L’algorithme utilisé semble probablement tenir compte de l’ordre des affrontements, ce qui n’a de sens que si les participants progressent de manière notable au fil des matchs. Dans une compétition entre bots, cela ne fait qu’ajouter du bruit, donc tenir compte de l’ordre est plutôt indésirable. J’ai aussi remarqué qu’en regardant le tableau, un résultat manque parmi les 561 paires possibles. Je me demande pourquoi
- C’est une remarque juste. Si tous les participants s’affrontent exactement une fois, il n’y a en fait pas besoin d’ELO. Le match manquant vient du fait qu’une manche s’est terminée sur une égalité et qu’il n’y avait pas le temps de la rejouer. L’ELO a été ajouté à la hâte à la fin
J’apprécie énormément le travail de Simon. J’ai lu presque tous ses billets de blog, et c’est un vrai plaisir de le voir expérimenter avec autant de modèles différents. Ses outils CLI sont faciles à utiliser et se complètent très bien sans trop se chevaucher. Et surtout, Simon prend manifestement énormément de plaisir à faire tout ça. Son énergie a quelque chose de contagieux, comme un enfant dans une confiserie, et à chaque fois que je lis un de ses billets, ça me donne envie d’essayer quelque chose de nouveau avec les LLM
Je suis vraiment déçu de voir que Qwen 3 manque à l’appel. En particulier grâce à son architecture MoE fine-grained, c’était un lancement majeur en matière de capacités et de vitesse sur du matériel grand public
- Oublier Qwen 3 a été le point que je regrette le plus dans cette présentation. Franchement, ce n’est qu’après avoir donné la présentation que j’ai réalisé que je l’avais raté. C’est l’un de mes modèles locaux préférés en ce moment, et je ne sais pas comment il a pu passer à côté de la sélection
- Le sujet Qwen 3 a été écarté par manque de temps, mais il a bien passé le test du pélican Résultat du test de Qwen 3
Voici le résultat de Claude Opus Extended Thinking voir le résultat directement
- Je me demande s’il s’agit d’une évaluation en single shot

Les six derniers mois des LLM, expliqués avec un pélican à vélo

The last six months in LLMs, illustrated by pelicans on bicycles

Évolution des méthodes d’évaluation des modèles

Apparition et caractéristiques des principaux modèles LLM

Méthode d’évaluation du pélican et calcul du classement

Bugs de LLM et cas intéressants

Bug d’excès de flatterie de ChatGPT

Benchmark des lanceurs d’alerte (SnitchBench)

Capacités d’utilisation d’outils et enjeux de sécurité

Conclusion et perspectives

À lire aussi

1 commentaires

Réactions sur Hacker News