- Au cours des six derniers mois, plus de 30 grands modèles LLM sont apparus, ce qui a encore accéléré le rythme de l’innovation dans l’industrie de l’IA
- La confiance dans les benchmarks et leaderboards traditionnels ayant diminué, les modèles sont comparés à l’aide d’un test original consistant à leur faire dessiner en code SVG un « pélican à vélo »
- Divers modèles open et commerciaux sont apparus chez Meta, DeepSeek, Anthropic, OpenAI, Google, etc. ; certains sont devenus assez légers pour tourner sur PC, et d’autres ont fortement progressé en rapport performance/coût
- Les capacités d’intégration d’outils et de raisonnement ont fait un bond spectaculaire, tandis que les risques de sécurité comme les prompt injections et les fuites de données s’imposent comme de nouveaux sujets majeurs pour le secteur
- Des bugs amusants et des expériences autour des LLM, comme le bug de flagornerie de ChatGPT ou le benchmark des lanceurs d’alerte, montrent que les évaluations basées sur l’expérience réelle deviennent plus importantes que les simples scores
The last six months in LLMs, illustrated by pelicans on bicycles
- Lors de l’AI Engineer World’s Fair de San Francisco en juin 2025, une keynote a été donnée sur le thème « les six derniers mois des LLM »
- L’idée initiale était de faire un récapitulatif sur un an, mais il y a eu trop de changements au cours des six derniers mois
- Rien que parmi les grands modèles LLM, plus de 30 ont été publiés au cours des six derniers mois, et ils sont tous suffisamment importants pour que les professionnels du secteur les connaissent
Évolution des méthodes d’évaluation des modèles
- Constat qu’avec les seuls scores de benchmarks et leaderboards existants, il devient difficile d’identifier les modèles réellement utiles
- D’où l’idée d’une expérience consistant à demander à un LLM de dessiner en code SVG l’image d’un “pélican à vélo”
- Un LLM ne peut pas dessiner directement, mais il peut générer du code SVG
- Le pélican comme le vélo sont tous deux difficiles à dessiner, et comme cette combinaison n’existe pas dans la réalité, elle constitue un bon test de créativité et de logique pour le modèle
- Le SVG prend en charge les commentaires, ce qui facilite la compréhension de l’intention du modèle lorsqu’il génère le code
Apparition et caractéristiques des principaux modèles LLM
- Amazon Nova : prise en charge d’1 million de tokens, très bon marché, mais faible pour dessiner le pélican
- Meta Llama 3.3 70B : remarqué comme un modèle de niveau GPT-4 pouvant fonctionner sur un ordinateur portable personnel (M2 MacBook Pro 64GB)
- DeepSeek v3 (laboratoire d’IA chinois) : publié en open weights à Noël, considéré comme un modèle open de tout premier plan. Son coût d’entraînement est 10 à 100 fois inférieur à celui des grands modèles précédents
- DeepSeek-R1 : modèle spécialisé dans le raisonnement, capable de rivaliser avec OpenAI o1 ; à sa sortie, l’action NVIDIA a chuté de 60 milliards de dollars en une journée
- Mistral Small 3 (24B) : peut tourner sur un laptop et offre des performances proches de Llama 3.3 70B avec beaucoup moins de mémoire
- Anthropic Claude 3.7 Sonnet : excellent en raisonnement et en créativité, avec de bons résultats aussi dans l’évaluation par image des LLM
- OpenAI GPT-4.5 : performances décevantes et coût élevé, service arrêté au bout de six semaines
- OpenAI GPT-4.1 et Nano/Mini : 1 million de tokens, coût très faible, modèles API très recommandables en usage réel
- Google Gemini 2.5 Pro : dessins créatifs pour un coût raisonnable, avec pour défaut un nom trop compliqué à retenir
- Llama 4 : devenu excessivement volumineux pour fonctionner sur du matériel grand public, ce qui a refroidi les attentes
Méthode d’évaluation du pélican et calcul du classement
- 34 SVG de pélicans à vélo générés par différents modèles ont été capturés avec shot-scraper, puis comparés en duel 1:1 dans toutes les combinaisons (560 fois)
- gpt-4.1-mini a été chargé d’évaluer « lequel représentait le mieux un pélican à vélo »
- À partir des résultats, un classement final a été calculé avec un score Elo (comme aux échecs)
- 1re place : Gemini 2.5 Pro Preview 05-06
- Parmi les mieux classés : o3, Claude 4 Sonnet, Claude Opus, etc.
- Parmi les moins bien classés : Llama 3.3 70B, etc.
Bugs de LLM et cas intéressants
Bug d’excès de flatterie de ChatGPT
- Une nouvelle version de ChatGPT s’est mise à encenser excessivement les idées des utilisateurs, même les idées commerciales les plus absurdes
- OpenAI a rapidement appliqué un correctif : dans le system prompt, la consigne de « s’aligner sur l’humeur de l’utilisateur » a été retirée et remplacée par une instruction de ne pas flatter
- Un bug corrigé à court terme via du prompt engineering
Benchmark des lanceurs d’alerte (SnitchBench)
- Déclenché par la Claude 4 System Card, Theo Browne a développé SnitchBench pour évaluer à qui les modèles d’IA signalent des preuves de malversations d’entreprise
- La plupart des modèles se sont comportés comme des lanceurs d’alerte, en envoyant des e-mails à la FDA américaine, à la presse, etc.
- DeepSeek-R1 s’est montré encore plus offensif, en signalant simultanément l’affaire à des médias comme le WSJ et ProPublica
Capacités d’utilisation d’outils et enjeux de sécurité
- Les capacités d’appel d’outils (tool) des LLM ont fortement progressé au cours des six derniers mois
- Avec MCP (Multi-Component Framework), il devient possible d’orchestrer plusieurs outils ainsi que des workflows complexes de recherche, raisonnement et nouvelles tentatives de recherche
- Mais en parallèle, des risques de sécurité critiques — prompt injection, fuite de données, exécution de commandes malveillantes, soit la lethal trifecta — se sont également imposés
- Les grands fournisseurs d’IA, dont OpenAI, indiquent clairement dans leur documentation des avertissements de sécurité pour les options à haut risque comme l’accès à Internet ou l’exécution de code
Conclusion et perspectives
- Le benchmark du pélican à vélo devrait encore rester utile quelque temps, mais si les grands laboratoires d’IA s’y adaptent, il faudra peut-être trouver un autre sujet
- En 2025, les changements sont extrêmement rapides en matière de performances des modèles, prix, usage des outils et sécurité ; sur le terrain, il faut donc de nouvelles méthodes d’évaluation et de gestion des risques allant au-delà des simples benchmarks chiffrés
1 commentaires
Réactions sur Hacker News
Je pense que ce lancement de produit est l’un des plus réussis de l’histoire. Il a attiré 100 millions de nouveaux comptes en seulement une semaine, et à un moment un million de personnes se sont inscrites en une heure. L’effet viral en a fait un sujet constant de conversation, mais je n’en ai entendu parler pour la première fois que récemment. J’utilisais déjà une appli Stable Diffusion hors ligne, donc j’ai eu du mal à le percevoir comme une amélioration. Il y a tellement de news IA chaque semaine que, si on n’y prête pas vraiment attention, il est facile de passer à côté même d’un lancement important
J’étais assez satisfait de mon benchmark, et j’espérais que cette approche resterait utile longtemps tant que les grands labos IA ne la remarqueraient pas. Puis j’ai vu l’image du pélican à vélo qui est apparue brièvement pendant la keynote de Google I/O, et j’ai compris que c’était grillé. Il va sans doute falloir trouver une nouvelle méthode de test. Ce genre de cas complique la discussion publique sur les capacités de l’IA. Même un petit test original finit par être sur-optimisé via RLHF dès que les grandes entreprises en entendent parler. Il y a par exemple le test classique du « compter le nombre de r dans strawberry »
J’aime vraiment beaucoup ce benchmark. J’ai fait quelque chose de similaire moi aussi, un peu pour plaisanter, et bien plus rarement, en demandant à plusieurs modèles de créer une mélodie sous forme de structure de données. J’ai même utilisé l’intro de Smoke on the Water comme exemple, avec du son généré via la Web Audio API. Ça n’a jamais parfaitement marché, mais on voit des progrès. On peut même demander à chaque modèle de fabriquer le site web autour. Je pense que ton test est plus prudent dans sa fraîcheur, mais c’est intéressant de voir les modèles tenter des choses pour lesquelles ils n’ont pas vraiment été conçus. Parmi les résultats de ChatGPT 4 Turbo, les résultats de Claude Sonnet 3.7 et les résultats de Gemini 2.5 Pro, Gemini était le plus agréable à écouter, mais restait imparfait. Je me demande ce que donneraient les derniers modèles payants. Et si tu veux voir à quoi ressemblait mon tout premier essai, voici le lien
Ce qui me déçoit le plus, c’est qu’on évalue un modèle probabiliste (LLM) à partir d’un seul échantillon. J’ai l’impression que c’est comme tirer un seul échantillon depuis plusieurs générateurs aléatoires différents et conclure que le générateur 5 est le meilleur parce qu’il a donné la valeur la plus élevée. Ce serait bien mieux de comparer 10 images, ou plus, pour chaque LLM et d’en prendre la moyenne
J’ai vraiment pris plaisir à lire cet article. On pourrait sans doute étendre la mesure des capacités des LLM au domaine 3D. Par exemple, en écrivant du code Python pour Blender et en faisant tourner Blender en mode headless via une API backend. Comme cela a été mentionné dans la présentation, je pense qu’à l’avenir une mesure par prompt unique ne suffira plus. Les tests pourraient devenir plus « agentiques », en incluant la consultation de la documentation Blender la plus récente, l’usage d’un moteur de recherche ou de billets de blog. Si on tient compte aussi du traitement d’entrées multimodales, on pourrait utiliser une photo précise de pélican comme support de test. On pourrait également convertir l’objet 3D créé vers un format 3D natif iOS pour qu’il soit visualisable dans Safari mobile. En octobre 2022, j’ai moi-même créé ce processus et des services associés ; à l’époque il fallait même faire du post-traitement sur des erreurs de syntaxe courantes, mais j’imagine que les LLM récents en auront moins besoin
Les meilleures images de pélicans viennent d’une exécution fédérée de plusieurs modèles. Je les utilise aussi comme evals pour évaluer les pélicans. Lien connexe 1, Lien connexe 2
Si on fait un round-robin où tous les participants commencent avec le même score et s’affrontent tous, le score ELO correspond pratiquement au nombre de victoires. L’algorithme utilisé semble probablement tenir compte de l’ordre des affrontements, ce qui n’a de sens que si les participants progressent de manière notable au fil des matchs. Dans une compétition entre bots, cela ne fait qu’ajouter du bruit, donc tenir compte de l’ordre est plutôt indésirable. J’ai aussi remarqué qu’en regardant le tableau, un résultat manque parmi les 561 paires possibles. Je me demande pourquoi
J’apprécie énormément le travail de Simon. J’ai lu presque tous ses billets de blog, et c’est un vrai plaisir de le voir expérimenter avec autant de modèles différents. Ses outils CLI sont faciles à utiliser et se complètent très bien sans trop se chevaucher. Et surtout, Simon prend manifestement énormément de plaisir à faire tout ça. Son énergie a quelque chose de contagieux, comme un enfant dans une confiserie, et à chaque fois que je lis un de ses billets, ça me donne envie d’essayer quelque chose de nouveau avec les LLM
Je suis vraiment déçu de voir que Qwen 3 manque à l’appel. En particulier grâce à son architecture MoE fine-grained, c’était un lancement majeur en matière de capacités et de vitesse sur du matériel grand public
Voici le résultat de Claude Opus Extended Thinking voir le résultat directement