Voir les 6 derniers mois des LLM en 5 minutes

(simonwillison.net)

9 points par GN⁺ 2026-05-20 | 1 commentaires | Partager sur WhatsApp

Novembre 2025 est devenu le point de repère des changements récents des LLM, avec comme éléments clés la mise en pratique des agents de codage et la progression des modèles exécutables sur un ноутбук
Après Claude Sonnet 4.5, GPT-5.1, Gemini 3 et Claude Opus 4.5 se sont rapidement disputé la tête, Opus 4.5 semblant mener pendant plusieurs mois
L’apprentissage par renforcement à partir de récompenses vérifiables d’OpenAI et d’Anthropic s’est traduit par une meilleure qualité du code dans des harness comme Codex et Claude Code
Les expérimentations de la période des fêtes ont produit des résultats intéressants comme micro-javascript, mais leur utilité réelle est restée limitée à cause des bugs, de la lenteur et de la fiabilité
Des modèles à poids ouverts comme Gemma 4, GLM-5.1 et Qwen3.6-35B-A3B ont commencé à largement dépasser les attentes, même s’ils restent en dessous des modèles de frontier

Deux tendances qui ont marqué ces 6 mois

Le tournant de novembre 2025 constitue un bon point de repère pour observer l’évolution des LLM sur les 6 derniers mois, en particulier dans le domaine du codage
Les changements clés de cette période se résument à deux points
- les agents de codage sont devenus suffisamment bons pour être utilisés dans des tâches quotidiennes réelles
- les modèles pouvant tourner sur un ordinateur portable, bien qu’inférieurs aux modèles de frontier, ont commencé à dépasser largement les attentes
Pour comparer les modèles, l’auteur utilise le test de génération d’un SVG de pélican à vélo
- l’idée vient du fait qu’un pélican est difficile à dessiner, qu’un vélo l’est aussi, qu’un pélican ne peut pas faire de vélo, et qu’il est peu probable qu’un laboratoire d’IA ait entraîné un modèle spécifiquement sur ce type de tâche

La compétition des modèles de frontier en novembre

Début novembre, le modèle largement considéré comme le “meilleur” était Claude Sonnet 4.5, publié le 29 septembre
Ensuite, la place de “meilleur” modèle a rapidement changé de mains entre trois grands fournisseurs
Gemini 3 a produit le meilleur dessin de pélican de ce groupe de comparaison, mais le seul test du pélican ne suffit pas pour juger un modèle dans son ensemble
Claude Opus 4.5 a ensuite semblé conserver la tête pendant plusieurs mois

Franchissement du seuil de qualité des agents de codage

Le véritable changement de novembre a été l’amélioration de la qualité des agents de codage
OpenAI et Anthropic ont consacré l’essentiel de l’année 2025 à l’apprentissage par renforcement à partir de récompenses vérifiables (Reinforcement Learning from Verifiable Rewards) pour améliorer la qualité du code généré par leurs modèles
Cette amélioration s’est montrée particulièrement nette lorsqu’elle est combinée à des harness d’agents comme Codex et Claude Code
En novembre, les agents de codage sont passés du stade “ça marche parfois” au stade “ça marche la plupart du temps”
Ils ont atteint un niveau d’outil du quotidien auquel on peut confier de vraies tâches sans passer l’essentiel de son temps à corriger des erreurs stupides

Expérimentations de fin d’année et emballement

De décembre à janvier, de nombreux utilisateurs ont profité des vacances pour expérimenter ce que les nouveaux modèles et agents de codage pouvaient faire
Les modèles et agents ont accompli beaucoup de choses, et certains utilisateurs se sont mis à créer rapidement des projets ambitieux
micro-javascript était une implémentation de JavaScript inspirée de MicroQuickJS, portée assez librement vers Python
Le playground dans le navigateur fonctionnait ainsi : du code JavaScript était exécuté par la bibliothèque micro-javascript, dont le code Python tournait dans Pyodide, lui-même dans WebAssembly, lui-même dans JavaScript, lui-même dans le navigateur
Le résultat était intéressant, mais personne n’avait réellement besoin d’une implémentation Python de JavaScript à moitié terminée, pleine de bugs, lente et peu sûre, et d’autres projets créés à la même période ont eux aussi été discrètement abandonnés

OpenClaw et la vague des assistants IA personnels

Un dépôt peu connu appelé “Warelay”, dont le premier commit date de fin novembre, a rapidement attiré l’attention par la suite
Après plusieurs changements de nom entre décembre et janvier, il a finalement suscité un vif intérêt en février sous son nom définitif, OpenClaw
OpenClaw est un “assistant IA personnel”, et le terme générique Claws est apparu pour désigner cette catégorie, qui inclut aussi des projets comme NanoClaw et ZeroClaw
Autour de la Silicon Valley, les gens se sont mis à acheter des Mac Mini pour faire tourner des Claw, au point de provoquer des ruptures de stock
Drew Breunig a comparé les Claw à de nouveaux animaux de compagnie numériques, en plaisantant sur le fait que le Mac Mini était l’aquarium parfait pour un Claw
Une autre métaphore utilisée pour les Claws est celle du Doc Ock incarné par Alfred Molina dans le film Spider-Man 2 de 2004
- ses griffes étaient alimentées par une IA et restaient sûres tant que la puce inhibitrice n’était pas endommagée, mais une fois celle-ci abîmée, elles devenaient malveillantes et prenaient le contrôle de lui

Gemini 3.1 Pro et l’extension du test du pélican

En février, Gemini 3.1 Pro a été lancé et a dessiné un pélican à vélo de manière remarquable
Le résultat comprenait même un poisson dans le panier
Jeff Dean de Google a publié une vidéo animée d’un pélican à vélo
La même vidéo montrait aussi une grenouille sur un grand-bi, une girafe conduisant une petite voiture, une autruche en rollers, une tortue faisant un kickflip en skateboard et un teckel conduisant une limousine allongée
Ce résultat a fait plaisanter sur la possibilité que les laboratoires d’IA se soient mis à accorder de l’attention à des tâches étranges comme le test du pélican

Les modèles à poids ouverts d’avril

Google a présenté la série de modèles Gemma 4
Gemma 4 a été jugé comme le modèle à poids ouverts le plus capable vu jusqu’ici du côté des entreprises américaines
Le laboratoire d’IA chinois GLM a lancé GLM-5.1
- GLM-5.1 est un modèle à poids ouverts de 1,5 To
- c’est un modèle très efficace si l’on peut se permettre le matériel nécessaire pour l’exécuter
GLM-5.1 a dessiné un pélican à vélo avec une réelle aisance, mais dans une tentative d’animation, le vélo bondit vers le haut et se déforme
Sur la consigne proposée par Charles sur Bluesky, “un opossum de Virginie du Nord sur une trottinette électrique”, il a produit un résultat que les autres modèles n’ont pas approché
- la phrase “Cruising the commonwealth since dusk” figurait dans le résultat
- le rendu est aussi disponible en animation

Des modèles sur ordinateur portable au-delà des attentes

Un autre modèle chinois à poids ouverts notable en avril est venu de Qwen
Qwen3.6-35B-A3B a dessiné un meilleur pélican que Claude Opus 4.7 sur un ordinateur portable
Ce modèle est un modèle à poids ouverts de 20,9 Go qui peut tourner sur un ordinateur portable
Ce résultat a aussi montré que “le pélican à vélo” avait déjà dépassé les limites de son utilité comme benchmark pratique
Les modèles capables de tourner sur un ordinateur portable restent bien plus faibles que les modèles de frontier, mais ils ont commencé, sur les 6 derniers mois, à produire des résultats très au-delà des attentes

1 commentaires

GN⁺ 2026-05-20

Avis sur Hacker News

Beaucoup disent que ce test du pélican à vélo est un indicateur absurde, mais on semble oublier qu’il a en réalité été présenté il y a environ trois ans dans le premier rapport GPT de Microsoft, « Sparks of Artificial General Intelligence: Early experiments with GPT-4 » [1]
Ensuite, un réseau de comptes promotionnels l’a immédiatement relayé, et c’est devenu le truc que les gens qui survendent l’IA utilisent chaque fois qu’ils “testent” un modèle
C’est du marketing à 100 %, de la science à 0 %
[1] https://arxiv.org/pdf/2303.12712
- Pour ceux que ça intéresse, il semble que la première utilisation publique par Simon date du 25 octobre 2024 [0]
  Je ne connais pas de cas précis dans l’article où le prompt « pélican à vélo » aurait été testé [1], mais l’article GPT contenait plusieurs tests SVG et tikz, et les images elles-mêmes étaient assez arbitraires
  Optimiser pour une image particulière n’est pas souhaitable, mais si l’entraînement a été fait à peu près correctement, un pélican à vélo ne devrait pas être si difficile, et en parcourant plusieurs pages de [0], on voit pas mal de bons exemples
  [0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
  [1] Vu la notoriété de Simon, il doit bien y en avoir un quelque part
- Mon test officieux personnel depuis l’arrivée de l’IA générative, c’était « une image d’un vieil homme traversant une rivière à vélo »
  Je viens de l’essayer avec le modèle par défaut de ChatGPT (5.5), et j’obtiens un vieil homme sur un vieux vélo, le vélo sur une corde lâche, cette corde tendue au-dessus d’une rivière, avec un village médiéval en arrière-plan
  Le point clé, c’est qu’il y a une ambiguïté subtile dans le prompt. Quand on lit « comment le vieil homme traverse-t-il la rivière ? », la plupart des humains imaginent spontanément un pont ordinaire, avec une route qui traverse la rivière, et donc un décor de rivière dans une zone suffisamment aménagée pour qu’un tel pont existe
  Donc oui, ces modèles deviennent meilleurs pour trouver ou générer quelque chose qui satisfait grossièrement les contraintes, mais ils ratent encore les hypothèses de bon sens que les humains déduisent naturellement
Je me demande si le « point d’inflexion » est un phénomène réel ou du marketing
Les modèles se sont sans doute améliorés, mais même aujourd’hui, si j’essaie de vibe coder un jeu avec les derniers modèles (combo Codex + gpt5.5, gpt5.3-codex), ça galère encore pas mal
Ils arrivent clairement à pondre l’ossature et à la faire tourner, mais on est loin d’une application aboutie
- Avant Opus 4.5, il fallait beaucoup les guider et coder pas mal soi-même, et je me souviens très nettement que depuis ce jour-là, je n’ai pratiquement plus écrit de code
  J’ai bien écrit quelque chose pour apprendre le fonctionnement de la machine Enigma, mais c’était dans un but pédagogique
  Professionnellement, on peut dire que j’ai arrêté de coder depuis novembre
- Paradoxalement, je pense qu’il peut y avoir plusieurs points d’inflexion même si le rendement marginal des capacités de base commence à diminuer
  Dès qu’on franchit un seuil suffisant pour un usage donné, des fonctionnalités s’ouvrent soudainement
  Les anciens cloueurs étaient lourds, nécessitaient un gros câble d’alimentation et coûtaient très cher
  Puis ils sont devenus plus légers, moins chers, avec des batteries, et à un moment ils se sont intégrés naturellement au flux de travail des couvreurs, augmentant radicalement ce qu’ils pouvaient faire
  Les améliorations marginales suivantes ne produisent pas forcément le même type de “déverrouillage”, parce que le seuil a déjà été franchi
- Récemment, j’ai combiné Codex 5.5 et Claude Code Opus 4.7 pour fabriquer en “vibe” des choses assez complexes
  La clé était de passer pas mal de temps au départ sur un document d’architecture global, puis de le découper en étapes concrètes et limitées
  Je faisais circuler ce document entre les deux modèles jusqu’à ce qu’ils convergent tous les deux
  À chaque étape, je faisais produire un plan d’implémentation, puis en fin d’étape un document récapitulatif de ce qui avait été livré et découvert, qui servait d’entrée pour la suivante
  Je vérifiais les documents et le travail réel, je regardais aussi les tests, avec des contrôles plus poussés sur certaines parties. Je vérifiais aussi ponctuellement si la structure du code me plaisait
  J’utilisais surtout Claude pour coder, Codex pour la conception et les revues de code à chaque étape, et à la fin de chaque étape je faisais vérifier la couverture de tests par les deux
  Avec cette méthode, j’ai pu implémenter des outils et des bibliothèques sans écrire moi-même une seule ligne de code, et c’était réellement assez utile
  Comme tout ça avance de manière asynchrone, on peut faire autre chose pendant que les modèles moulinent
  Cela dit, je ne pense pas que ce soit universel. C’était impressionnant sur des tâches faciles à tester, où je comprenais clairement le but à atteindre sans avoir fixé précisément la manière d’y arriver
- Ils vous font passer la ligne de départ, mais dès qu’on ouvre le code on voit du code dupliqué, des responsabilités mêlées, une mauvaise structure, des fichiers de 10 000 lignes qui engloutissent les tokens, bref un vrai chaos
  J’utilise des LLM pour récupérer des données d’événements non structurées mêlant texte et images depuis des sites web et des réseaux sociaux, et pour obtenir des résultats cohérents à 100 % à un coût raisonnable, je n’ai eu d’autre choix que de découper le travail en très petits morceaux afin de réduire fortement la surface d’erreur
  Aujourd’hui, sur des tâches modérément complexes, Codex/Claude peuvent très volontiers vous coder vers une impasse coûteuse
- L’Opus 4.5 de novembre 2025 a été, sincèrement et sans ironie, un vrai point d’inflexion, et selon moi l’unique raison de la frénésie actuelle
  GPT 5.5 est nettement meilleur que GPT 5.4, mais je n’irais pas jusqu’à parler de point d’inflexion
Quand j’entends « les agents de code sont vraiment devenus très bons », je me demande pour qui exactement c’est devenu si bon, même après ce soi-disant “point d’inflexion” de novembre 2025
D’après ce que j’ai observé, ils se sont améliorés sur les appels d’outils et les questions-réponses sur de grosses bases de code, surtout quand les motifs à rechercher sont flous, et pour cet usage c’est très utile
Mais même avec beaucoup d’instructions et d’encadrement, on est encore très loin de la génération de code de production à mon sens
Il faut arrêter d’en parler comme si c’était binaire, 1 ou 0, au milieu de toute cette surchauffe marketing. Les capacités des agents forment un spectre continu, et dépendent énormément de la complexité de la base de code sur laquelle on travaille
J’ai l’impression que tout le monde cherche encore comment mieux intégrer ces outils dans le travail quotidien
Mais cela entre en conflit avec le récit actuel, qui réduit notre travail à quelque chose de toujours identique et facilement automatisable, alors que ce n’est pas la réalité
C’est pour ça, à mon avis, que le débat est aussi polarisé. Il n’y a pas d’expérience partagée
- La polarisation vient du fait que différentes personnes rencontrent des expériences de codage et des qualités de sortie très différentes avec ces outils
  Par exemple, mon expérience a été exactement inverse, et j’ai produit du travail de très haute qualité avec Claude (https://github.com/kstenerud/yoloai)
  En gérant les bugs et bizarreries des technologies utilisées, l’agent m’a beaucoup aidé à découvrir et cataloguer ces points pour éviter qu’il ne trébuche dessus en permanence à l’implémentation : https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
  Les agents continuent de progresser. Rien que sur le dernier mois, ils sont devenus assez forts pour anticiper les problèmes et raisonner correctement sur les implications lors de la recherche, de la conception, de l’architecture et de la rédaction de plans
  Une fois à l’étape du codage, le travail est surtout mécanique, et même en le confiant à Sonnet, le taux de défauts reste minime
- Ça m’étonne d’entendre que les derniers modèles, même avec des instructions et de la supervision, ne seraient pas assez bons pour produire du code de production
  Dans mon expérience, Claude Code, surtout Opus 4.6, est fantastique pour ça. Au moins en JS, TS, Elixir et Ruby
  Bien sûr, il faut le superviser, et dans ma tête le bon modèle mental n’est pas “développeur junior” mais plutôt exosquelette. Et franchement c’est un exosquelette extrêmement puissant, qui me donne facilement un facteur 10 sur la plupart des tâches
  En particulier, je n’utilise pas --dangerously-skip-permissions, ni le mode auto de Claude Code. Je relis légèrement chaque ligne écrite et je garde un contrôle fin, donc j’ai rarement plus de deux sessions de génération en parallèle
  Je soupçonne que les déceptions viennent surtout du moment où les gens essaient de déléguer tout ça en espérant que l’outil ne déraillera pas. Il n’a pas encore gagné ce niveau de confiance avec moi, et jusqu’ici je n’en ai pas eu besoin
  En revanche, je travaille surtout sur des bases de code petites à moyennes, de l’ordre de 20 000 à 30 000 lignes tests compris. Je me demande si c’est ça qui explique mes expériences positives
- La qualité en codage est simplement très inégalement répartie
  En pratique, (a) chacun travaille avec l’IA à sa manière, comme une multitude de petites îles, et (b) les goulets d’étranglement diffèrent énormément selon le développeur et selon la base de code ou la tâche
  Je pense aussi qu’à notre époque nous avons un biais intégré qui assimile changement = progrès = productivité
  Quand on regarde la “révolution de l’informatique en réseau” des années 1990-2000, les ordinateurs se sont retrouvés sur tous les bureaux et dans toutes les poches, et ils étaient très puissants pour le travail administratif
  Mais au final, le résultat principal a surtout été du “changement”. On envoie bien plus d’e-mails que de lettres, on communique bien davantage, les secrétaires ont disparu, mais l’administratif lui-même a augmenté
  Dans les universités, il y a généralement plus de personnel administratif qu’avant, et les entreprises recrutent davantage de comptables, RH et chefs de projet
  Peut-être que l’administratif n’a jamais été le vrai goulet d’étranglement au départ
  Le code a beaucoup de points communs avec ça. Tout le monde a une roadmap et une wishlist, et la “capacité de production de code” ressemble à un goulot
  Mais la plupart des entreprises ne créent peut-être pas plus de valeur simplement en produisant plus de logiciel
  J’ai l’impression que beaucoup d’entreprises intermédiaires travaillent surtout sur des migrations de stack ou des modernisations. J’entends rarement dire qu’elles expédient un flot de nouvelles fonctionnalités pour augmenter les prix ou les revenus
  La plupart des goulets ne sont que l’amont d’un autre goulet ; les vrais “barrages” sont rares
- Je ne sais pas s’il y a eu un point d’inflexion, mais sur l’année écoulée c’est clairement devenu utile pour autre chose que l’autocomplétion
  Mon projet personnel récent est un transpileur de Wasm vers Go, et je trouve très impressionnant que les derniers modèles (j’ai utilisé Sonnet, Opus et Gemini, avec bien plus de succès que GPT) puissent s’emparer du projet et jongler avec plusieurs couches à la fois
  Ils traitent à la fois le code Go qui implémente le transpileur (parsing Wasm, construction d’AST), le code Go généré en sérialisant l’AST vers des fichiers .go, le code Go qui manipule l’AST pour optimiser et son effet sur le code généré, le code Go greffé sur le code produit pour implémenter des instructions plus avancées et ses interactions dans l’AST, le flux où du code C est compilé en Wasm, traduit en Go puis appelé depuis Go, le code Go invoqué depuis ce code C pour implémenter la bibliothèque standard C, ainsi que les fichiers WAT/WAST qui servent aux tests de conformité de la spécification Wasm
  Je trouve ça impressionnant parce que réfléchir à toutes ces couches me demande déjà pas mal d’effort, et je pense que beaucoup de programmeurs trouveraient ça difficile aussi
  Et souvent, écrire « je veux générer ce code, crée-moi l’AST qui fait cela » est bien plus simple que compter les parenthèses dans du code Go. Même avec un peu d’expérience en LISP, ça reste plus facile comme ça
  Les revues de code ou critiques sont les bienvenues. Ce n’est pas du vibe coding, mais j’ai reçu beaucoup d’aide de l’IA générative
  https://github.com/ncruces/wasm2go
- Hier, grâce à la limite de l’abonnement standard à 20 $ d’Anthropic, j’ai pu m’amuser toute la journée sans jamais toucher le plafond, et c’était vraiment fun
  C’était un petit jeu de navigateur, donc les exigences de sécurité et de perfection étaient très faibles, mais celles de “le faire réellement marcher” et de “le rendre amusant” étaient élevées, donc on peut considérer ça comme une sorte de code de production
  Le code généré n’a eu zéro erreur de compilation, et même quand je lui donnais une tâche avec 10 choses à faire, il les traitait toutes
  Il n’a pas besoin d’être beaucoup meilleur pour devenir utile. C’est déjà très utile aux gens qui, comme les chercheurs, doivent de toute façon vérifier les maths, mais qui ne savent pas bien écrire le code pour filtrer, transformer et exécuter des données de test
  C’est aussi déjà bon pour les petits sites web, les projets ludiques, les outils auxiliaires, etc.
  En parallèle, davantage de calcul, de meilleurs algorithmes, plus de reinforcement learning, tout cela continue d’avancer en arrière-plan
  Il est possible qu’on soit déjà, sans le savoir, à 95 % du scénario “l’IA va prendre les emplois du code”, simplement parce que les 5 % restants comptent énormément
En ce moment même, quelque part, un artiste humain est probablement en train de dessiner un pélican à vélo qui finira dans les données d’entraînement d’un grand labo d’IA
- Tous les modèles modernes de génération d’images savent déjà produire facilement un pélican sur un vélo
  Le cœur de ce test, c’est de générer le texte SVG qui représente l’image, et c’est beaucoup plus complexe
  On pourrait convertir des images raster en SVG pour les utiliser comme données d’entraînement, mais ce ne serait pas un bon usage du temps de qui que ce soit
- La qualité des pélicans de Gemini a progressé d’un coup énorme en une seule itération, alors que les autres benchmarks sont restés assez plats, donc ça pourrait bien être vrai
  Mais je ne sais pas s’ils ont ciblé spécifiquement le pélican, ou simplement le SVG
Les six derniers mois donnent l’impression d’être la période où l’humanité a perdu le contrôle des LLM
Même si d’excellents modèles open source sont sortis, ce qui aurait pu atténuer l’adoption locale de l’IA, on a assisté à une captation du marché de la mémoire, tandis que des outils d’exfiltration de propriété intellectuelle se sont infiltrés à grande vitesse dans les entreprises du monde entier
Les développeurs produisent plus de code qu’ils ne peuvent en lire
Les agents autonomes aspirent l’économie de l’attention, tuent l’open source, ruinent les communautés en ligne (HN compris), et servent aussi à la guerre (ciblage, propagande, etc.)
Des vulnérabilités massives sont découvertes, suivies d’attaques de supply chain à grande échelle
On voit en même temps une hausse des inégalités, une fragmentation des perceptions, des indicateurs tout verts et une réalité sombre
- Si on ne lit que les mauvaises nouvelles, surtout celles qui se vendent le mieux dans les médias grand public actuels, oui, on peut en arriver à ce tableau
  Mais personnellement, j’ai vu des choses complètement folles en biotech. J’ai presque du mal à croire qu’on puisse vivre dans un avenir pareil
  De vrais traitements développés à l’aide d’AlphaFold sont déjà testés dans de véritables essais cliniques, et la génération suivante qui arrivera en clinique dans 3 à 5 ans sera phénoménale
  Je pense qu’un jour on regardera la médecine actuelle comme nous regardons aujourd’hui le Moyen Âge
- Je pense que l’emballement autour de l’IA n’a fait que mettre davantage en lumière les failles du génie logiciel qui existaient déjà
  J’espère qu’en sortant de ce cycle d’euphorie, on aura au moins appris de meilleures pratiques
- Découvrir des vulnérabilités à grande échelle, c’est une bonne chose
- Metal Gear Solid 2 était une œuvre étrange et drôle jusqu’en 2025
- « Captation du marché de la mémoire », attends, c’est quoi ça ?
  Quant aux « outils d’exfiltration de propriété intellectuelle qui s’infiltrent rapidement dans les entreprises du monde entier », je classerais plutôt ça dans les avantages
  Et tout ce qui touche à l’économie de l’attention qui disparaît, pour moi c’est plutôt “bon débarras”
Je me demande à quoi ont ressemblé ces six derniers mois du point de vue des non-programmeurs
Quels outils de collaboration ou quelles optimisations similaires les gens dans d’autres domaines ont-ils connus ?
- Je suis formateur dans un programme d’apprentissage, et mon nouveau supérieur a environ 20 ans d’expérience dans le secteur ; c’est l’une des personnes les plus respectées de l’entreprise
  Il vient de rejoindre notre équipe pour enseigner, et il participe à une formation de deux semaines. Dès le premier jour, on lui a demandé de faire écrire tous les plans de cours par l’IA, puis de remettre ces plans dans l’IA pour générer les slides
  J’espère vraiment qu’il refusera catégoriquement, sinon les stagiaires ne retireront rien de son expérience, de son humanité, de ce qu’il peut transmettre
  En tant que formateur, j’ai une évaluation tous les six mois, et j’entends toujours la même chose : « Comment pourriez-vous utiliser l’IA en cours ? »
  Ils ne ressentent même pas le besoin d’expliquer pourquoi ce serait souhaitable, ni pourquoi ce serait nécessaire. C’est du pur suivisme de mode
  Aussi incroyable que cela paraisse, la plupart de mes collègues sont très positifs vis-à-vis de l’IA, mais personne n’a expliqué à quoi il l’utilise en dehors de la préparation des cours
  Ils s’en servent juste pour éviter de passer du temps à réfléchir ou à préparer, alors que c’est justement la seule chose vraiment importante dans ce travail
  Pour moi, ça n’a aucun sens
- En mathématiques pures, avant GPT-5.4, l’utilité était très limitée
  Des gens brillants obtenaient quand même certains résultats, mais il fallait toujours des problèmes très bien adaptés à l’outil et un travail sérieux
  Bien sûr, ça pouvait résoudre des devoirs, mais du point de vue de l’enseignement, ça ressemblait plutôt à un inconvénient
  Après GPT-5.4 (mars 2026), ça a vraiment été une sortie de type “waouh”. D’un coup, il s’est mis à répondre à des questions de niveau MathOverflow qui bloquaient auparavant les experts
  Il y avait encore des hallucinations, mais il était suffisamment intelligent pour utiliser son Python intégré afin de tester des affirmations sur de petits exemples quand c’était possible
  Il semble bien plus fort en mathématiques riches en formules qu’en mathématiques abstraites et “philosophiques”
  GPT-5.5 m’a donné sur un problème difficile de niveau MO une preuve digne d’un livre, fascinante, assez non triviale et très pédagogique, que je suis en train de rédiger proprement
  C’était peut-être simplement de la chance et du bon prompting. Je n’ai pas eu l’impression d’un saut qualitatif comme avec 5.4, mais une amélioration quantitative reste toujours bienvenue
  Il faut toujours des problèmes adaptés, mais il est devenu bien plus difficile de les écarter d’emblée comme non adaptés
  Claude et Gemini ont toujours été en deuxième division, et le sont encore. J’utilise Claude pour des tâches d’assistant, et parfois il trouve même des preuves faciles, mais généralement parce que j’ai raté quelque chose d’évident
  Et GPT, et dans une moindre mesure Claude aussi, sont excellents pour repérer des erreurs de maths. Jusqu’ici, probablement 90 % de mes prompts ont servi à corriger mes propres écrits
- Je travaille dans une entreprise qui déploie de l’IA en entreprise
  L’employé de bureau moyen est bluffé par Copilot. Je ne parle pas du Copilot dans l’IDE, mais de l’application intégrée à Windows
  Le plus souvent, ils copient-collent simplement des documents dans le ChatGPT/Gemini fourni par l’entreprise, et récupèrent sur Facebook/Instagram des astuces du genre « les 5 meilleurs prompts pour la productivité au travail »
  Si on leur montre des agents capables d’automatiser des tâches à grande échelle, ils prennent ça presque pour de la magie
- Autour de moi, pour les personnes non techniques, Claude dans Office a été le vrai déclic
  Les slides de tout le monde sont maintenant impeccables, et la finance a beaucoup moins besoin d’aide BI. C’est assez impressionnant
- En entreprise, on utilise des outils collaboratifs pour relire les e-mails et proposer des méthodes d’archivage, pour gérer fichiers et dossiers, et pour parcourir chaque jour l’intranet à la recherche de contenus intéressants et pertinents
  À titre personnel, ma femme enseigne sa langue maternelle à des élèves du primaire au lycée pour qui ce n’est pas la langue natale, et désormais les enfants utilisent tous ce genre d’outils pour générer de nouveaux exercices adaptés au programme scolaire
  Le niveau des élèves progresse beaucoup plus vite qu’il y a encore quelques mois
Vu la notoriété du blog de Simon, il devient difficile d’affirmer avec certitude qu’aucun labo d’IA n’aurait entraîné ses modèles sur ce genre de tâche absurde
- L’article lui-même reconnaît que « les labos d’IA ont peut-être fini par y prêter attention » et que « le pélican à vélo a surtout clairement dépassé ses limites comme benchmark utile »
- Plus loin dans son billet, Simon dit qu’en tenant compte du message où Jeff Dean mentionne la tâche du pélican à vélo, ainsi que du niveau actuel des modèles, ce n’est plus un bon benchmark
  C’est maintenant au tour de l’opossum en trottinette électrique
- Cette partie marchait probablement mieux à l’oral en présentation. C’était une montée en puissance pour la blague qui venait après
- C’est devenu de facto un benchmark. Certains de mes amis entraînent déjà explicitement les modèles à compter le nombre de R dans “strawberry”
En lisant ce fil, j’ai l’impression qu’une bonne partie du débat sur le point d’inflexion vient du fait que les gens parlent en décalé de ce qui s’est réellement amélioré
Mon interprétation est qu’autour de novembre, les capacités intrinsèques des modèles n’ont pas bondi tant que ça, mais que le harnais autour d’eux est devenu beaucoup plus stable, tandis que le travail RLVR du début 2025 les a entraînés à bien se comporter à l’intérieur de ce harnais
Quand les deux se sont rejoints, chacun pris isolément n’était pas spectaculaire, mais l’effet composé a pu ressembler à un changement de phase
C’est probablement pour ça que les expériences diffèrent autant dans ce fil. Ceux qui avaient un workflow du type “je demande du code au modèle puis je le colle” ont dû voir une amélioration progressive et peuvent légitimement se demander d’où vient tout ce tapage
En revanche, ceux qui faisaient déjà tourner des agents sur des boucles de 20 étapes ont sans doute perçu un changement bien plus net. Avant, l’échec à l’étape 12 avait tendance à contaminer les 20 étapes suivantes ; c’est précisément ça qui s’est beaucoup amélioré
L’allusion rapide de Simon aux modèles locaux est intéressante pour la même raison. Qu’un modèle de 20 GB sache dessiner un pélican correct sur un laptop n’est qu’un point de donnée amusant pris isolément
Ce qui mérite l’attention, c’est qu’un bon modèle local dans un bon harnais se rapproche désormais davantage des performances de pointe qu’un modèle frontière utilisé sans harnais
J’ai demandé à Gemini une vidéo d’un « pélican en monocycle à Hyde Park », et j’ai été très surpris par le résultat
https://gemini.google.com/share/55e250c99693
- D’après l’explication de l’auteur original, la raison d’utiliser ce test est qu’un pélican est difficile à dessiner, qu’un vélo aussi est difficile à dessiner, qu’un pélican ne peut pas faire de vélo, et qu’aucun labo d’IA n’aurait de raison d’entraîner un modèle sur une tâche aussi absurde
  À ce stade, je me dis plutôt : pourquoi les labos d’IA concurrents n’entraîneraient-ils pas désormais ce “test” bien connu ?
- Graphiquement, c’est parfait, mais sur le fond ça n’a aucun sens
  Le centre de gravité du pélican est clairement derrière la roue. Il devrait être au-dessus de la roue, ou très légèrement en avant
- Grok m’a aussi surpris
  https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
  C’est intéressant de voir qu’en génération vidéo, il réussit mieux à montrer un pélican qui pédale qu’en simple génération d’image
- Google/Gemini est assez impressionnant sur les capacités audiovisuelles
  J’ai demandé à Claude d’ajouter du paillis à une photo de jardin paysager, et ça ressemblait à un coup de bombe orange dans MS Paint
  Nano Banana a produit un résultat assez proche du réel
- C’est vraiment impressionnant, et un peu inquiétant pour les créateurs côté cinéma, animation et modélisation
Quelqu’un a dit avoir « créé des slides annotées pour un lightning talk de 5 minutes à PyCon US 2026 », et je me demande s’il existe une vidéo ou un enregistrement audio de cette présentation

Voir les 6 derniers mois des LLM en 5 minutes

Deux tendances qui ont marqué ces 6 mois

La compétition des modèles de frontier en novembre

Franchissement du seuil de qualité des agents de codage

Expérimentations de fin d’année et emballement

OpenClaw et la vague des assistants IA personnels

Gemini 3.1 Pro et l’extension du test du pélican

Les modèles à poids ouverts d’avril

Des modèles sur ordinateur portable au-delà des attentes

À lire aussi

1 commentaires

Avis sur Hacker News