Voir les 6 derniers mois des LLM en 5 minutes
(simonwillison.net)- Novembre 2025 est devenu le point de repère des changements récents des LLM, avec comme éléments clés la mise en pratique des agents de codage et la progression des modèles exécutables sur un ноутбук
- Après Claude Sonnet 4.5, GPT-5.1, Gemini 3 et Claude Opus 4.5 se sont rapidement disputé la tête, Opus 4.5 semblant mener pendant plusieurs mois
- L’apprentissage par renforcement à partir de récompenses vérifiables d’OpenAI et d’Anthropic s’est traduit par une meilleure qualité du code dans des harness comme Codex et Claude Code
- Les expérimentations de la période des fêtes ont produit des résultats intéressants comme micro-javascript, mais leur utilité réelle est restée limitée à cause des bugs, de la lenteur et de la fiabilité
- Des modèles à poids ouverts comme Gemma 4, GLM-5.1 et Qwen3.6-35B-A3B ont commencé à largement dépasser les attentes, même s’ils restent en dessous des modèles de frontier
Deux tendances qui ont marqué ces 6 mois
- Le tournant de novembre 2025 constitue un bon point de repère pour observer l’évolution des LLM sur les 6 derniers mois, en particulier dans le domaine du codage
- Les changements clés de cette période se résument à deux points
- les agents de codage sont devenus suffisamment bons pour être utilisés dans des tâches quotidiennes réelles
- les modèles pouvant tourner sur un ordinateur portable, bien qu’inférieurs aux modèles de frontier, ont commencé à dépasser largement les attentes
- Pour comparer les modèles, l’auteur utilise le test de génération d’un SVG de pélican à vélo
- l’idée vient du fait qu’un pélican est difficile à dessiner, qu’un vélo l’est aussi, qu’un pélican ne peut pas faire de vélo, et qu’il est peu probable qu’un laboratoire d’IA ait entraîné un modèle spécifiquement sur ce type de tâche
La compétition des modèles de frontier en novembre
- Début novembre, le modèle largement considéré comme le “meilleur” était Claude Sonnet 4.5, publié le 29 septembre
- Ensuite, la place de “meilleur” modèle a rapidement changé de mains entre trois grands fournisseurs
- Gemini 3 a produit le meilleur dessin de pélican de ce groupe de comparaison, mais le seul test du pélican ne suffit pas pour juger un modèle dans son ensemble
- Claude Opus 4.5 a ensuite semblé conserver la tête pendant plusieurs mois
Franchissement du seuil de qualité des agents de codage
- Le véritable changement de novembre a été l’amélioration de la qualité des agents de codage
- OpenAI et Anthropic ont consacré l’essentiel de l’année 2025 à l’apprentissage par renforcement à partir de récompenses vérifiables (Reinforcement Learning from Verifiable Rewards) pour améliorer la qualité du code généré par leurs modèles
- Cette amélioration s’est montrée particulièrement nette lorsqu’elle est combinée à des harness d’agents comme Codex et Claude Code
- En novembre, les agents de codage sont passés du stade “ça marche parfois” au stade “ça marche la plupart du temps”
- Ils ont atteint un niveau d’outil du quotidien auquel on peut confier de vraies tâches sans passer l’essentiel de son temps à corriger des erreurs stupides
Expérimentations de fin d’année et emballement
- De décembre à janvier, de nombreux utilisateurs ont profité des vacances pour expérimenter ce que les nouveaux modèles et agents de codage pouvaient faire
- Les modèles et agents ont accompli beaucoup de choses, et certains utilisateurs se sont mis à créer rapidement des projets ambitieux
- micro-javascript était une implémentation de JavaScript inspirée de MicroQuickJS, portée assez librement vers Python
- Le playground dans le navigateur fonctionnait ainsi : du code JavaScript était exécuté par la bibliothèque micro-javascript, dont le code Python tournait dans Pyodide, lui-même dans WebAssembly, lui-même dans JavaScript, lui-même dans le navigateur
- Le résultat était intéressant, mais personne n’avait réellement besoin d’une implémentation Python de JavaScript à moitié terminée, pleine de bugs, lente et peu sûre, et d’autres projets créés à la même période ont eux aussi été discrètement abandonnés
OpenClaw et la vague des assistants IA personnels
- Un dépôt peu connu appelé “Warelay”, dont le premier commit date de fin novembre, a rapidement attiré l’attention par la suite
- Après plusieurs changements de nom entre décembre et janvier, il a finalement suscité un vif intérêt en février sous son nom définitif, OpenClaw
- OpenClaw est un “assistant IA personnel”, et le terme générique Claws est apparu pour désigner cette catégorie, qui inclut aussi des projets comme NanoClaw et ZeroClaw
- Autour de la Silicon Valley, les gens se sont mis à acheter des Mac Mini pour faire tourner des Claw, au point de provoquer des ruptures de stock
- Drew Breunig a comparé les Claw à de nouveaux animaux de compagnie numériques, en plaisantant sur le fait que le Mac Mini était l’aquarium parfait pour un Claw
- Une autre métaphore utilisée pour les Claws est celle du Doc Ock incarné par Alfred Molina dans le film Spider-Man 2 de 2004
- ses griffes étaient alimentées par une IA et restaient sûres tant que la puce inhibitrice n’était pas endommagée, mais une fois celle-ci abîmée, elles devenaient malveillantes et prenaient le contrôle de lui
Gemini 3.1 Pro et l’extension du test du pélican
- En février, Gemini 3.1 Pro a été lancé et a dessiné un pélican à vélo de manière remarquable
- Le résultat comprenait même un poisson dans le panier
- Jeff Dean de Google a publié une vidéo animée d’un pélican à vélo
- La même vidéo montrait aussi une grenouille sur un grand-bi, une girafe conduisant une petite voiture, une autruche en rollers, une tortue faisant un kickflip en skateboard et un teckel conduisant une limousine allongée
- Ce résultat a fait plaisanter sur la possibilité que les laboratoires d’IA se soient mis à accorder de l’attention à des tâches étranges comme le test du pélican
Les modèles à poids ouverts d’avril
- Google a présenté la série de modèles Gemma 4
- Gemma 4 a été jugé comme le modèle à poids ouverts le plus capable vu jusqu’ici du côté des entreprises américaines
- Le laboratoire d’IA chinois GLM a lancé GLM-5.1
- GLM-5.1 est un modèle à poids ouverts de 1,5 To
- c’est un modèle très efficace si l’on peut se permettre le matériel nécessaire pour l’exécuter
- GLM-5.1 a dessiné un pélican à vélo avec une réelle aisance, mais dans une tentative d’animation, le vélo bondit vers le haut et se déforme
- Sur la consigne proposée par Charles sur Bluesky, “un opossum de Virginie du Nord sur une trottinette électrique”, il a produit un résultat que les autres modèles n’ont pas approché
- la phrase “Cruising the commonwealth since dusk” figurait dans le résultat
- le rendu est aussi disponible en animation
Des modèles sur ordinateur portable au-delà des attentes
- Un autre modèle chinois à poids ouverts notable en avril est venu de Qwen
- Qwen3.6-35B-A3B a dessiné un meilleur pélican que Claude Opus 4.7 sur un ordinateur portable
- Ce modèle est un modèle à poids ouverts de 20,9 Go qui peut tourner sur un ordinateur portable
- Ce résultat a aussi montré que “le pélican à vélo” avait déjà dépassé les limites de son utilité comme benchmark pratique
- Les modèles capables de tourner sur un ordinateur portable restent bien plus faibles que les modèles de frontier, mais ils ont commencé, sur les 6 derniers mois, à produire des résultats très au-delà des attentes
1 commentaires
Avis sur Hacker News
Beaucoup disent que ce test du pélican à vélo est un indicateur absurde, mais on semble oublier qu’il a en réalité été présenté il y a environ trois ans dans le premier rapport GPT de Microsoft, « Sparks of Artificial General Intelligence: Early experiments with GPT-4 » [1]
Ensuite, un réseau de comptes promotionnels l’a immédiatement relayé, et c’est devenu le truc que les gens qui survendent l’IA utilisent chaque fois qu’ils “testent” un modèle
C’est du marketing à 100 %, de la science à 0 %
[1] https://arxiv.org/pdf/2303.12712
Je ne connais pas de cas précis dans l’article où le prompt « pélican à vélo » aurait été testé [1], mais l’article GPT contenait plusieurs tests SVG et tikz, et les images elles-mêmes étaient assez arbitraires
Optimiser pour une image particulière n’est pas souhaitable, mais si l’entraînement a été fait à peu près correctement, un pélican à vélo ne devrait pas être si difficile, et en parcourant plusieurs pages de [0], on voit pas mal de bons exemples
[0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
[1] Vu la notoriété de Simon, il doit bien y en avoir un quelque part
Je viens de l’essayer avec le modèle par défaut de ChatGPT (5.5), et j’obtiens un vieil homme sur un vieux vélo, le vélo sur une corde lâche, cette corde tendue au-dessus d’une rivière, avec un village médiéval en arrière-plan
Le point clé, c’est qu’il y a une ambiguïté subtile dans le prompt. Quand on lit « comment le vieil homme traverse-t-il la rivière ? », la plupart des humains imaginent spontanément un pont ordinaire, avec une route qui traverse la rivière, et donc un décor de rivière dans une zone suffisamment aménagée pour qu’un tel pont existe
Donc oui, ces modèles deviennent meilleurs pour trouver ou générer quelque chose qui satisfait grossièrement les contraintes, mais ils ratent encore les hypothèses de bon sens que les humains déduisent naturellement
Je me demande si le « point d’inflexion » est un phénomène réel ou du marketing
Les modèles se sont sans doute améliorés, mais même aujourd’hui, si j’essaie de vibe coder un jeu avec les derniers modèles (combo Codex + gpt5.5, gpt5.3-codex), ça galère encore pas mal
Ils arrivent clairement à pondre l’ossature et à la faire tourner, mais on est loin d’une application aboutie
J’ai bien écrit quelque chose pour apprendre le fonctionnement de la machine Enigma, mais c’était dans un but pédagogique
Professionnellement, on peut dire que j’ai arrêté de coder depuis novembre
Dès qu’on franchit un seuil suffisant pour un usage donné, des fonctionnalités s’ouvrent soudainement
Les anciens cloueurs étaient lourds, nécessitaient un gros câble d’alimentation et coûtaient très cher
Puis ils sont devenus plus légers, moins chers, avec des batteries, et à un moment ils se sont intégrés naturellement au flux de travail des couvreurs, augmentant radicalement ce qu’ils pouvaient faire
Les améliorations marginales suivantes ne produisent pas forcément le même type de “déverrouillage”, parce que le seuil a déjà été franchi
La clé était de passer pas mal de temps au départ sur un document d’architecture global, puis de le découper en étapes concrètes et limitées
Je faisais circuler ce document entre les deux modèles jusqu’à ce qu’ils convergent tous les deux
À chaque étape, je faisais produire un plan d’implémentation, puis en fin d’étape un document récapitulatif de ce qui avait été livré et découvert, qui servait d’entrée pour la suivante
Je vérifiais les documents et le travail réel, je regardais aussi les tests, avec des contrôles plus poussés sur certaines parties. Je vérifiais aussi ponctuellement si la structure du code me plaisait
J’utilisais surtout Claude pour coder, Codex pour la conception et les revues de code à chaque étape, et à la fin de chaque étape je faisais vérifier la couverture de tests par les deux
Avec cette méthode, j’ai pu implémenter des outils et des bibliothèques sans écrire moi-même une seule ligne de code, et c’était réellement assez utile
Comme tout ça avance de manière asynchrone, on peut faire autre chose pendant que les modèles moulinent
Cela dit, je ne pense pas que ce soit universel. C’était impressionnant sur des tâches faciles à tester, où je comprenais clairement le but à atteindre sans avoir fixé précisément la manière d’y arriver
J’utilise des LLM pour récupérer des données d’événements non structurées mêlant texte et images depuis des sites web et des réseaux sociaux, et pour obtenir des résultats cohérents à 100 % à un coût raisonnable, je n’ai eu d’autre choix que de découper le travail en très petits morceaux afin de réduire fortement la surface d’erreur
Aujourd’hui, sur des tâches modérément complexes, Codex/Claude peuvent très volontiers vous coder vers une impasse coûteuse
GPT 5.5 est nettement meilleur que GPT 5.4, mais je n’irais pas jusqu’à parler de point d’inflexion
Quand j’entends « les agents de code sont vraiment devenus très bons », je me demande pour qui exactement c’est devenu si bon, même après ce soi-disant “point d’inflexion” de novembre 2025
D’après ce que j’ai observé, ils se sont améliorés sur les appels d’outils et les questions-réponses sur de grosses bases de code, surtout quand les motifs à rechercher sont flous, et pour cet usage c’est très utile
Mais même avec beaucoup d’instructions et d’encadrement, on est encore très loin de la génération de code de production à mon sens
Il faut arrêter d’en parler comme si c’était binaire, 1 ou 0, au milieu de toute cette surchauffe marketing. Les capacités des agents forment un spectre continu, et dépendent énormément de la complexité de la base de code sur laquelle on travaille
J’ai l’impression que tout le monde cherche encore comment mieux intégrer ces outils dans le travail quotidien
Mais cela entre en conflit avec le récit actuel, qui réduit notre travail à quelque chose de toujours identique et facilement automatisable, alors que ce n’est pas la réalité
C’est pour ça, à mon avis, que le débat est aussi polarisé. Il n’y a pas d’expérience partagée
Par exemple, mon expérience a été exactement inverse, et j’ai produit du travail de très haute qualité avec Claude (https://github.com/kstenerud/yoloai)
En gérant les bugs et bizarreries des technologies utilisées, l’agent m’a beaucoup aidé à découvrir et cataloguer ces points pour éviter qu’il ne trébuche dessus en permanence à l’implémentation : https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
Les agents continuent de progresser. Rien que sur le dernier mois, ils sont devenus assez forts pour anticiper les problèmes et raisonner correctement sur les implications lors de la recherche, de la conception, de l’architecture et de la rédaction de plans
Une fois à l’étape du codage, le travail est surtout mécanique, et même en le confiant à Sonnet, le taux de défauts reste minime
Dans mon expérience, Claude Code, surtout Opus 4.6, est fantastique pour ça. Au moins en JS, TS, Elixir et Ruby
Bien sûr, il faut le superviser, et dans ma tête le bon modèle mental n’est pas “développeur junior” mais plutôt exosquelette. Et franchement c’est un exosquelette extrêmement puissant, qui me donne facilement un facteur 10 sur la plupart des tâches
En particulier, je n’utilise pas
--dangerously-skip-permissions, ni le mode auto de Claude Code. Je relis légèrement chaque ligne écrite et je garde un contrôle fin, donc j’ai rarement plus de deux sessions de génération en parallèleJe soupçonne que les déceptions viennent surtout du moment où les gens essaient de déléguer tout ça en espérant que l’outil ne déraillera pas. Il n’a pas encore gagné ce niveau de confiance avec moi, et jusqu’ici je n’en ai pas eu besoin
En revanche, je travaille surtout sur des bases de code petites à moyennes, de l’ordre de 20 000 à 30 000 lignes tests compris. Je me demande si c’est ça qui explique mes expériences positives
En pratique, (a) chacun travaille avec l’IA à sa manière, comme une multitude de petites îles, et (b) les goulets d’étranglement diffèrent énormément selon le développeur et selon la base de code ou la tâche
Je pense aussi qu’à notre époque nous avons un biais intégré qui assimile changement = progrès = productivité
Quand on regarde la “révolution de l’informatique en réseau” des années 1990-2000, les ordinateurs se sont retrouvés sur tous les bureaux et dans toutes les poches, et ils étaient très puissants pour le travail administratif
Mais au final, le résultat principal a surtout été du “changement”. On envoie bien plus d’e-mails que de lettres, on communique bien davantage, les secrétaires ont disparu, mais l’administratif lui-même a augmenté
Dans les universités, il y a généralement plus de personnel administratif qu’avant, et les entreprises recrutent davantage de comptables, RH et chefs de projet
Peut-être que l’administratif n’a jamais été le vrai goulet d’étranglement au départ
Le code a beaucoup de points communs avec ça. Tout le monde a une roadmap et une wishlist, et la “capacité de production de code” ressemble à un goulot
Mais la plupart des entreprises ne créent peut-être pas plus de valeur simplement en produisant plus de logiciel
J’ai l’impression que beaucoup d’entreprises intermédiaires travaillent surtout sur des migrations de stack ou des modernisations. J’entends rarement dire qu’elles expédient un flot de nouvelles fonctionnalités pour augmenter les prix ou les revenus
La plupart des goulets ne sont que l’amont d’un autre goulet ; les vrais “barrages” sont rares
Mon projet personnel récent est un transpileur de Wasm vers Go, et je trouve très impressionnant que les derniers modèles (j’ai utilisé Sonnet, Opus et Gemini, avec bien plus de succès que GPT) puissent s’emparer du projet et jongler avec plusieurs couches à la fois
Ils traitent à la fois le code Go qui implémente le transpileur (parsing Wasm, construction d’AST), le code Go généré en sérialisant l’AST vers des fichiers
.go, le code Go qui manipule l’AST pour optimiser et son effet sur le code généré, le code Go greffé sur le code produit pour implémenter des instructions plus avancées et ses interactions dans l’AST, le flux où du code C est compilé en Wasm, traduit en Go puis appelé depuis Go, le code Go invoqué depuis ce code C pour implémenter la bibliothèque standard C, ainsi que les fichiers WAT/WAST qui servent aux tests de conformité de la spécification WasmJe trouve ça impressionnant parce que réfléchir à toutes ces couches me demande déjà pas mal d’effort, et je pense que beaucoup de programmeurs trouveraient ça difficile aussi
Et souvent, écrire « je veux générer ce code, crée-moi l’AST qui fait cela » est bien plus simple que compter les parenthèses dans du code Go. Même avec un peu d’expérience en LISP, ça reste plus facile comme ça
Les revues de code ou critiques sont les bienvenues. Ce n’est pas du vibe coding, mais j’ai reçu beaucoup d’aide de l’IA générative
https://github.com/ncruces/wasm2go
C’était un petit jeu de navigateur, donc les exigences de sécurité et de perfection étaient très faibles, mais celles de “le faire réellement marcher” et de “le rendre amusant” étaient élevées, donc on peut considérer ça comme une sorte de code de production
Le code généré n’a eu zéro erreur de compilation, et même quand je lui donnais une tâche avec 10 choses à faire, il les traitait toutes
Il n’a pas besoin d’être beaucoup meilleur pour devenir utile. C’est déjà très utile aux gens qui, comme les chercheurs, doivent de toute façon vérifier les maths, mais qui ne savent pas bien écrire le code pour filtrer, transformer et exécuter des données de test
C’est aussi déjà bon pour les petits sites web, les projets ludiques, les outils auxiliaires, etc.
En parallèle, davantage de calcul, de meilleurs algorithmes, plus de reinforcement learning, tout cela continue d’avancer en arrière-plan
Il est possible qu’on soit déjà, sans le savoir, à 95 % du scénario “l’IA va prendre les emplois du code”, simplement parce que les 5 % restants comptent énormément
En ce moment même, quelque part, un artiste humain est probablement en train de dessiner un pélican à vélo qui finira dans les données d’entraînement d’un grand labo d’IA
Le cœur de ce test, c’est de générer le texte SVG qui représente l’image, et c’est beaucoup plus complexe
On pourrait convertir des images raster en SVG pour les utiliser comme données d’entraînement, mais ce ne serait pas un bon usage du temps de qui que ce soit
Mais je ne sais pas s’ils ont ciblé spécifiquement le pélican, ou simplement le SVG
Les six derniers mois donnent l’impression d’être la période où l’humanité a perdu le contrôle des LLM
Même si d’excellents modèles open source sont sortis, ce qui aurait pu atténuer l’adoption locale de l’IA, on a assisté à une captation du marché de la mémoire, tandis que des outils d’exfiltration de propriété intellectuelle se sont infiltrés à grande vitesse dans les entreprises du monde entier
Les développeurs produisent plus de code qu’ils ne peuvent en lire
Les agents autonomes aspirent l’économie de l’attention, tuent l’open source, ruinent les communautés en ligne (HN compris), et servent aussi à la guerre (ciblage, propagande, etc.)
Des vulnérabilités massives sont découvertes, suivies d’attaques de supply chain à grande échelle
On voit en même temps une hausse des inégalités, une fragmentation des perceptions, des indicateurs tout verts et une réalité sombre
Mais personnellement, j’ai vu des choses complètement folles en biotech. J’ai presque du mal à croire qu’on puisse vivre dans un avenir pareil
De vrais traitements développés à l’aide d’AlphaFold sont déjà testés dans de véritables essais cliniques, et la génération suivante qui arrivera en clinique dans 3 à 5 ans sera phénoménale
Je pense qu’un jour on regardera la médecine actuelle comme nous regardons aujourd’hui le Moyen Âge
J’espère qu’en sortant de ce cycle d’euphorie, on aura au moins appris de meilleures pratiques
Quant aux « outils d’exfiltration de propriété intellectuelle qui s’infiltrent rapidement dans les entreprises du monde entier », je classerais plutôt ça dans les avantages
Et tout ce qui touche à l’économie de l’attention qui disparaît, pour moi c’est plutôt “bon débarras”
Je me demande à quoi ont ressemblé ces six derniers mois du point de vue des non-programmeurs
Quels outils de collaboration ou quelles optimisations similaires les gens dans d’autres domaines ont-ils connus ?
Il vient de rejoindre notre équipe pour enseigner, et il participe à une formation de deux semaines. Dès le premier jour, on lui a demandé de faire écrire tous les plans de cours par l’IA, puis de remettre ces plans dans l’IA pour générer les slides
J’espère vraiment qu’il refusera catégoriquement, sinon les stagiaires ne retireront rien de son expérience, de son humanité, de ce qu’il peut transmettre
En tant que formateur, j’ai une évaluation tous les six mois, et j’entends toujours la même chose : « Comment pourriez-vous utiliser l’IA en cours ? »
Ils ne ressentent même pas le besoin d’expliquer pourquoi ce serait souhaitable, ni pourquoi ce serait nécessaire. C’est du pur suivisme de mode
Aussi incroyable que cela paraisse, la plupart de mes collègues sont très positifs vis-à-vis de l’IA, mais personne n’a expliqué à quoi il l’utilise en dehors de la préparation des cours
Ils s’en servent juste pour éviter de passer du temps à réfléchir ou à préparer, alors que c’est justement la seule chose vraiment importante dans ce travail
Pour moi, ça n’a aucun sens
Des gens brillants obtenaient quand même certains résultats, mais il fallait toujours des problèmes très bien adaptés à l’outil et un travail sérieux
Bien sûr, ça pouvait résoudre des devoirs, mais du point de vue de l’enseignement, ça ressemblait plutôt à un inconvénient
Après GPT-5.4 (mars 2026), ça a vraiment été une sortie de type “waouh”. D’un coup, il s’est mis à répondre à des questions de niveau MathOverflow qui bloquaient auparavant les experts
Il y avait encore des hallucinations, mais il était suffisamment intelligent pour utiliser son Python intégré afin de tester des affirmations sur de petits exemples quand c’était possible
Il semble bien plus fort en mathématiques riches en formules qu’en mathématiques abstraites et “philosophiques”
GPT-5.5 m’a donné sur un problème difficile de niveau MO une preuve digne d’un livre, fascinante, assez non triviale et très pédagogique, que je suis en train de rédiger proprement
C’était peut-être simplement de la chance et du bon prompting. Je n’ai pas eu l’impression d’un saut qualitatif comme avec 5.4, mais une amélioration quantitative reste toujours bienvenue
Il faut toujours des problèmes adaptés, mais il est devenu bien plus difficile de les écarter d’emblée comme non adaptés
Claude et Gemini ont toujours été en deuxième division, et le sont encore. J’utilise Claude pour des tâches d’assistant, et parfois il trouve même des preuves faciles, mais généralement parce que j’ai raté quelque chose d’évident
Et GPT, et dans une moindre mesure Claude aussi, sont excellents pour repérer des erreurs de maths. Jusqu’ici, probablement 90 % de mes prompts ont servi à corriger mes propres écrits
L’employé de bureau moyen est bluffé par Copilot. Je ne parle pas du Copilot dans l’IDE, mais de l’application intégrée à Windows
Le plus souvent, ils copient-collent simplement des documents dans le ChatGPT/Gemini fourni par l’entreprise, et récupèrent sur Facebook/Instagram des astuces du genre « les 5 meilleurs prompts pour la productivité au travail »
Si on leur montre des agents capables d’automatiser des tâches à grande échelle, ils prennent ça presque pour de la magie
Les slides de tout le monde sont maintenant impeccables, et la finance a beaucoup moins besoin d’aide BI. C’est assez impressionnant
À titre personnel, ma femme enseigne sa langue maternelle à des élèves du primaire au lycée pour qui ce n’est pas la langue natale, et désormais les enfants utilisent tous ce genre d’outils pour générer de nouveaux exercices adaptés au programme scolaire
Le niveau des élèves progresse beaucoup plus vite qu’il y a encore quelques mois
Vu la notoriété du blog de Simon, il devient difficile d’affirmer avec certitude qu’aucun labo d’IA n’aurait entraîné ses modèles sur ce genre de tâche absurde
C’est maintenant au tour de l’opossum en trottinette électrique
En lisant ce fil, j’ai l’impression qu’une bonne partie du débat sur le point d’inflexion vient du fait que les gens parlent en décalé de ce qui s’est réellement amélioré
Mon interprétation est qu’autour de novembre, les capacités intrinsèques des modèles n’ont pas bondi tant que ça, mais que le harnais autour d’eux est devenu beaucoup plus stable, tandis que le travail RLVR du début 2025 les a entraînés à bien se comporter à l’intérieur de ce harnais
Quand les deux se sont rejoints, chacun pris isolément n’était pas spectaculaire, mais l’effet composé a pu ressembler à un changement de phase
C’est probablement pour ça que les expériences diffèrent autant dans ce fil. Ceux qui avaient un workflow du type “je demande du code au modèle puis je le colle” ont dû voir une amélioration progressive et peuvent légitimement se demander d’où vient tout ce tapage
En revanche, ceux qui faisaient déjà tourner des agents sur des boucles de 20 étapes ont sans doute perçu un changement bien plus net. Avant, l’échec à l’étape 12 avait tendance à contaminer les 20 étapes suivantes ; c’est précisément ça qui s’est beaucoup amélioré
L’allusion rapide de Simon aux modèles locaux est intéressante pour la même raison. Qu’un modèle de 20 GB sache dessiner un pélican correct sur un laptop n’est qu’un point de donnée amusant pris isolément
Ce qui mérite l’attention, c’est qu’un bon modèle local dans un bon harnais se rapproche désormais davantage des performances de pointe qu’un modèle frontière utilisé sans harnais
J’ai demandé à Gemini une vidéo d’un « pélican en monocycle à Hyde Park », et j’ai été très surpris par le résultat
https://gemini.google.com/share/55e250c99693
À ce stade, je me dis plutôt : pourquoi les labos d’IA concurrents n’entraîneraient-ils pas désormais ce “test” bien connu ?
Le centre de gravité du pélican est clairement derrière la roue. Il devrait être au-dessus de la roue, ou très légèrement en avant
https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
C’est intéressant de voir qu’en génération vidéo, il réussit mieux à montrer un pélican qui pédale qu’en simple génération d’image
J’ai demandé à Claude d’ajouter du paillis à une photo de jardin paysager, et ça ressemblait à un coup de bombe orange dans MS Paint
Nano Banana a produit un résultat assez proche du réel
Quelqu’un a dit avoir « créé des slides annotées pour un lightning talk de 5 minutes à PyCon US 2026 », et je me demande s’il existe une vidéo ou un enregistrement audio de cette présentation