Exactement. Moi aussi, au début, je pensais que la mémoire synthétique serait au moins meilleure que la baseline, donc j’ai été surpris en voyant les résultats.

En l’analysant, j’ai compris que le point clé était la « préservation de l’incertitude ». Dans les logs bruts, il reste des traces comme « j’ai essayé ça, mais ça n’a pas marché » ou « je ne connais pas la cause », si bien que l’agent répond qu’il ne sait pas quand il ne sait pas. Dans le résumé, en revanche, tout ce contexte disparaît, et il finit au contraire par donner avec assurance des réponses erronées.

 

C’est quelque chose que je ressentais déjà de façon empirique, mais la mémoire synthétique est encore bien plus désastreuse que je ne le pensais.

 

J’ai voulu l’essayer, mais il ne prend en charge que jusqu’à Gemini 2.5… La liste des modèles pris en charge aussi, elle a été codée en mode vibe coding ?

 

C’est intéressant, mais je me demande aussi s’ils n’ont pas simplement évolué vers l’option qui consomme le plus de tokens et facture donc le plus cher ; et en réalité, j’ai aussi l’impression que, pour certaines bibliothèques, l’IA est déjà entraînée dessus au point de pouvoir simplement les produire.
C’est aussi un peu étrange de penser que seules certaines bibliothèques vont se développer à cause des préférences des agents.

 

Au final, le département de la Défense américain a laissé de côté Anthropic pour choisir OpenAI, mais il y a une différence de formulation assez révélatrice.

OpenAI a proposé en même temps des mécanismes de mise en œuvre concrets comme la mise en place de garde-fous techniques, le déploiement de FDE (ingénieurs de terrain) et un déploiement dédié au cloud
Anthropic a demandé des clauses d’exception au niveau des conditions d’utilisation

Du point de vue du département de la Défense, cela a apparemment été perçu comme le fait qu’« une entreprise privée exerce un droit de veto sur des cas d’usage individuels », d’où une annonce qui ressemble presque à une sanction pour offense.

Cet accord a été annoncé peu après qu’Anthropic a été désignée comme risque pour la chaîne d’approvisionnement, et
si l’on en croit l’article d’Axios, le département de la Défense s’est servi de son affrontement avec Anthropic pour donner le ton dans ses négociations avec d’autres entreprises d’IA ;
OpenAI, sous cette pression, a donc réussi à conclure un accord sous une forme acceptable pour le Pentagone

La différence dans la formulation officielle est aussi frappante.

Sam Altman a déclaré que « le département de la Défense a montré un profond respect pour la sécurité », et
du côté d’Anthropic, le ton est resté jusqu’au bout celui de « nous ne pouvons pas en conscience accepter les exigences du département de la Défense »

Même avec des principes similaires, il semble que la différence ait surtout porté sur le fait de laisser ou non au département de la Défense une porte de sortie honorable ;
au final, comme l’acceptation d’OpenAI rendait la situation un peu bancale en apparence,
Sam Altman a ajouté à la fin : « veuillez proposer ces conditions à l’identique à toutes les entreprises d’IA »,
ce qui ressemble à un message indirect demandant d’assouplir les mesures prises contre Anthropic.

 

On ne pourrait pas simplement rester sur quelque chose de minimaliste...?
Ou alors, maintenant que WordPad a disparu, sortir à la place quelque chose de nouveau et plus léger...

 

En tant que développeur solo, j’exploite 7 projets, et cet article me parle douloureusement.

Grâce aux outils de code IA, la vitesse de développement initiale est devenue folle, mais le code accumulé rapidement sans tests finit par se transformer en enfer du refactoring. Surtout quand on exploite plusieurs services en même temps, les projets sans tests deviennent si effrayants qu’on hésite à y toucher, de peur qu’en modifiant une seule fonctionnalité, quelque chose casse ailleurs.

La métaphore « tests = moat » est juste. Un concurrent peut copier le code, mais il lui sera difficile de reproduire jusqu’à une suite de tests couvrant des milliers de cas limites. C’est d’autant plus vrai que, si l’IA sait bien générer du code, créer des scénarios de test pertinents reste encore un domaine où les connaissances métier humaines sont nécessaires.

 

J’ai une question pour les développeurs : pourquoi, ces derniers temps, la plupart des projets semblent-ils être développés en Rust plutôt qu’en Golang ? La raison principale est-elle surtout la présence ou l’absence d’un GC ?

 

Je l’ai trouvé vraiment bien.

 

Recherche intéressante. Le fait que, dans la catégorie « Build vs Buy », 12 catégories sur 20 relèvent du DIY est particulièrement marquant.

Nous avons fait une observation similaire en élaborant nous aussi un standard de persona pour agents IA (Soul Spec) : si les outils ne sont pas explicitement indiqués à Claude Code via CLAUDE.md ou AGENTS.md, il a une forte tendance à implémenter les choses à sa manière.

Ce que suggère le « Recency Gradient » de cette étude, c’est que, pour qu’un nouvel outil entre dans la stack par défaut de Claude, il doit soit être suffisamment exposé dans les données d’entraînement, soit être explicitement spécifié dans les fichiers de contexte du projet. En fin de compte, le Context Engineering finit donc par influencer aussi le choix des outils.

C’est aussi appréciable que le jeu de données original soit public : https://github.com/amplifying-ai/claude-code-picks

 

On appelle ça Assistive agent optimization (AAO), paraît-il.

Pour les outils destinés aux développeurs, il est désormais devenu important d’être des produits privilégiés par les agents.
Si les agents n’en parlent même pas, on s’en éloigne progressivement.

 

La boucle Ralph a aussi été ajoutée récemment, et vu l’ajout de la compétence Financial, on a l’impression que si on attend simplement, les fonctionnalités qui existaient dans les outils tiers finissent par être intégrées assez vite.

 
roxie 2026-02-28 | commentaire parent | dans: Aucune compétence. Aucun goût. (blog.kinglycrow.com)

On peut aussi traduire avec sa personnalité, j’imagine.

 
roxie 2026-02-27 | commentaire parent | dans: Le piège de l’ISBN (rygoldstein.com)

Il semble que l’emplacement de l’identifiant du contenu soit vide :(

 

En réalité, il faudra l’essayer pour le savoir, mais le site web est impressionnant.