Moi aussi, j’ai mis un peu de tout dans le même sac, dans le même esprit que ce que disait Osmani,
et comme ce sujet est arrivé pendant que je développais une appli, j’ai un peu précipité les choses,
mais je me dis qu’au lieu de se contenter d’en parler, Osmani aurait peut-être mieux fait d’intégrer ce qu’il racontait dans Google Anti-Gravity.
C’est pareil pour Kapasi : maintenant, au lieu de vraiment construire quelque chose, ils balancent juste un texte vite fait et s’arrêtent là… bof, quoi !
Le système (le harnais) détermine davantage le succès ou l’échec que le modèle : les performances de l’IA dépendent moins du modèle lui-même, comme GPT ou Claude, que de la conception de l’environnement de travail qui l’entoure — prompts, outils, sandbox, boucles de feedback, etc. — appelé « harnais ».
Le principe du « ratchet » : il faut éviter de considérer les erreurs de l’IA comme de simples accidents et les répercuter immédiatement dans la documentation des règles (AGENTS.md, par exemple) ou dans des hooks, afin que le système devienne plus robuste avec le temps.
Le problème vient souvent de la configuration (skill), pas du modèle : si l’IA travaille mal, c’est souvent moins à cause d’un manque d’intelligence du modèle que d’une mauvaise conception du harnais, et une approche d’ingénierie consistant à concevoir, à rebours du résultat souhaité, les composants nécessaires et les contraintes est indispensable.
Autrefois, même quand j’écrivais clairement dans le prompt « fais A », il ne le respectait toujours pas avec une certaine probabilité, donc j’ai tout essayé : le mettre en gras en mrkdwn, l’écrire deux fois, l’écrire en anglais, le formuler en chiasme, l’écrire en XML… mais il finissait quand même par ignorer le prompt avec une certaine probabilité...
Mais quand on met dans le prompt « fais A, ne fais pas B », cette approche semble valable si le modèle le comprend vraiment bien ; mais si, selon l’état du serveur IA, le prompt n’est suivi que de manière probabiliste, est-ce que cette approche reste vraiment efficace ?
Ils pensent qu’on ne remarquera pas une baisse de performances glissée via un patch discret, mais en réalité l’intuition humaine est plus affûtée qu’on ne le croit, donc si je combine mon ressenti avec ce que racontent les gens de la communauté, on a tout de suite la réponse.
« Alors, toi, qu’est-ce que tu sais faire au juste ? mdr » — du coup, on n’a pas vraiment le choix, on l’utilise quand même….
À l’époque du modèle 5.3 dédié à codex, on avait vraiment l’impression de parler à un employé subalterne qui n’avait aucun sens de la conversation mais qui codait très bien.
À partir de la 5.4, il a commencé à parler un peu, et depuis la 5.5, on dirait qu’il a retrouvé à moitié ses esprits.
Il continue quand même à appeler une API un contrat, ou à mélanger parfois l’anglais et le coréen de façon complètement folle, au point qu’il faut lui écrire : « Explique-le de façon simple, en évitant au maximum l’anglais. »
Malgré ça, en termes de génération de code, j’ai l’impression qu’il a dépassé opus à partir de la 5.4. Opus 4.7 est sorti, mais je ne l’ai même pas essayé vite fait. Ça ressemble encore trop à du marketing à la "Anthropic", c’est évident.
Mais Harness, jusqu’à la semaine dernière, était vendu à fond, et depuis cette semaine c’est beaucoup plus calme… Peut-être à cause des ratés d’Anthropic et parce que Codex 5.5 est excellent, j’imagine…
Je l’utilise depuis plusieurs années, mais avec le passage à une approche orientée agents, j’ai l’impression qu’il perd progressivement de sa valeur haha.
Cela dit, comme je m’en sers souvent pour rédiger des documents personnels ou coder à la main, ça aide quand même pas mal au final.
Sans augmentation du quota, si on passe à un multiplicateur de 27, est-ce que le coding agentique ne devient pas tout simplement inutilisable ?
VibeVoice - le modèle IA vocal open source de nouvelle génération de Microsoft
Sur GeekNews, il avait été publié dès le début, mais en raison d’un problème, le code VibeVoice-TTS a été retiré.
Pour le TTS, il semble que seul VibeVoice-Realtime soit actuellement disponible.
Ces derniers jours, on le voit de nouveau un peu partout, sans doute parce que VibeVoice-ASR revient en popularité.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison l’a testé, et sur Mac il peut être lancé en une seule ligne de commande avec uv et mlx-audio.
Il aurait traité environ 1 heure d’audio en seulement 8 min 45 s sur un MacBook Pro M5 Max avec 128 Go de mémoire.
On peut voir ça comme un « Whisper avec une bonne séparation des locuteurs ».
C’est une analyse d’un article de développeur senior qui rend très crédibles des propos assez creux à mes yeux (désolé, personnellement je n’aime pas Google). Cela dit, je pense bien sûr que l’approche consistant à essayer de comprendre le phénomène est une bonne tentative.
Des trucs comme le SDD ont déjà perdu leur hype, donc j’imagine que c’est maintenant l’ère du harnais.
Ce qui est assez étonnant avec le harnais, c’est que même si ce concept n’était manifestement pas dans les données d’entraînement, le modèle l’a compris très vite.
C’est peut-être parce qu’il réutilise simplement le sens existant du mot ; je ne l’avais même pas mentionné qu’il disait déjà des choses comme « mettre à jour le harnais ».
Moi aussi, j’ai mis un peu de tout dans le même sac, dans le même esprit que ce que disait Osmani,
et comme ce sujet est arrivé pendant que je développais une appli, j’ai un peu précipité les choses,
mais je me dis qu’au lieu de se contenter d’en parler, Osmani aurait peut-être mieux fait d’intégrer ce qu’il racontait dans Google Anti-Gravity.
C’est pareil pour Kapasi : maintenant, au lieu de vraiment construire quelque chose, ils balancent juste un texte vite fait et s’arrêtent là… bof, quoi !
https://github.com/hang-in/tunaFlow
https://docs.github.com/ko/copilot/…
Oui
Résumé en 3 points
AGENTS.md, par exemple) ou dans des hooks, afin que le système devienne plus robuste avec le temps.Je m’en servirai comme référence. Merci.
Feuille de route https://tolaria.canny.io/
Autrefois, même quand j’écrivais clairement dans le prompt « fais A », il ne le respectait toujours pas avec une certaine probabilité, donc j’ai tout essayé : le mettre en gras en
mrkdwn, l’écrire deux fois, l’écrire en anglais, le formuler en chiasme, l’écrire en XML… mais il finissait quand même par ignorer le prompt avec une certaine probabilité...Mais quand on met dans le prompt « fais A, ne fais pas B », cette approche semble valable si le modèle le comprend vraiment bien ; mais si, selon l’état du serveur IA, le prompt n’est suivi que de manière probabiliste, est-ce que cette approche reste vraiment efficace ?
27 fois ? 😳😳😳😳
Ils pensent qu’on ne remarquera pas une baisse de performances glissée via un patch discret, mais en réalité l’intuition humaine est plus affûtée qu’on ne le croit, donc si je combine mon ressenti avec ce que racontent les gens de la communauté, on a tout de suite la réponse.
« Alors, toi, qu’est-ce que tu sais faire au juste ? mdr » — du coup, on n’a pas vraiment le choix, on l’utilise quand même….
À l’époque du modèle 5.3 dédié à codex, on avait vraiment l’impression de parler à un employé subalterne qui n’avait aucun sens de la conversation mais qui codait très bien.
À partir de la 5.4, il a commencé à parler un peu, et depuis la 5.5, on dirait qu’il a retrouvé à moitié ses esprits.
Il continue quand même à appeler une API un contrat, ou à mélanger parfois l’anglais et le coréen de façon complètement folle, au point qu’il faut lui écrire : « Explique-le de façon simple, en évitant au maximum l’anglais. »
Malgré ça, en termes de génération de code, j’ai l’impression qu’il a dépassé opus à partir de la 5.4. Opus 4.7 est sorti, mais je ne l’ai même pas essayé vite fait. Ça ressemble encore trop à du marketing à la "Anthropic", c’est évident.
Waouh, c'est super, merci pour le partage.
Tailscale, c’est divin..
Mais Harness, jusqu’à la semaine dernière, était vendu à fond, et depuis cette semaine c’est beaucoup plus calme… Peut-être à cause des ratés d’Anthropic et parce que Codex 5.5 est excellent, j’imagine…
« Hein ? J’ai l’impression d’avoir déjà vu ça avant… » me suis-je dit, mais ils ajoutent directement le lien dans les articles à lire aussi, haha.
Je l’utilise depuis plusieurs années, mais avec le passage à une approche orientée agents, j’ai l’impression qu’il perd progressivement de sa valeur haha.
Cela dit, comme je m’en sers souvent pour rédiger des documents personnels ou coder à la main, ça aide quand même pas mal au final.
Sans augmentation du quota, si on passe à un multiplicateur de 27, est-ce que le coding agentique ne devient pas tout simplement inutilisable ?
VibeVoice - le modèle IA vocal open source de nouvelle génération de Microsoft
Sur GeekNews, il avait été publié dès le début, mais en raison d’un problème, le code VibeVoice-TTS a été retiré.
Pour le TTS, il semble que seul VibeVoice-Realtime soit actuellement disponible.
Ces derniers jours, on le voit de nouveau un peu partout, sans doute parce que VibeVoice-ASR revient en popularité.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison l’a testé, et sur Mac il peut être lancé en une seule ligne de commande avec
uvet mlx-audio.Il aurait traité environ 1 heure d’audio en seulement 8 min 45 s sur un MacBook Pro M5 Max avec 128 Go de mémoire.
On peut voir ça comme un « Whisper avec une bonne séparation des locuteurs ».
C’est une analyse d’un article de développeur senior qui rend très crédibles des propos assez creux à mes yeux (désolé, personnellement je n’aime pas Google). Cela dit, je pense bien sûr que l’approche consistant à essayer de comprendre le phénomène est une bonne tentative.
Des trucs comme le SDD ont déjà perdu leur hype, donc j’imagine que c’est maintenant l’ère du harnais. Ce qui est assez étonnant avec le harnais, c’est que même si ce concept n’était manifestement pas dans les données d’entraînement, le modèle l’a compris très vite. C’est peut-être parce qu’il réutilise simplement le sens existant du mot ; je ne l’avais même pas mentionné qu’il disait déjà des choses comme « mettre à jour le harnais ».
J’ai l’impression qu’on voit surtout proliférer des termes marketing.
Et les étudiants ?