4 points par kokogo 2026-02-19 | 5 commentaires | Partager sur WhatsApp

J’ai actuellement développé une fonctionnalité qui fournit via MCP (Model Context Protocol) des services de collecte d’actualités/d’informations dans 32 pays, ainsi que des instantanés quotidiens des principaux pays (États-Unis, Japon, Royaume-Uni, Corée) et des marchés des cryptos/contrats à terme. À partir de cette base, je développe maintenant un programme d’investissement capable d’un fonctionnement libre, à la manière d’OpenClaw.

Il y a deux points sur lesquels je m’interroge.

  1. La coexistence entre la « liberté d’action » de l’IA et l’interface front-end
    Tout en fournissant par défaut une UI et des fonctionnalités définies, comme dans les logiciels existants, je mets en œuvre chaque fonctionnalité sous forme d’API afin qu’un IDE ou une IA puisse les comprendre et les contrôler parfaitement. Au final, je pense que le développement logiciel de demain se concentrera sur la capacité de l’IA à étendre et exécuter librement les fonctionnalités, autrement dit sur la « liberté d’action de l’IA ». J’aimerais connaître votre avis.

  2. L’évolution de l’expérience utilisateur : l’ère du « Fais-moi ça »
    À l’avenir, les utilisateurs voudront obtenir le résultat souhaité avec une simple commande du type « Fais-moi ça ». Je pense même que, pour des fonctions que le développeur n’aura pas définies à l’avance, l’IA devra pouvoir rechercher directement sur Internet ou écrire du code pour répondre au besoin de l’utilisateur. (Ex. : même dans un logiciel juridique, si l’utilisateur le souhaite, aller jusqu’à l’aider à réserver un billet d’avion)

Si la technologie doit offrir aux utilisateurs un niveau de confort extrême, jusqu’où nous, développeurs, devons-nous réfléchir à une « extensibilité ouverte » plutôt qu’à des « fonctionnalités fermées » ? Avec l’émergence d’agents comme OpenClaw, cette question m’occupe de plus en plus ces derniers temps.

5 commentaires

 
pjoonmo79 2026-04-05

Dans le cas n°1, je suis en train de le tester.
Au final, à force d’accumuler des expériences d’échec, il a commencé à s’imposer lui-même des contraintes.

 
pjoonmo79 2026-04-05

Pour information, j’en suis à l’étape où j’utilise les hallucinations comme moteur d’exploration des canaux de passage.

 
runableapp 2026-03-27
  1. Comme l’UI et l’API sont déjà séparées dans la plupart des architectures, je pense qu’il n’y aura pas vraiment de difficulté particulière même si l’on va davantage vers une approche centrée sur l’IA à l’avenir. Pour l’extension des fonctionnalités, je pense que cela dépend du point de vue --
    (a) étendre davantage les fonctionnalités d’une application existante
    (b) étendre les fonctionnalités en combinant les API de plusieurs services déjà testés que faisaient auparavant des « humains »

Pour (a), je n’ai pas encore assez confiance pour laisser l’IA étendre librement les fonctionnalités comme bon lui semble.
Pour (b), comme c’est contrôlé, cela me paraît tout de même un peu mieux.

  1. Du point de vue du consommateur, j’aimerais qu’au final le simple fait de dire « fais-moi ça » devienne possible (comme dans le film Her), mais quand on regarde divers cas, cela reste encore inquiétant de laisser faire aussi librement.

En revanche, je ne pense absolument pas qu’un « programme juridique » doive réserver des billets d’avion. Dans ce cas, ce n’est déjà plus un programme juridique. Ce serait un OS généraliste à la Her. De la même manière qu’il y a une raison pour laquelle les organisations humaines et les responsabilités sont réparties, je pense qu’il y a aussi une raison pour laquelle la programmation et l’architecture sont séparées ainsi. L’idée de faire en sorte qu’un système comprenne réellement ce que je veux pour tout traiter exactement selon mes préférences ressemble un peu au discours sur les clones numériques.

Le « fais-moi ça », c’est comme un assistant personnel qui me connaît depuis longtemps et qui n’a pas besoin que je lui explique les choses de manière concrète et détaillée à chaque fois (un peu comme ce dont on parle beaucoup aujourd’hui avec le spec-driven). Mais même si l’on passe par un processus où il scanne tout sur moi, accumule des connaissances et mémorise, il y aura malgré tout des erreurs à la fin (dans Her aussi, il y a une scène au moment de la configuration initiale où le système examine les e-mails de l’utilisateur et toutes ses données) -- et il faudrait pouvoir détecter ces erreurs, les filtrer correctement, puis savoir les corriger ; pour l’instant, cela semble encore loin. Si vous avez déjà fait travailler des gens, vous le savez : même des personnes avec qui l’on travaille depuis 10 ou 20 ans ne comprennent pas toujours précisément mon intention, et celles qui manquent de sens de l’observation continuent à ne pas comprendre et à faire des erreurs... Si c’est déjà comme ça avec les humains, je pense qu’il faut d’abord hisser une IA comme momento, qui n’a pas de responsabilité, à ce niveau humain.

J’aimerais que l’on aille vers l’extensibilité ouverte que vous évoquez, mais il faudrait alors une IA d’assistant personnel généraliste de ce type (comme l’a écrit quelqu’un plus haut, pour qu’un grille-pain ne fasse pas autre chose), et elle devrait continuer à apprendre l’utilisateur au fil des interactions. Je n’ai pas envie qu’une voiture rédige une déclaration fiscale. C’est pareil pour les humains : si l’on confie une tâche précise à un employé et qu’il en fait d’autres en plus, l’employeur peut parfois s’en réjouir, mais dans la plupart des cas, cela risque plutôt de l’inquiéter.

 
mammal 2026-02-19
  1. Une documentation claire et une accessibilité bien conçue finissent par l’emporter. Même sans se focaliser spécialement sur la liberté d’action de l’IA, une accessibilité bien pensée est facile à comprendre autant pour les humains que pour l’IA.

  2. Non, le principe du moindre privilège doit absolument être respecté. Je veux que mon grille-pain se contente de griller du pain, pas qu’il se connecte à Internet pour résumer l’actualité et lancer Doom.

 
jeeeyul 2026-02-19

Sur le plan philosophique, je vous recommande la théorie de l’esprit étendu d’Andy Clark. Elle vous donnera une compréhension approfondie de la manière dont les LLM, dont la vraisemblance est l’essentiel, étendent leur cognition à travers les outils.

Sur le plan pratique, OpenCode devrait vous aider, puisque toutes les composantes de la configuration de l’agent y sont rendues publiques.

Le point 2 est déjà une réalité. L’un des tout premiers outils fournis était justement l’interpréteur de code. Donc, à mon avis, les agents spécialisés par domaine relèvent au final d’une bataille opportuniste vouée à disparaître.

Dans le domaine où vous travaillez actuellement, je me dis qu’il vaudrait peut-être mieux proposer le ML traditionnel via MCP. Avec un modèle de langage, on n’a absolument aucun avantage pour l’analyse de motifs ou la prévision linéaire.

Il ne semble pas nécessaire de concevoir une symétrie des outils en se basant coûte que coûte sur l’interface utilisateur humaine. De toute façon, des webMCP ou des MCP automatisés fondés sur GDI, où l’agent interprète et contrôle directement l’UI elle-même, arriveront en un instant. Il faudra bien exploiter un très grand nombre de systèmes legacy conçus pour les humains. Avec un agent fondé sur un LLM doté de capacités nativement multimodales, les développeurs n’auront sans doute plus besoin de se donner la peine de traduire une GUI en MCP. iOS, dont la maîtrise du GUI de fondation est forte, commencera peut-être dès la prochaine version.

À ce moment-là, il suffira sans doute d’installer n’importe quelle appli boursière pour pouvoir déléguer ses investissements à un agent.