- OpenAI a dévoilé Apps SDK, un framework conçu pour prendre en charge le développement d’apps fonctionnant dans ChatGPT
- Cet SDK offre aux développeurs un environnement leur permettant de créer de nouvelles apps fonctionnant dans ChatGPT et de tester librement des fonctionnalités expérimentales
- Apps SDK est actuellement disponible en version preview et la soumission d’apps ainsi que leur distribution officielle sont prévues plus tard dans l’année
- Ce framework ouvre la voie à l’extensibilité de la plateforme ChatGPT et aux opportunités de développement d’apps personnalisées, avec la perspective de rendre possibles l’intégration et l’automatisation de divers logiciels et services
- L’élargissement de l’écosystème de développement devrait favoriser une meilleure productivité et la création de services innovants
1 commentaires
Avis Hacker News
Il est intéressant de voir ChatGPT devenir progressivement le point de départ de la navigation sur le web ; bientôt, il ne sera même plus nécessaire de faire une recherche, avec des workflows intégrés pour les cartes de base, les paiements Stripe, les réservations de vols, etc., couvrant la plupart des tâches quotidiennes des gens
Le principal goulot d’étranglement de ces deux dernières années n’était pas le modèle, mais l’ingénierie, l’infrastructure et la volonté des entreprises de collaborer directement avec OpenAI
Maintenant qu’OpenAI grandit et que sa base d’utilisateurs s’élargit, les entreprises semblent bien plus enclines à investir ou à participer
Ce changement pourrait non seulement transformer l’usage d’Internet côté utilisateur, mais aussi aboutir à une scission entre un trafic passant par les chatbots dans des outils davantage fondés sur des SDK, et un nouveau web optimisé pour le SEO ainsi que pour les chats/agents
Il doit y avoir beaucoup de gens comme moi qui n’ont pas envie d’utiliser l’IA
Surtout pour l’achat de billets d’avion, non pas parce que je crains une erreur de l’IA, mais parce que je veux garder la main
C’est un peu comme le fait que conduire paraît plus sûr que voler, même si on sait que c’est plus risqué
Au fond, c’est une question de contrôle
Je ne comprends pas pourquoi il faudrait absolument lancer des apps de force dans une boîte de chat, les afficher dans un format bizarre, puis finir par renvoyer vers la vraie app
Autant mettre une boîte de chat dans l’app, c’est l’approche standard
Si une seule entreprise en vient à contrôler, filtrer et gérer l’ensemble de l’usage d’Internet, alors Internet perd son sens
Je comprends l’argument selon lequel Google n’est pas si différent, mais au moins, avec une recherche Google, on peut encore aller sur les vrais sites
Cette structure d’échanges via ChatGPT, comme une sorte de « téléphone arabe », est franchement horrible
De la même manière que je ne confierais jamais un achat à un assistant vocal, il est hors de question de laisser un LLM prendre des décisions importantes
Je n’imaginerais même pas lui confier l’autorisation de paiement de ma carte bancaire, encore moins une réservation de vol
OpenAI avait cette opportunité depuis l’explosion du nombre d’utilisateurs, mais n’a pas vraiment su l’exploiter avec les plugins et les GPTs
Ironiquement, le MCP d’Anthropic pourrait devenir le game changer dans ce domaine
Si l’on part du principe que ChatGPT deviendra l’interface utilisateur universelle du futur, alors cette vision semble plausible
Mais en pratique, la tendance actuelle autour des agents montre plutôt qu’il vaut mieux dissimuler l’interface de chat derrière un paradigme UI plus strict
Je pense qu’il existe énormément de domaines où le chat peut être une excellente interface
Si ChatGPT devient le distributeur de ces usages, il pourrait remplacer Google
Cela dit, dans certains domaines précis, une interface sur mesure reste la bonne approche, et si ce domaine a assez de valeur, quelqu’un finira forcément par créer une interface dédiée
L’usage principal des agents en ce moment, c’est la génération de code, et les utilisateurs visés sont déjà familiers des IDE et des éditeurs de code
Cela représente une grande part de la consommation de tokens, mais ce n’est pas représentatif des besoins ou des attentes du grand public
Je suis convaincu que si l’interface de chat s’est autant généralisée, c’est parce qu’elle a de vrais avantages en elle-même
Même pour des usages agentiques plus généraux, le chat apporte le confort de la saisie texte ou vocale
Les usages audio-audio ou vidéo s’y combinent aussi facilement
Même si la génération vidéo en temps réel devient possible, il sera dans la plupart des cas plus pratique de consommer les résultats sous forme de texte
Je ne pense pas que les gens veuillent demander à chatGPT de contacter Zillow ou Canva à leur place
Ils demanderont peut-être le prix d’une maison sur Zillow ou la création d’un visuel avec Canva, mais pas forcément l’invocation explicite d’une app donnée
À partir du moment où les apps dépendent de ChatGPT pour leur envoyer des utilisateurs, ChatGPT finira inévitablement par fournir lui-même la fonctionnalité et remplacer l’app
Autrement dit, exposer son service dans ChatGPT en partant du principe que le chat est l’interface universelle, c’est fragiliser sa propre survie
Je pense que l’interface vocale et le chat forment une très bonne combinaison ; par exemple, c’est extrêmement utile pour faire une leçon de langue étrangère ou une recherche web à la voix en marchant
J’utilise aussi une ou deux fois par semaine des apps de prise de notes comme NotebookLM
Il y a énormément d’expérimentations possibles, comme raccorder de petits modèles open source à un système plus vaste pour l’extraction de données structurées
Je reste sceptique sur l’utilité concrète des systèmes agentiques actuels (MCP, etc.)
Au moins, aujourd’hui, personne n’a parlé d’AGI
À force de courir après les fantasmes ASI/AGI par FOMO, on risque surtout de finir ruiné
L’interface du futur sera une IA locale intégrée au matériel, avec des fonctions apprises sur des jeux de données
En travaillant comme EE et dans les modèles énergétiques, et en repensant aux propriétés géométriques d’un oscilloscope, on voit qu’une équation peut en reconstruire la structure
L’utilisateur peut alors obtenir facilement le résultat souhaité via une UI paramétrique
Les OS actuels sont des machines virtuelles de manipulation de chaînes de caractères, mais l’avenir sera une machine virtuelle vectorielle qui manipule des coordonnées
En simplifiant cela comme une synchronisation entre matrice mémoire et matrice d’affichage, les développeurs pourront à l’avenir s’éloigner enfin du traitement archaïque des chaînes
En le voyant concrètement, ce n’est pas aussi révolutionnaire qu’on pourrait le croire
Les « apps » ne sont en réalité que des serveurs MCP, avec simplement l’option supplémentaire de pouvoir renvoyer du HTML
On retrouve les problèmes fondamentaux du MCP : une logique mono-utilisateur, la nécessité pour l’utilisateur de toujours « tirer » l’information, et une structure de connexion moins intuitive que le simple fait d’ouvrir une app
Idéalement, chaque app devrait avoir son propre point d’entrée, pouvoir envoyer des notifications push à l’utilisateur et conserver une forme de persistance dans l’UI
L’interface principale devrait aussi être du HTML plutôt qu’un chat
Je m’attends à une fin similaire à celle des GPTs
Si un service relie de façon proactive l’utilisateur et le LLM dans la durée, le serveur MCP peut devenir un point d’adhérence extrêmement puissant
Le processus d’installation/authentification va aussi devenir de plus en plus simple pour répondre aux besoins des non-spécialistes
Cela me rappelle quand nous avions directement inséré des widgets dynamiques dans les réponses en construisant Phind 2, donc je trouve ça intéressant
Le point faible de cette approche, c’est que les schémas d’entrée et de sortie des apps/widgets sont codés en dur
Tant qu’on reste dans le périmètre du widget, cela fonctionne très bien, mais dès qu’on veut utiliser des filtres avancés spécifiques sur Zillow ou s’intégrer à StreetEasy, on atteint vite les limites
Du point de vue utilisateur, s’il manque des fonctions avancées, alors l’outil devient tout simplement inutilisable
Ce que je trouve vraiment innovant, c’est une « UI générée à la volée »
Une mise à jour de Phind sur ce point arrive bientôt (je suis le fondateur de Phind)
Phind est vraiment excellent
Avant, quand j’en avais assez des moteurs de recherche traditionnels comme Google qui me renvoyaient des résultats à côté de la plaque, je trouvais rapidement ce que je voulais avec Phind
Mais récemment, les LLM eux-mêmes sont devenus très bons pour la recherche, donc ces temps-ci j’utilise surtout les LLM
Le fait qu’il existe déjà des projets MCP-UI montre que ce n’est pas surprenant sur le plan de la faisabilité
Mais cela reste encore beaucoup trop lent pour un usage réel, et il y a clairement besoin d’améliorations
Je me demande aussi si je devrais construire quelque chose de similaire dans notre produit, et pour contourner les contraintes de schéma, je réfléchis à concevoir les widgets comme des blocs aussi génériques que possible afin d’en augmenter la réutilisabilité
Ce n’est encore qu’une idée, mais je me demande si le modèle pourrait sélectionner et combiner plusieurs widgets modulaires en fonction de la tâche
Par exemple, découper les résultats de recherche en élément unique, comparaison matricielle, section de filtrage, etc., puis permettre de les manipuler de différentes façons dans la session selon le contexte
S’il existe un texte où Phind parle concrètement de ce type d’expérience, j’aimerais beaucoup le lire
Je pense que cette limite sera résolue en combinant le chat avec des widgets préconstruits ou à la demande
Dans la démo du keynote, l’interface de chat permettait par exemple un filtrage avancé de logements Zillow, comme ne garder que ceux proches d’un parc pour chiens, en agrégeant des informations issues de plusieurs sources
Le MCP permet de résoudre ce problème
On peut mettre à jour dynamiquement le schéma du serveur MCP sans toucher à l’app
L’app reconnaît automatiquement le nouveau schéma
Cette annonce d’OpenAI aurait pu être une vraie occasion de créer quelque chose de nouveau, mais j’ai l’impression qu’elle s’est contentée d’insérer de manière statique des écrans d’apps existantes dans le chat, ce qui est décevant
La vraie force serait qu’un utilisateur décrive une tâche, que l’IA détermine elle-même quels outils sont nécessaires, les assemble, puis présente le résultat sous forme de workflow ou de canvas modifiable par l’utilisateur
Des frameworks comme LlamaIndex Workflow ou LangGraph permettent déjà d’implémenter à la main ce genre de graphe (workflow-DAG) en Python, mais si un LLM pouvait générer ce type de DAG en temps réel, ce serait vraiment puissant
Les LLM savent déjà très bien générer du code d’interface et respecter des design systems, donc il n’y a pas de raison de coder les écrans en dur
J’espère que Google ne suivra pas cette voie
Il y a eu récemment un texte sur à quel point l’interface de chat est profondément ancrée dans l’organisation d’OpenAI, et cette annonce m’a encore davantage donné cette impression
La vraie question, c’est : « est-ce que la majorité des utilisateurs aiment vraiment interagir uniquement par conversation plutôt qu’avec des éléments visuels ? »
Le fait qu’il faille en particulier mémoriser plusieurs noms d’apps (Zillow, etc.) pour les taper dans le chat, ainsi que la possibilité de stratégies de monétisation fondées sur la publicité ou la « mise en avant prioritaire » des apps, me paraît très désagréable
Personnellement, j’espère que cet avenir n’arrivera pas
On a l’impression de relancer une fois de plus le débat : GUI contre terminal (ou CLI), lequel est le plus puissant ?
Pour beaucoup de tâches bien adaptées à un flux de tokens, la ligne de commande ou le chat peuvent être supérieurs
On pourrait aussi voir apparaître de l’auto-complétion par tabulation pour invoquer rapidement des bots ou des MCP…
En revanche, dès qu’il s’agit d’explorer du nouveau contenu ou d’interagir graphiquement, une interface visuelle et spécialisée est bien plus intuitive
Au final, je pense qu’on verra s’installer un mélange approprié de plusieurs UI et niveaux d’abstraction selon la tâche
Je pense que cette centralité de l’interface de chat freine concrètement l’usage des LLM
Il est déjà difficile d’expliquer à un non-spécialiste comment se construit l’illusion de continuité d’une conversation (gestion du contexte, structure dans laquelle les prompts précédents sortent de la mémoire, etc.)
Le conseil que je donne en général à mes amis non techniques, c’est de repartir sur une nouvelle conversation à chaque prompt
C’est la meilleure façon de comprendre clairement ce qui fonctionne ou non
J’espérais qu’Apple conduirait la vraie innovation UX, mais cela ne semble pas encore être le cas
Pour nuancer, beaucoup de gens que je connais tapent simplement « zillow » dans Google pour aller sur Zillow, donc saisir le nom d’une app dans le chat n’est peut-être pas si absurde
Il y a beaucoup de réactions négatives, mais personnellement la direction prise par OpenAI me semble assez évidente
À terme, si l’utilisateur dit ce qu’il veut, OAI deviendra une plateforme qui se connecte d’elle-même aux apps (email, calendrier, paiement, etc.) pour l’exécuter
Avec ce modèle, OAI n’aurait même pas besoin de publicité et pourrait simplement prendre une part des revenus
Si vous croyez que les apps d’email ou de calendrier vont générer des revenus extraordinaires, cela risque d’être un choc pour les investisseurs
Dire qu’il n’y aura pas de publicité est faux
La publicité sera incroyablement bien dissimulée, sous la forme de conseils utiles ou équivalents
Il est évident qu’OpenAI visera les deux à la fois : le partage de revenus et la publicité
Ils montent déjà une équipe pub, disposent de suffisamment de capital, et chercheront à tester tous les business models scalables
Ils essaieront tout ce qui a marché dans l’histoire, de l’App Store aux feeds algorithmiques
Pour devenir une plateforme, il faut un verrouillage utilisateur ou un avantage déloyal
Une simple supériorité de qualité du modèle ne suffit pas
Jusqu’ici, je n’ai pas l’impression que cette approche améliore réellement quoi que ce soit
Quelqu’un a mentionné l’intégration Spotify, mais c’est quelque chose que les anciens assistants savaient déjà faire
On dirait simplement qu’on traite exactement les mêmes tâches qu’avant, mais à un coût bien plus élevé
Au final, tout le monde semble condamné à déverser des apps gratuites dans l’écosystème d’outils d’OpenAI
Cette dynamique renforce la défensibilité d’OpenAI au détriment d’autres opportunités
Au début de l’iPhone, il n’y avait que 6 apps, et même pas d’App Store
En 2024, l’App Store iOS a généré 1,3 billion de dollars de chiffre d’affaires, dont 85 % sont revenus aux développeurs
Je me demande quel est le « moat » d’OpenAI
En réalité, cette dynamique n’a rien d’absurde
Il n’y a aucune raison pour que les données en temps réel et les actions MCP cessent d’apporter une aide concrète aux utilisateurs
L’authentification peut être nécessaire lors de la connexion à une app, mais en l’absence de paiement, cela reste un énorme canal de distribution
Cette annonce est une expérience intéressante du point de vue du branding
Appeler le MCP des « apps » donne une impression familière et facile d’accès, alors que parler d’outil/serveur paraît beaucoup plus technique
Avec l’ajout de démos avec Expedia et Spotify, on a l’impression de MCP prêts à l’emploi que les utilisateurs peuvent utiliser immédiatement