La « calèche sans cheval » à l’ère de l’IA
(koomen.dev)- Créer des logiciels avec l’IA est amusant et productif, alors que la plupart des applications d’IA sont inefficaces, comme des « calèches sans cheval (horseless carriage) » qui imitent les anciennes méthodes
- L’assistant IA de Gmail pour les e-mails produit des résultats trop formels et ne parvient pas à offrir une expérience personnalisée
- Les applications d’IA vraiment utiles devraient permettre aux utilisateurs de modifier le System Prompt afin de créer des agents personnalisés
- L’application idéale à l’ère de l’IA ne devrait pas imiter les programmes existants, mais être un logiciel nativement IA capable de réduire les tâches répétitives et d’améliorer réellement la productivité par l’automatisation
- Le véritable potentiel de l’IA réside dans l’automatisation des tâches quotidiennes, afin d’aider les utilisateurs à se concentrer sur les tâches importantes et créatives
Pourquoi il est plus amusant de créer des logiciels avec l’IA que d’utiliser des apps créées avec l’IA
- J’ai récemment réalisé quelque chose d’intéressant : utiliser l’IA pour fabriquer soi-même des logiciels est plus agréable et plus productif que d’utiliser la plupart des applications basées sur l’IA
- Quand on utilise l’IA comme outil de développement, on a presque l’impression de pouvoir créer très vite tout ce qu’on peut imaginer
- À l’inverse, beaucoup d’apps IA se contentent d’ajouter une couche d’IA, tout en restant peu utiles en pratique, voire plus pénibles à utiliser
La « calèche sans cheval » de l’ère de l’IA
- Aujourd’hui, beaucoup d’applications d’IA reprennent essentiellement les anciens schémas de conception logicielle
- Résultat : des modèles puissants comme les LLM se retrouvent inutilement enfermés dans une structure contraignante
- C’est ce que l’auteur appelle les « calèches sans cheval (horseless carriages) » de l’ère de l’IA
- Une analogie avec les premières voitures, dont la conception reprenait la forme des calèches et s’avérait inefficace
Exemple d’application IA mal conçue : l’assistant IA de Gmail
- Gmail a récemment lancé une fonctionnalité qui génère des brouillons d’e-mails à l’aide du modèle Gemini
- Dans l’exemple, l’utilisateur (l’auteur) demande un brouillon d’e-mail à envoyer à son supérieur
> Prompt : demander un brouillon d’e-mail à son supérieur
- Le brouillon généré par Gemini est grammaticalement parfait, mais ne ressemble en rien au style réel de l’auteur
- Le style réel de l’auteur : "hey garry, my daughter woke up with the flu so I won't make it in today"
- Le résultat de Gemini est trop formel et peu naturel
- Au final, cela prend plus de temps que d’écrire l’e-mail soi-même
- L’auteur décrit cette fonctionnalité comme « gérer un collaborateur peu performant »
- Il est probable que des millions d’utilisateurs de Gmail aient vécu quelque chose de similaire, et en aient conclu à tort que l’IA ne sait toujours pas bien écrire des e-mails
- Mais le problème ne vient pas du modèle Gemini lui-même, plutôt de la façon dont l’équipe Gmail a conçu l’application
Exemple d’un meilleur assistant e-mail
- Si Gmail avait conçu son assistant e-mail de la manière suivante, il aurait été bien plus pratique
Exemple d’agent de lecture d’e-mails
-
Cette démo ne rédige pas les e-mails, elle les lit et les traite
-
Outils utilisés :
labelEmail(label, color, priority): attribue un libellé à un e-mailarchiveEmail(): archive un e-maildraftReply(body): rédige un brouillon de réponse
-
Les e-mails de la boîte de réception sont triés comme suit :
- TechCrunch Weekly
- Gustaf Alströmer - founder intro?
- HackerNews Digest
- The Verge Updates
- Garry Tan - reschedule
- et 12 au total
-
Chaque e-mail est classé automatiquement et priorisé, certains font l’objet d’un brouillon de réponse automatique ou d’un archivage automatique
-
Chaque message est traité individuellement selon le System Prompt défini par l’utilisateur
-
L’utilisateur peut modifier directement le System Prompt pour y refléter sa propre logique de classement
> Cette approche est bien plus puissante, intuitive et productive. Alors pourquoi l’équipe Gmail n’a-t-elle pas conçu cela ainsi ?
- Le cœur du problème : un « ton standardisé et uniforme »
- L’un des plus gros problèmes induits par la conception de Gmail est un style générique, sans personnalité
AI Slop : des productions formelles et maladroites
- Les brouillons d’e-mails générés par Gemini dans Gmail sont excessivement verbeux, formels et très éloignés du style réel de l’auteur
- Ce type de résultat peut même ressembler à un e-mail de phishing
- La plupart des utilisateurs de LLM ont déjà vécu cela, et finissent naturellement par utiliser une stratégie de prompt hacking pour l’éviter
- Exemple de prompt :
> "let my boss garry know that my daughter woke up with the flu and that I won't be able to come in to the office today. Use no more than one line for the entire email body. Make it friendly but really concise. Don't worry about punctuation or capitalization. Sign off with “Pete” or “pete” and not “Best Regards, Pete” and certainly not “Love, Pete”"
- Exemple de prompt :
- La qualité du résultat s’améliore, mais le prompt devient trop long, et devoir répéter ce processus à chaque fois reste inefficace
- La solution simple à ce problème : donner à l’utilisateur le droit de modifier le System Prompt
Différence entre System Prompt et User Prompt
- Un LLM est fondamentalement un système qui prédit le mot suivant à partir des mots fournis en entrée (le prompt)
- Toutes les entrées et sorties prennent la forme de texte
- Pour simplifier, l’article ne traite ici que d’une interface textuelle, bien qu’en pratique l’entrée et la sortie puissent aussi être vocales ou visuelles
- OpenAI, Anthropic et d’autres ont adopté une structure qui sépare le prompt en System Prompt et User Prompt afin de simplifier cela
- System Prompt : définit la personnalité de l’agent et sa manière d’agir (comme une fonction)
- User Prompt : correspond à la demande ou à la question spécifique de l’utilisateur (comme une valeur d’entrée)
- Réponse du modèle : la valeur de sortie
> Exemple :
> - User Prompt : "Let my boss Garry know that my daughter woke up with the flu this morning and that I won't be able to come in to the office today."
> - System Prompt supposé de Gmail :
> - "You are a helpful email-writing assistant responsible for writing emails on behalf of a Gmail user. Follow the user’s instructions and use a formal, businessy tone and correct punctuation so that it’s obvious the user is smart and serious."
- Le problème, c’est que Gmail ne rend pas ce System Prompt public et ne permet pas non plus à l’utilisateur de le modifier
Le System Prompt personnalisé de Pete
-
Si Gmail avait accordé à l’utilisateur le droit d’écrire lui-même son prompt, au lieu d’imposer un System Prompt uniforme, il aurait pu ressembler à ceci :
> You're Pete, a 43 year old husband, father, programmer, and YC Partner.
> You're very busy and so is everyone you correspond with, so you do your best to keep your emails as short as possible and to the point. You avoid all unnecessary words and you often omit punctuation or leave misspellings unaddressed because it's not a big deal and you'd rather save the time. You prefer one-line emails.
> Do your best to be kind, and don't be so informal that it comes across as rude. -
En demandant à GPT de générer un e-mail à partir de ce System Prompt, on obtient quelque chose comme :
> Garry, my daughter has the flu. I can't come in today.
-
Ce résultat est court, personnel et conforme au style réel de l’utilisateur
-
Son plus grand avantage, c’est que ce System Prompt peut être réutilisé, ce qui permet d’appliquer le même style à tous les futurs e-mails
Le plaisir et le potentiel de l’écriture de prompts utilisateur
- Le fait d’enseigner à un LLM à penser comme soi, puis de voir immédiatement le résultat, est une expérience très intuitive et agréable
- L’auteur recommande aux utilisateurs d’essayer de définir leur propre style d’écriture sous la forme d’un System Prompt personnel
- Exemples de User Prompt :
> "Let my wife know I'll be home from work late and will miss dinner"
> "Write an email to comcast customer service explaining that they accidentally double billed you last month."
- Exemples de User Prompt :
- Si le résultat est bon, c’est que l’explication était suffisante ; sinon, il faut compléter le contexte et itérer
- Grâce à cette boucle de feedback rapide et honnête, cela peut même être plus simple que d’enseigner quelque chose à un humain
Pourquoi la plupart des applications d’IA n’exposent-elles pas le System Prompt ?
- En avril 2025, la plupart des applications d’IA cachent délibérément leur System Prompt
- L’auteur y voit une confiscation du pouvoir et de l’individualité des utilisateurs, et soutient que le System Prompt doit impérativement leur être ouvert pour améliorer les résultats et l’expérience d’usage
Horseless Carriages : une application dépassée d’une technologie nouvelle
- Quand une nouvelle technologie apparaît, les premiers outils imitent souvent tel quel le cadre des méthodes existantes, et échouent pour cette raison
- Une « horseless carriage » désigne le cas où les premières automobiles reprenaient le design des calèches tirées par des chevaux
- Exemple : la calèche à vapeur de Trevithick en 1803
- Ce design semblait innovant à l’époque, mais nous apparaît aujourd’hui fondamentalement inadapté à l’automobile
- À l’époque, les gens pouvaient monter dans ce type de véhicule et penser que « les chevaux sont meilleurs que les moteurs » → c’était un jugement compréhensible avant l’arrivée de vraies voitures
- L’auteur soutient que les applications d’IA se trouvent aujourd’hui dans une situation similaire
- Exemple : comme la fonctionnalité Gemini de Gmail, qui ajoute de l’IA à une UX conçue selon un paradigme dépassé
- Le raisonnement dominant de l’époque se limitait à « remplaçons le cheval par un moteur »
- Aujourd’hui, beaucoup d’apps IA font pareil : elles ajoutent simplement des fonctions IA à des applications existantes
Old World Thinking : les limites de la conception logicielle traditionnelle
- Jusqu’ici, il n’existait que deux façons d’utiliser un ordinateur :
- programmer soi-même
- utiliser un programme créé par quelqu’un d’autre
- Comme programmer est difficile, la plupart des gens choisissaient la deuxième option
- C’est ainsi que l’industrie logicielle s’est développée en séparant clairement le rôle des développeurs et celui des utilisateurs
- Développeurs : déterminent le comportement général du logiciel
- Utilisateurs : fournissent des entrées concrètes
- La distinction entre System Prompt et User Prompt dans les LLM reflète encore cette structure
- System Prompt = le domaine des développeurs
- User Prompt = le domaine des utilisateurs
- Or l’e-mail est un espace profondément personnel, et si une IA écrit à la place d’un utilisateur, elle doit refléter son style propre
- Dans l’ancien modèle, cette personnalisation restait difficile à moins que l’utilisateur ne programme lui-même l’outil
- Mais à l’ère des LLM, l’utilisateur peut écrire lui-même le System Prompt
- Autrement dit, nous sommes entrés dans une époque où l’on peut concevoir le comportement de l’IA sans programmer
Rendons aux utilisateurs ce qui leur appartient
- La thèse de l’auteur : quand un LLM agit à ma place, c’est à moi de lui enseigner la manière dont il doit le faire (le System Prompt)
- Bien sûr, tous les utilisateurs n’auront pas envie d’écrire eux-mêmes un prompt à partir de zéro
- Gmail pourrait générer un System Prompt par défaut à partir de l’historique des e-mails de l’utilisateur
- L’important est de montrer ce prompt à l’utilisateur et de lui permettre de le modifier
- « Et ceux qui ne savent pas écrire de prompts ? » → cela peut être vrai au début, mais la plupart apprennent vite
- Le succès de ChatGPT le prouve
- Et dans des domaines qui ne relèvent pas d’un agent personnel, comme la comptabilité ou le juridique ?
- Le System Prompt doit certes être rédigé par un expert du domaine, mais cet expert voudra lui aussi l’ajuster selon son propre contexte
- Exemple : l’équipe comptable de YC utilise des méthodes, des règles et un assemblage de logiciels propres à YC
- Un agent IA comptable générique serait totalement inutile chez YC
- Presque toutes les équipes comptables ont leur propre façon de faire, et c’est pourquoi elles préfèrent des outils généralistes comme Excel
- Conclusion : dans la plupart des applications d’IA, le System Prompt devrait être rédigé et maintenu par l’utilisateur lui-même
> Une application d’IA ne devrait pas être un agent fini, mais un outil permettant à l’utilisateur de construire son propre agent (agent builder)
Rendons aux développeurs ce qui leur appartient
- Alors, quel doit être le rôle des développeurs ?
- Concevoir une UI de construction d’agents spécialisée pour un domaine donné (par exemple l’e-mail, la comptabilité, etc.)
- Fournir des templates et des assistants de génération de prompts afin que les utilisateurs n’aient pas à tout écrire de zéro
- Offrir une interface de boucle de feedback pour permettre à l’utilisateur de vérifier et corriger les résultats de l’agent
- Les développeurs doivent aussi fournir des outils d’agent (agent tools)
- Soumission de brouillons d’e-mails, envoi automatique, recherche dans les e-mails, connexion à des API externes, etc.
- Ces outils servent à contrôler le périmètre d’action et la sécurité de l’agent
- Restreindre les actions via des outils codés est bien plus sûr et plus clair que d’essayer de les limiter par un prompt textuel
> À l’avenir, l’idée même de s’inquiéter de la prompt injection pourrait devenir risible
> → tracer des frontières dans une structure purement textuelle est le signe d’une abstraction fragile
> → il faut considérer l’ensemble du système comme un espace utilisateur, et le contrôler via des outils puissants et une UI solide
La vraie valeur d’un agent qui « lit » les e-mails
- Comme expliqué plus haut, même un meilleur System Prompt ne permet pas de gagner énormément de temps lorsqu’il s’agit de rédiger un e-mail depuis zéro
- La raison est simple : les e-mails de l’auteur sont déjà très courts et très concis
- Autrement dit, la longueur du prompt utilisateur ≒ la longueur du corps de l’e-mail
- Après de nombreuses expériences, l’auteur a constaté que l’IA générative est bien plus forte pour transformer un texte que pour en générer un
- Le véritable objectif d’un LLM n’est donc pas de « rédiger » des e-mails, mais de les « lire et traiter »
Démo d’agent de lecture d’e-mails (basée sur gpt-4o-mini)
- Outils disponibles :
labelEmail(label, color, priority): attribuer un libellé à un e-mailarchiveEmail(): archiver automatiquement un e-maildraftReply(body): générer automatiquement un brouillon de réponse
- Cet agent lit chaque e-mail et :
- filtre correctement le spam
- applique des libellés selon l’importance
- résume ou rédige des brouillons de réponse
- archive automatiquement les messages inutiles
- Avec seulement quelques outils supplémentaires, il pourrait même :
- se désabonner
- ajouter des événements à l’agenda
- payer automatiquement des factures
- Voilà ce que devrait faire un client e-mail nativement IA :
→ automatiser les tâches répétitives et fastidieuses pour faire gagner du temps à l’utilisateur- Des clients e-mail comme Superhuman et Zero se développent déjà en partie dans cette direction
Ce que signifie un logiciel nativement IA
- La vraie killer app de l’IA, c’est de permettre à l’ordinateur de faire à ma place les tâches que je n’ai pas envie de faire
- Si l’auteur a inclus une démo dans cet article, c’est aussi pour montrer que les LLM sont déjà tout à fait capables d’effectuer ce type de travail
- Le problème ne vient donc pas des performances de l’IA, mais de la conception des applications
> Ce que l’équipe Gmail a construit, c’est une application e-mail avec une couche d’IA
> → non pas un outil d’automatisation pour l’utilisateur, mais une tentative forcée d’insérer l’IA dans une interface pensée pour des humains
- À l’inverse, une application nativement IA devrait :
- maximiser l’effet de levier de l’utilisateur dans un domaine donné
- ex. : un client e-mail IA doit minimiser le temps passé à gérer ses e-mails
- ex. : un logiciel de comptabilité IA doit minimiser le temps consacré au traitement comptable
Les attentes pour l’ère de l’IA
- Les agents prendront en charge tous les travaux répétitifs et ennuyeux
- Les utilisateurs pourront se concentrer sur les tâches importantes
- Chacun pourra consacrer plus de temps à ce qu’il sait faire et aime faire
> Voilà pourquoi l’auteur est enthousiaste à propos de l’avenir de l’IA
> De meilleurs outils, un meilleur usage du temps, une productivité accrue
2 commentaires
Bien sûr, les développeurs qui conçoivent ces fonctionnalités le savent aussi, mais tant qu'il y a des jailbreaks, ce n'est pas simple.
Même si on verrouille la modification du prompt système, il peut quand même y avoir un jailbreak ; donc ouvrir la modification du prompt système est pratiquement impossible.
Et puis, on ne sait pas non plus si cela pourrait être utilisé à bas prix pour un usage différent de la fonction d'origine.
Avis Hacker News
Aborde avec prudence l’usage des modèles de langage pour rédiger des messages personnels. Ils manquent de la spécificité de l’expérience ou des connaissances individuelles
A le sentiment que 90 % des fonctionnalités IA sont inutiles et coûteuses
Gemini agit comme un assistant personnel et envoie des e-mails à la place de l’utilisateur
Trouve désagréable de communiquer avec des personnes qui ne se soucient ni de la grammaire ni de l’orthographe
Le widget interactif connecté à un LLM était amusant
Beaucoup pensent que l’IA écrit dans un style prévisible, mais en réalité ce n’est pas le cas
A apprécié le fait que la démo interactive se déroule en temps réel
L’IA ne peut pas savoir ce que veut l’utilisateur, et il est difficile d’exprimer clairement ses objectifs
Les fonctions d’IA les plus utiles ne se remarquent pas
Ne comprend pas l’intérêt de laisser l’IA rédiger des messages à sa place