La « calèche sans cheval » à l’ère de l’IA

(koomen.dev)

21 points par GN⁺ 2025-04-24 | 2 commentaires | Partager sur WhatsApp

Créer des logiciels avec l’IA est amusant et productif, alors que la plupart des applications d’IA sont inefficaces, comme des « calèches sans cheval (horseless carriage) » qui imitent les anciennes méthodes
L’assistant IA de Gmail pour les e-mails produit des résultats trop formels et ne parvient pas à offrir une expérience personnalisée
Les applications d’IA vraiment utiles devraient permettre aux utilisateurs de modifier le System Prompt afin de créer des agents personnalisés
L’application idéale à l’ère de l’IA ne devrait pas imiter les programmes existants, mais être un logiciel nativement IA capable de réduire les tâches répétitives et d’améliorer réellement la productivité par l’automatisation
Le véritable potentiel de l’IA réside dans l’automatisation des tâches quotidiennes, afin d’aider les utilisateurs à se concentrer sur les tâches importantes et créatives

Pourquoi il est plus amusant de créer des logiciels avec l’IA que d’utiliser des apps créées avec l’IA

J’ai récemment réalisé quelque chose d’intéressant : utiliser l’IA pour fabriquer soi-même des logiciels est plus agréable et plus productif que d’utiliser la plupart des applications basées sur l’IA
Quand on utilise l’IA comme outil de développement, on a presque l’impression de pouvoir créer très vite tout ce qu’on peut imaginer
À l’inverse, beaucoup d’apps IA se contentent d’ajouter une couche d’IA, tout en restant peu utiles en pratique, voire plus pénibles à utiliser

La « calèche sans cheval » de l’ère de l’IA

Aujourd’hui, beaucoup d’applications d’IA reprennent essentiellement les anciens schémas de conception logicielle
Résultat : des modèles puissants comme les LLM se retrouvent inutilement enfermés dans une structure contraignante
C’est ce que l’auteur appelle les « calèches sans cheval (horseless carriages) » de l’ère de l’IA
- Une analogie avec les premières voitures, dont la conception reprenait la forme des calèches et s’avérait inefficace

Exemple d’application IA mal conçue : l’assistant IA de Gmail

Gmail a récemment lancé une fonctionnalité qui génère des brouillons d’e-mails à l’aide du modèle Gemini
Dans l’exemple, l’utilisateur (l’auteur) demande un brouillon d’e-mail à envoyer à son supérieur

> Prompt : demander un brouillon d’e-mail à son supérieur

Le brouillon généré par Gemini est grammaticalement parfait, mais ne ressemble en rien au style réel de l’auteur
- Le style réel de l’auteur : "hey garry, my daughter woke up with the flu so I won't make it in today"
- Le résultat de Gemini est trop formel et peu naturel
Au final, cela prend plus de temps que d’écrire l’e-mail soi-même
L’auteur décrit cette fonctionnalité comme « gérer un collaborateur peu performant »
Il est probable que des millions d’utilisateurs de Gmail aient vécu quelque chose de similaire, et en aient conclu à tort que l’IA ne sait toujours pas bien écrire des e-mails
Mais le problème ne vient pas du modèle Gemini lui-même, plutôt de la façon dont l’équipe Gmail a conçu l’application

Exemple d’un meilleur assistant e-mail

Si Gmail avait conçu son assistant e-mail de la manière suivante, il aurait été bien plus pratique

Exemple d’agent de lecture d’e-mails

Cette démo ne rédige pas les e-mails, elle les lit et les traite
Outils utilisés :
- labelEmail(label, color, priority) : attribue un libellé à un e-mail
- archiveEmail() : archive un e-mail
- draftReply(body) : rédige un brouillon de réponse
Les e-mails de la boîte de réception sont triés comme suit :
- TechCrunch Weekly
- Gustaf Alströmer - founder intro?
- HackerNews Digest
- The Verge Updates
- Garry Tan - reschedule
- et 12 au total
Chaque e-mail est classé automatiquement et priorisé, certains font l’objet d’un brouillon de réponse automatique ou d’un archivage automatique
Chaque message est traité individuellement selon le System Prompt défini par l’utilisateur
L’utilisateur peut modifier directement le System Prompt pour y refléter sa propre logique de classement

> Cette approche est bien plus puissante, intuitive et productive. Alors pourquoi l’équipe Gmail n’a-t-elle pas conçu cela ainsi ?

Le cœur du problème : un « ton standardisé et uniforme »
- L’un des plus gros problèmes induits par la conception de Gmail est un style générique, sans personnalité

AI Slop : des productions formelles et maladroites

Les brouillons d’e-mails générés par Gemini dans Gmail sont excessivement verbeux, formels et très éloignés du style réel de l’auteur
Ce type de résultat peut même ressembler à un e-mail de phishing
La plupart des utilisateurs de LLM ont déjà vécu cela, et finissent naturellement par utiliser une stratégie de prompt hacking pour l’éviter
- Exemple de prompt :
  > "let my boss garry know that my daughter woke up with the flu and that I won't be able to come in to the office today. Use no more than one line for the entire email body. Make it friendly but really concise. Don't worry about punctuation or capitalization. Sign off with “Pete” or “pete” and not “Best Regards, Pete” and certainly not “Love, Pete”"
La qualité du résultat s’améliore, mais le prompt devient trop long, et devoir répéter ce processus à chaque fois reste inefficace
La solution simple à ce problème : donner à l’utilisateur le droit de modifier le System Prompt

Différence entre System Prompt et User Prompt

Un LLM est fondamentalement un système qui prédit le mot suivant à partir des mots fournis en entrée (le prompt)
Toutes les entrées et sorties prennent la forme de texte
- Pour simplifier, l’article ne traite ici que d’une interface textuelle, bien qu’en pratique l’entrée et la sortie puissent aussi être vocales ou visuelles
OpenAI, Anthropic et d’autres ont adopté une structure qui sépare le prompt en System Prompt et User Prompt afin de simplifier cela
- System Prompt : définit la personnalité de l’agent et sa manière d’agir (comme une fonction)
- User Prompt : correspond à la demande ou à la question spécifique de l’utilisateur (comme une valeur d’entrée)
- Réponse du modèle : la valeur de sortie

> Exemple :
> - User Prompt : "Let my boss Garry know that my daughter woke up with the flu this morning and that I won't be able to come in to the office today."
> - System Prompt supposé de Gmail :
> - "You are a helpful email-writing assistant responsible for writing emails on behalf of a Gmail user. Follow the user’s instructions and use a formal, businessy tone and correct punctuation so that it’s obvious the user is smart and serious."

Le problème, c’est que Gmail ne rend pas ce System Prompt public et ne permet pas non plus à l’utilisateur de le modifier

Le System Prompt personnalisé de Pete

Si Gmail avait accordé à l’utilisateur le droit d’écrire lui-même son prompt, au lieu d’imposer un System Prompt uniforme, il aurait pu ressembler à ceci :

> You're Pete, a 43 year old husband, father, programmer, and YC Partner.
> You're very busy and so is everyone you correspond with, so you do your best to keep your emails as short as possible and to the point. You avoid all unnecessary words and you often omit punctuation or leave misspellings unaddressed because it's not a big deal and you'd rather save the time. You prefer one-line emails.
> Do your best to be kind, and don't be so informal that it comes across as rude.
En demandant à GPT de générer un e-mail à partir de ce System Prompt, on obtient quelque chose comme :

> Garry, my daughter has the flu. I can't come in today.
Ce résultat est court, personnel et conforme au style réel de l’utilisateur
Son plus grand avantage, c’est que ce System Prompt peut être réutilisé, ce qui permet d’appliquer le même style à tous les futurs e-mails

Le plaisir et le potentiel de l’écriture de prompts utilisateur

Le fait d’enseigner à un LLM à penser comme soi, puis de voir immédiatement le résultat, est une expérience très intuitive et agréable
L’auteur recommande aux utilisateurs d’essayer de définir leur propre style d’écriture sous la forme d’un System Prompt personnel
- Exemples de User Prompt :
  > "Let my wife know I'll be home from work late and will miss dinner"
  > "Write an email to comcast customer service explaining that they accidentally double billed you last month."
Si le résultat est bon, c’est que l’explication était suffisante ; sinon, il faut compléter le contexte et itérer
Grâce à cette boucle de feedback rapide et honnête, cela peut même être plus simple que d’enseigner quelque chose à un humain

Pourquoi la plupart des applications d’IA n’exposent-elles pas le System Prompt ?

En avril 2025, la plupart des applications d’IA cachent délibérément leur System Prompt
- Lien connexe : mention d’une conception volontairement opaque sur X
L’auteur y voit une confiscation du pouvoir et de l’individualité des utilisateurs, et soutient que le System Prompt doit impérativement leur être ouvert pour améliorer les résultats et l’expérience d’usage

Horseless Carriages : une application dépassée d’une technologie nouvelle

Quand une nouvelle technologie apparaît, les premiers outils imitent souvent tel quel le cadre des méthodes existantes, et échouent pour cette raison
Une « horseless carriage » désigne le cas où les premières automobiles reprenaient le design des calèches tirées par des chevaux
- Exemple : la calèche à vapeur de Trevithick en 1803
- Ce design semblait innovant à l’époque, mais nous apparaît aujourd’hui fondamentalement inadapté à l’automobile
À l’époque, les gens pouvaient monter dans ce type de véhicule et penser que « les chevaux sont meilleurs que les moteurs » → c’était un jugement compréhensible avant l’arrivée de vraies voitures
L’auteur soutient que les applications d’IA se trouvent aujourd’hui dans une situation similaire
- Exemple : comme la fonctionnalité Gemini de Gmail, qui ajoute de l’IA à une UX conçue selon un paradigme dépassé
Le raisonnement dominant de l’époque se limitait à « remplaçons le cheval par un moteur »
- Aujourd’hui, beaucoup d’apps IA font pareil : elles ajoutent simplement des fonctions IA à des applications existantes

Old World Thinking : les limites de la conception logicielle traditionnelle

Jusqu’ici, il n’existait que deux façons d’utiliser un ordinateur :
1. programmer soi-même
2. utiliser un programme créé par quelqu’un d’autre
Comme programmer est difficile, la plupart des gens choisissaient la deuxième option
C’est ainsi que l’industrie logicielle s’est développée en séparant clairement le rôle des développeurs et celui des utilisateurs
- Développeurs : déterminent le comportement général du logiciel
- Utilisateurs : fournissent des entrées concrètes
La distinction entre System Prompt et User Prompt dans les LLM reflète encore cette structure
- System Prompt = le domaine des développeurs
- User Prompt = le domaine des utilisateurs
Or l’e-mail est un espace profondément personnel, et si une IA écrit à la place d’un utilisateur, elle doit refléter son style propre
Dans l’ancien modèle, cette personnalisation restait difficile à moins que l’utilisateur ne programme lui-même l’outil
Mais à l’ère des LLM, l’utilisateur peut écrire lui-même le System Prompt
- Autrement dit, nous sommes entrés dans une époque où l’on peut concevoir le comportement de l’IA sans programmer

Rendons aux utilisateurs ce qui leur appartient

La thèse de l’auteur : quand un LLM agit à ma place, c’est à moi de lui enseigner la manière dont il doit le faire (le System Prompt)
Bien sûr, tous les utilisateurs n’auront pas envie d’écrire eux-mêmes un prompt à partir de zéro
- Gmail pourrait générer un System Prompt par défaut à partir de l’historique des e-mails de l’utilisateur
- L’important est de montrer ce prompt à l’utilisateur et de lui permettre de le modifier
« Et ceux qui ne savent pas écrire de prompts ? » → cela peut être vrai au début, mais la plupart apprennent vite
- Le succès de ChatGPT le prouve
Et dans des domaines qui ne relèvent pas d’un agent personnel, comme la comptabilité ou le juridique ?
- Le System Prompt doit certes être rédigé par un expert du domaine, mais cet expert voudra lui aussi l’ajuster selon son propre contexte
Exemple : l’équipe comptable de YC utilise des méthodes, des règles et un assemblage de logiciels propres à YC
- Un agent IA comptable générique serait totalement inutile chez YC
Presque toutes les équipes comptables ont leur propre façon de faire, et c’est pourquoi elles préfèrent des outils généralistes comme Excel
Conclusion : dans la plupart des applications d’IA, le System Prompt devrait être rédigé et maintenu par l’utilisateur lui-même

> Une application d’IA ne devrait pas être un agent fini, mais un outil permettant à l’utilisateur de construire son propre agent (agent builder)

Rendons aux développeurs ce qui leur appartient

Alors, quel doit être le rôle des développeurs ?
- Concevoir une UI de construction d’agents spécialisée pour un domaine donné (par exemple l’e-mail, la comptabilité, etc.)
- Fournir des templates et des assistants de génération de prompts afin que les utilisateurs n’aient pas à tout écrire de zéro
- Offrir une interface de boucle de feedback pour permettre à l’utilisateur de vérifier et corriger les résultats de l’agent
Les développeurs doivent aussi fournir des outils d’agent (agent tools)
- Soumission de brouillons d’e-mails, envoi automatique, recherche dans les e-mails, connexion à des API externes, etc.
Ces outils servent à contrôler le périmètre d’action et la sécurité de l’agent
- Restreindre les actions via des outils codés est bien plus sûr et plus clair que d’essayer de les limiter par un prompt textuel

> À l’avenir, l’idée même de s’inquiéter de la prompt injection pourrait devenir risible
> → tracer des frontières dans une structure purement textuelle est le signe d’une abstraction fragile
> → il faut considérer l’ensemble du système comme un espace utilisateur, et le contrôler via des outils puissants et une UI solide

La vraie valeur d’un agent qui « lit » les e-mails

Comme expliqué plus haut, même un meilleur System Prompt ne permet pas de gagner énormément de temps lorsqu’il s’agit de rédiger un e-mail depuis zéro
La raison est simple : les e-mails de l’auteur sont déjà très courts et très concis
- Autrement dit, la longueur du prompt utilisateur ≒ la longueur du corps de l’e-mail
Après de nombreuses expériences, l’auteur a constaté que l’IA générative est bien plus forte pour transformer un texte que pour en générer un
Le véritable objectif d’un LLM n’est donc pas de « rédiger » des e-mails, mais de les « lire et traiter »

Démo d’agent de lecture d’e-mails (basée sur gpt-4o-mini)

Outils disponibles :
- labelEmail(label, color, priority) : attribuer un libellé à un e-mail
- archiveEmail() : archiver automatiquement un e-mail
- draftReply(body) : générer automatiquement un brouillon de réponse
Cet agent lit chaque e-mail et :
- filtre correctement le spam
- applique des libellés selon l’importance
- résume ou rédige des brouillons de réponse
- archive automatiquement les messages inutiles
Avec seulement quelques outils supplémentaires, il pourrait même :
- se désabonner
- ajouter des événements à l’agenda
- payer automatiquement des factures
Voilà ce que devrait faire un client e-mail nativement IA :
→ automatiser les tâches répétitives et fastidieuses pour faire gagner du temps à l’utilisateur
- Des clients e-mail comme Superhuman et Zero se développent déjà en partie dans cette direction

Ce que signifie un logiciel nativement IA

La vraie killer app de l’IA, c’est de permettre à l’ordinateur de faire à ma place les tâches que je n’ai pas envie de faire
Si l’auteur a inclus une démo dans cet article, c’est aussi pour montrer que les LLM sont déjà tout à fait capables d’effectuer ce type de travail
Le problème ne vient donc pas des performances de l’IA, mais de la conception des applications

> Ce que l’équipe Gmail a construit, c’est une application e-mail avec une couche d’IA
> → non pas un outil d’automatisation pour l’utilisateur, mais une tentative forcée d’insérer l’IA dans une interface pensée pour des humains

À l’inverse, une application nativement IA devrait :
- maximiser l’effet de levier de l’utilisateur dans un domaine donné
- ex. : un client e-mail IA doit minimiser le temps passé à gérer ses e-mails
- ex. : un logiciel de comptabilité IA doit minimiser le temps consacré au traitement comptable

Les attentes pour l’ère de l’IA

Les agents prendront en charge tous les travaux répétitifs et ennuyeux
Les utilisateurs pourront se concentrer sur les tâches importantes
Chacun pourra consacrer plus de temps à ce qu’il sait faire et aime faire

> Voilà pourquoi l’auteur est enthousiaste à propos de l’avenir de l’IA
> De meilleurs outils, un meilleur usage du temps, une productivité accrue

2 commentaires

crawler 2025-04-24

Les applications d'IA vraiment utiles devraient permettre aux utilisateurs de modifier le System Prompt afin de créer des agents personnalisés

Bien sûr, les développeurs qui conçoivent ces fonctionnalités le savent aussi, mais tant qu'il y a des jailbreaks, ce n'est pas simple.
Même si on verrouille la modification du prompt système, il peut quand même y avoir un jailbreak ; donc ouvrir la modification du prompt système est pratiquement impossible.
Et puis, on ne sait pas non plus si cela pourrait être utilisé à bas prix pour un usage différent de la fonction d'origine.

GN⁺ 2025-04-24

Avis Hacker News

Aborde avec prudence l’usage des modèles de langage pour rédiger des messages personnels. Ils manquent de la spécificité de l’expérience ou des connaissances individuelles
- Si un modèle comme Gemini pouvait comprendre les explications techniques passées d’une personne ou les détails concrets de son travail, ce serait plus facile à accepter
- Mais dans la plupart des cas, cela ne diffère pas vraiment d’un e-mail qu’une secrétaire des années 1970 aurait pu écrire
- Pour rédiger un message personnel, un résumé est inutile, et développer un court message ne produit qu’un bruit sans intérêt
- Utiliser l’IA pour écrire des messages brouille les frontières de la transmission d’information
A le sentiment que 90 % des fonctionnalités IA sont inutiles et coûteuses
- En dehors des fonctions d’IA pour le code, il est difficile de trouver des usages réellement utiles
- Les fonctions d’autocomplétion de Gmail ou iMessage existaient déjà avant les LLM
- N’a jamais utilisé les fonctions de Gmail pour donner un ton plus professionnel à un e-mail
Gemini agit comme un assistant personnel et envoie des e-mails à la place de l’utilisateur
- Rédiger des messages personnels avec l’IA peut mettre le destinataire mal à l’aise
Trouve désagréable de communiquer avec des personnes qui ne se soucient ni de la grammaire ni de l’orthographe
- Il ne blâme pas les personnes qui font des fautes d’orthographe, mais quand quelqu’un en est capable et ne fait quand même pas attention, cela montre un manque d’égard pour l’autre
Le widget interactif connecté à un LLM était amusant
- Le bouton « résumé de l’e-mail » de Gmail semble inutile
Beaucoup pensent que l’IA écrit dans un style prévisible, mais en réalité ce n’est pas le cas
- Cela s’applique non seulement au texte, mais aussi à la génération d’images
- Les gens peuvent se sentir mal à l’aise lorsqu’ils réalisent que l’IA peut parler comme une vraie personne
A apprécié le fait que la démo interactive se déroule en temps réel
- Elle peut analyser le style d’un e-mail pour en rédiger une ébauche
- Cela pourrait évoluer vers un système où l’IA rédige automatiquement l’e-mail et l’utilisateur se contente de l’approuver
L’IA ne peut pas savoir ce que veut l’utilisateur, et il est difficile d’exprimer clairement ses objectifs
- Si l’IA s’occupe de tout, l’utilisateur réfléchit moins en profondeur, ce qui limite son expertise et sa capacité à résoudre des problèmes
Les fonctions d’IA les plus utiles ne se remarquent pas
- L’assistant d’étiquetage des e-mails en est un bon exemple
- La fonction qui interprète automatiquement les e-mails de « replanification » et propose un changement d’horaire est utile
Ne comprend pas l’intérêt de laisser l’IA rédiger des messages à sa place
- Dans le cas de messages importants, le fait de les écrire soi-même a du sens, car c’est une expression d’une interaction vivante