25 points par GN⁺ 2025-04-03 | 5 commentaires | Partager sur WhatsApp
  • Dans l’industrie technologique, tous les quelques ans, à chaque apparition d’une nouvelle technologie d’IA, on voit revenir le même fantasme : « cette fois, les interfaces en langage naturel vont tout changer »
  • Siri, Alexa, les chatbots, la plateforme AirPods, et plus récemment les grands modèles de langage (LLM), s’inscrivent tous dans cette dynamique
  • Pourtant, dans la pratique, notre manière d’utiliser les ordinateurs a très peu changé
  • Les gens ont tendance à croire que le langage naturel est « naturellement » la forme finale évidente, simplement parce qu’il paraît intuitif
  • La thèse de cet article est que les interfaces en langage naturel ne sont pas un idéal, et qu’en pratique elles ne constituent pas une méthode efficace

Le langage naturel est un mode de transmission de données lent et avec pertes

  • Le langage naturel est un mécanisme de transmission de données permettant aux humains d’échanger idées et connaissances
  • Dans toute transmission de données, les deux éléments clés sont la vitesse et le taux de perte (lossiness)
  • Nous pensons à un rythme d’environ 1 000 à 3 000 mots par minute, mais la vitesse à laquelle nous parlons ou écrivons est bien plus lente
  • Par exemple, lire/écouter (réception) est rapide, alors qu’écrire/parler (émission) est lent → le langage naturel constitue un goulet d’étranglement
  • À la place, les humains utilisent des gestes (pouce levé, hochement de tête, etc.) pour communiquer plus vite et plus brièvement
  • Cette manière de faire ressemble à une compression de données → il y a des pertes, mais elle excelle en vitesse et en confort d’usage
  • L’exemple le plus efficace est sans doute celui d’un vieux couple qui comprend les besoins de l’autre sans même avoir à parler

L’évolution des interactions entre humains et ordinateurs

  • Les premiers ordinateurs utilisaient des interfaces textuelles à base de commandes, mais l’arrivée des GUI a permis d’accomplir plus facilement les tâches via des éléments visuels
  • Aujourd’hui, nous sommes dans un état d’équilibre productif combinant GUI et raccourcis clavier
  • Des raccourcis comme ⌘b, ⌘t, ⌘c/v ne sont pas du langage naturel, mais une forme de compression de données, bien plus rapide et efficace
  • Des outils comme Linear, Raycast ou Superhuman poussent au maximum cette saisie compressée → une fois maîtrisés, ils permettent presque d’agir en même temps qu’on pense
  • Les interfaces tactiles se sont imposées comme un complément, mais le vrai travail de productivité continue de se faire sur desktop
  • Sur mobile, la saisie de texte est lente et inconfortable (36 WPM en moyenne) → il n’existe pas d’alternative aux raccourcis réellement adaptée au mobile
  • C’est pour cette raison que les outils de productivité mobile n’ont pas évolué autant que ceux du desktop

Les interfaces conversationnelles sont désavantagées en vitesse de saisie

  • La voix est un moyen de saisie plus rapide que la frappe (150 WPM contre 60 WPM), mais dans l’usage réel elle reste inefficace
  • Exemple : dire « Hey Google, donne-moi la météo » est dix fois plus lent qu’appuyer sur une icône d’application
  • Si Siri et Alexa ont échoué, ce n’est pas à cause de la qualité des sorties de l’IA, mais à cause de la lourdeur du mode d’entrée
  • Les LLM, eux aussi, ne résolvent pas l’inefficacité du mode d’entrée
  • Décrire en une phrase ce qu’un simple bouton peut faire revient plutôt à une régression

L’UI conversationnelle doit être utilisée comme moyen complémentaire

  • Les LLM sont très utiles non pas pour remplacer les interfaces existantes, mais sous une forme qui les complète
  • L’auteur explique qu’il a effectivement rédigé une première version de cet article lors d’une promenade, via une conversation vocale avec ChatGPT → il a utilisé le LLM comme partenaire de réflexion
  • Il s’agit ici d’un travail centré sur la pensée plutôt que sur la vitesse, et cela ne remplace pas le workflow existant : c’est un cas d’usage entièrement nouveau
  • L’exemple le plus idéal est celui d’un hackathon où Alexa a été utilisée comme moyen d’entrée auxiliaire dans StarCraft II
    • Au lieu de remplacer la souris et le clavier, la voix a servi de mode d’entrée supplémentaire afin d’élargir la bande passante de transmission des données
  • Des outils comme Figma, Notion ou Excel ne seront pas remplacés par une UI de chat
  • À la place, les LLM doivent s’installer comme une méta-couche toujours active reliant les outils entre eux
    • Exemple : l’utilisateur devrait pouvoir exécuter de petites commandes à la voix même pendant qu’il travaille à la souris ou au clavier
  • Pour cela, l’IA ne doit pas être une application isolée, mais fonctionner au niveau du système d’exploitation
  • En parallèle, il faut aussi imaginer des moyens de rendre la saisie vocale plus rapide (par exemple : sifflement, reconnaissance des émotions, etc.)
  • Même pour une interface conversationnelle, l’essentiel reste la vitesse et la praticité

Conclusion : il faut raisonner en complément, pas en remplacement

  • Le titre de cet article relève d’une exagération destinée à attirer les clics
  • Le vrai propos n’est pas « contre les interfaces conversationnelles », mais bien contre une vision à somme nulle
  • L’IA n’a pas vocation à remplacer les interfaces existantes, mais à servir de complément ouvrant de nouvelles possibilités
  • Le futur idéal serait une interaction naturelle et inconsciente entre l’humain et l’ordinateur
    • Comme lorsque, à la table du petit-déjeuner, le beurre vous est passé automatiquement sans qu’un mot soit nécessaire

5 commentaires

 
dbs0829 2025-04-04

J’ai eu des réflexions similaires sur l’aspect interface moi aussi, mais aucune nouvelle interface vraiment pertinente ne m’est venue à l’esprit.

 
winterjung 2025-04-03

L’article https://upsidelab.io/blog/design-voice-user-interface-starcraft présenté dans le texte principal date de 2018, mais il reste intéressant.

 
girr311 2025-04-03

Je me demande comment cela sera choisi et utilisé à l’avenir.

 
fantajeon 2025-04-03

Les humains n’aiment pas l’incertitude dans la conversation, il leur est donc difficile d’abandonner le besoin d’utiliser des mots précis. Mais les ChatAI et les LLM comportent par nature une part d’incertitude. Si l’information probabiliste n’affecte que moi, ce n’est pas grave, mais si mon interlocuteur dépend lui aussi des probabilités, cela devient stressant. Parfois, une approche déterministe peut être plus rassurante.

 
GN⁺ 2025-04-03
Commentaire Hacker News
  • Cela clarifie bien plusieurs choses que j’essayais d’expliquer à des personnes intéressées par la « conversation » avec les ordinateurs

    • L’exemple donné consiste à imaginer une situation où l’on conduit une voiture en la pilotant uniquement à la voix
    • C’est inconfortable, cela empêche de parler avec les passagers, et parler à l’ordinateur revient à le faire faire ce que l’on veut
    • Il existe des moyens plus simples et plus rapides que de parler en langage naturel
  • Ce que l’article se trompe à dire

    • L’affirmation selon laquelle « le langage naturel est un mécanisme de transmission de données »
    • Pour un mécanisme de transmission de données, la vitesse et la perte sont importantes
    • Le langage naturel ne possède ni l’une ni l’autre de ces qualités
    • Les interfaces conversationnelles se caractérisent surtout par le « bonheur de l’ignorance » et l’« interprétation intelligente », plutôt que par la transmission d’information
    • Le « bonheur de l’ignorance » permet d’indiquer un objectif sans avoir besoin de connaître la manière de l’atteindre
    • L’« interprétation intelligente » permet d’interpréter l’intention plutôt que de simples commandes
    • Comme dans la gestion d’équipe, avec une équipe expérimentée, on peut espérer de bons résultats avec de simples consignes
  • Star Trek montre bien un usage approprié des interfaces conversationnelles

    • L’interface vocale complète la saisie manuelle et sert de canal secondaire
    • Elle n’est pas adaptée à des commandes de contrôle précises énoncées à la voix, mais plutôt à la délégation, aux requêtes et à un usage indépendant de la position
    • Les interactions vocales y étaient utilisées sous forme d’explications, et ils avaient probablement bien compris ce qui paraît maladroit
  • Une UI vocale est plus efficace lorsqu’elle est utilisée avec le clavier et la souris

    • La mémoire visuelle et la mémoire auditive disposent de tampons séparés, et le tampon auditif a de la marge
    • Demander la météo à la voix est plus rapide qu’ouvrir une application
    • Le langage se compresse automatiquement et crée de nouveaux mots pour les concepts complexes
    • Comme lorsqu’on abrège les titres de livres, une UI vocale peut aussi devenir efficace
  • Il faut trouver des moyens de transmettre la saisie vocale plus rapidement

    • Cela m’a rappelé la vidéo de Travis Rudd en train de coder en Python à la voix
    • J’avais été impressionné par l’expérience consistant à lire des supports d’apprentissage et à répondre à des quiz via une interface vocale
  • Le titre de l’article peut prêter à confusion

    • Les titres conçus pour provoquer le clic ne sont pas une bonne chose
  • Les personnes extraverties et orientées management préfèrent lancer des paroles pour résoudre les problèmes

    • Lorsqu’on rédige un e-mail, il est important de donner l’impression d’avoir envisagé différentes options
    • Les personnes qui font réellement le travail reconnaissent que parler à un ordinateur est inefficace
  • Jusqu’à il y a 20 ou 30 ans, les humains n’étaient pas informatisés

    • On affirmait que l’informatique portable représentait l’avenir
    • Mais être accro aux écrans et aux télécommandes n’a rien d’humain
    • Les gens préfèrent davantage utiliser une télécommande
  • Les outils d’IA de type texte-vers-CAD comprennent mal les besoins des utilisateurs

    • Un atelier d’usinage veut un dessin, pas un poème de 300 mots
  • J’aimerais que la relation avec les ordinateurs ressemble à la télépathie

    • C’est encore pire quand l’ordinateur fait tout à notre place
    • Il est plus facile d’apprendre aux humains à penser comme des ordinateurs
    • JavaScript résout 80 % des problèmes avec 20 % des fonctionnalités
    • ChatGPT/Bard/Gemini écrivent JavaScript à la place des gens
    • Les interfaces mobiles ne sont pas adaptées à la saisie au clavier