- Dans l’industrie technologique, tous les quelques ans, à chaque apparition d’une nouvelle technologie d’IA, on voit revenir le même fantasme : « cette fois, les interfaces en langage naturel vont tout changer »
- Siri, Alexa, les chatbots, la plateforme AirPods, et plus récemment les grands modèles de langage (LLM), s’inscrivent tous dans cette dynamique
- Pourtant, dans la pratique, notre manière d’utiliser les ordinateurs a très peu changé
- Les gens ont tendance à croire que le langage naturel est « naturellement » la forme finale évidente, simplement parce qu’il paraît intuitif
- La thèse de cet article est que les interfaces en langage naturel ne sont pas un idéal, et qu’en pratique elles ne constituent pas une méthode efficace
Le langage naturel est un mode de transmission de données lent et avec pertes
- Le langage naturel est un mécanisme de transmission de données permettant aux humains d’échanger idées et connaissances
- Dans toute transmission de données, les deux éléments clés sont la vitesse et le taux de perte (lossiness)
- Nous pensons à un rythme d’environ 1 000 à 3 000 mots par minute, mais la vitesse à laquelle nous parlons ou écrivons est bien plus lente
- Par exemple, lire/écouter (réception) est rapide, alors qu’écrire/parler (émission) est lent → le langage naturel constitue un goulet d’étranglement
- À la place, les humains utilisent des gestes (pouce levé, hochement de tête, etc.) pour communiquer plus vite et plus brièvement
- Cette manière de faire ressemble à une compression de données → il y a des pertes, mais elle excelle en vitesse et en confort d’usage
- L’exemple le plus efficace est sans doute celui d’un vieux couple qui comprend les besoins de l’autre sans même avoir à parler
L’évolution des interactions entre humains et ordinateurs
- Les premiers ordinateurs utilisaient des interfaces textuelles à base de commandes, mais l’arrivée des GUI a permis d’accomplir plus facilement les tâches via des éléments visuels
- Aujourd’hui, nous sommes dans un état d’équilibre productif combinant GUI et raccourcis clavier
- Des raccourcis comme ⌘b, ⌘t, ⌘c/v ne sont pas du langage naturel, mais une forme de compression de données, bien plus rapide et efficace
- Des outils comme Linear, Raycast ou Superhuman poussent au maximum cette saisie compressée → une fois maîtrisés, ils permettent presque d’agir en même temps qu’on pense
- Les interfaces tactiles se sont imposées comme un complément, mais le vrai travail de productivité continue de se faire sur desktop
- Sur mobile, la saisie de texte est lente et inconfortable (36 WPM en moyenne) → il n’existe pas d’alternative aux raccourcis réellement adaptée au mobile
- C’est pour cette raison que les outils de productivité mobile n’ont pas évolué autant que ceux du desktop
Les interfaces conversationnelles sont désavantagées en vitesse de saisie
- La voix est un moyen de saisie plus rapide que la frappe (150 WPM contre 60 WPM), mais dans l’usage réel elle reste inefficace
- Exemple : dire « Hey Google, donne-moi la météo » est dix fois plus lent qu’appuyer sur une icône d’application
- Si Siri et Alexa ont échoué, ce n’est pas à cause de la qualité des sorties de l’IA, mais à cause de la lourdeur du mode d’entrée
- Les LLM, eux aussi, ne résolvent pas l’inefficacité du mode d’entrée
- Décrire en une phrase ce qu’un simple bouton peut faire revient plutôt à une régression
L’UI conversationnelle doit être utilisée comme moyen complémentaire
- Les LLM sont très utiles non pas pour remplacer les interfaces existantes, mais sous une forme qui les complète
- L’auteur explique qu’il a effectivement rédigé une première version de cet article lors d’une promenade, via une conversation vocale avec ChatGPT → il a utilisé le LLM comme partenaire de réflexion
- Il s’agit ici d’un travail centré sur la pensée plutôt que sur la vitesse, et cela ne remplace pas le workflow existant : c’est un cas d’usage entièrement nouveau
- L’exemple le plus idéal est celui d’un hackathon où Alexa a été utilisée comme moyen d’entrée auxiliaire dans StarCraft II
- Au lieu de remplacer la souris et le clavier, la voix a servi de mode d’entrée supplémentaire afin d’élargir la bande passante de transmission des données
- Des outils comme Figma, Notion ou Excel ne seront pas remplacés par une UI de chat
- À la place, les LLM doivent s’installer comme une méta-couche toujours active reliant les outils entre eux
- Exemple : l’utilisateur devrait pouvoir exécuter de petites commandes à la voix même pendant qu’il travaille à la souris ou au clavier
- Pour cela, l’IA ne doit pas être une application isolée, mais fonctionner au niveau du système d’exploitation
- En parallèle, il faut aussi imaginer des moyens de rendre la saisie vocale plus rapide (par exemple : sifflement, reconnaissance des émotions, etc.)
- Même pour une interface conversationnelle, l’essentiel reste la vitesse et la praticité
Conclusion : il faut raisonner en complément, pas en remplacement
- Le titre de cet article relève d’une exagération destinée à attirer les clics
- Le vrai propos n’est pas « contre les interfaces conversationnelles », mais bien contre une vision à somme nulle
- L’IA n’a pas vocation à remplacer les interfaces existantes, mais à servir de complément ouvrant de nouvelles possibilités
- Le futur idéal serait une interaction naturelle et inconsciente entre l’humain et l’ordinateur
- Comme lorsque, à la table du petit-déjeuner, le beurre vous est passé automatiquement sans qu’un mot soit nécessaire
5 commentaires
J’ai eu des réflexions similaires sur l’aspect interface moi aussi, mais aucune nouvelle interface vraiment pertinente ne m’est venue à l’esprit.
L’article https://upsidelab.io/blog/design-voice-user-interface-starcraft présenté dans le texte principal date de 2018, mais il reste intéressant.
Je me demande comment cela sera choisi et utilisé à l’avenir.
Les humains n’aiment pas l’incertitude dans la conversation, il leur est donc difficile d’abandonner le besoin d’utiliser des mots précis. Mais les ChatAI et les LLM comportent par nature une part d’incertitude. Si l’information probabiliste n’affecte que moi, ce n’est pas grave, mais si mon interlocuteur dépend lui aussi des probabilités, cela devient stressant. Parfois, une approche déterministe peut être plus rassurante.
Commentaire Hacker News
Cela clarifie bien plusieurs choses que j’essayais d’expliquer à des personnes intéressées par la « conversation » avec les ordinateurs
Ce que l’article se trompe à dire
Star Trek montre bien un usage approprié des interfaces conversationnelles
Une UI vocale est plus efficace lorsqu’elle est utilisée avec le clavier et la souris
Il faut trouver des moyens de transmettre la saisie vocale plus rapidement
Le titre de l’article peut prêter à confusion
Les personnes extraverties et orientées management préfèrent lancer des paroles pour résoudre les problèmes
Jusqu’à il y a 20 ou 30 ans, les humains n’étaient pas informatisés
Les outils d’IA de type texte-vers-CAD comprennent mal les besoins des utilisateurs
J’aimerais que la relation avec les ordinateurs ressemble à la télépathie