Tout ce que a16z a compilé sur les agents vocaux IA

xguru · 2024-06-12T11:07:01+09:00

Grâce à l’IA générative, les humains n’auront bientôt plus besoin de passer des appels téléphoniques Les humains ne consacreront du temps aux appels téléphoniques que lorsqu’ils auront une réelle valeur Avantages pour les entreprises Réduction du temps et des coûts de main-d’œuvre liés aux appelants humains Possibilité de réallouer les ressources pour accroître la génération de revenus Réduction des risques grâce à une expérience client plus standardisée et cohérente Avantages pour les consommateurs Les agents vocaux peuvent fournir un service de niveau humain sans avoir à payer une vraie personne ni à être « mis en relation » avec elle Aujourd’hui, cela inclut notamment les thérapeutes, coachs et compagnons À l’avenir, cela couvrira probablement une palette d’expériences bien plus large, construites autour de la voix Comme pour la plupart des autres logiciels grand public, les « gagnants » seront probablement imprévisibles Les appels téléphoniques sont l’API de communication avec le monde, et l’IA élève cela à un niveau supérieur Là où il semble y avoir des opportunités Il existe d’énormes opportunités à chaque couche : acteurs de l’infrastructure, interfaces grand public, agents d’entreprise, etc. Pour les agents vocaux B2C et B2B, voici quelques hypothèses sur les produits émergents les plus intéressants : Principales caractéristiques des agents vocaux B2B et B2C Built to scale (conçus pour passer à l’échelle) La latence et l’expérience conversationnelle ne sont pas encore entièrement résolues Ils recherchent des fondateurs qui ont une vision affirmée de la construction d’agents Ils cherchent à maximiser ce qui compte le plus pour un agent : vitesse, précision, ton/émotion, etc. Vertically focused (focalisés verticalement) Il peut s’agir d’agents d’exécution reposant sur des modèles finement adaptés à un cas d’usage spécifique et sur des intégrations étroites Ils sont plus faciles à construire, lancer sur le marché et faire croître avec succès Realistic in scope (réalistes dans leur périmètre) Déléguer entièrement des appels importants à l’IA est un défi majeur Ils s’attendent à ce que, à court terme, les entreprises d’agents vocaux réalisent des tâches qui ne sont pas encore « extensibles » Cela peut inclure un réglage spécifique par client ou le transfert de l’appel à un agent humain pour l’étape finale La stack pour construire des agents vocaux Pour fonctionner, un agent vocal a besoin de : capter la parole humaine (ASR) traiter cette entrée avec un LLM et renvoyer une sortie reparler à l’humain (TTS) De nouveaux modèles multimodaux comme GPT-4o pourraient modifier la structure de la stack en « exécutant » plusieurs de ces couches en même temps au sein d’un seul modèle Cela peut réduire la latence et les coûts, tout en offrant une interface conversationnelle plus naturelle Beaucoup d’agents ne sont pas encore parvenus à une qualité véritablement humaine avec la stack assemblée ci-dessous Dans certaines entreprises ou approches, le LLM ou une série de LLM gère le flux conversationnel et les émotions. Dans d’autres cas, il existe un moteur propriétaire qui ajoute l’émotion, gère les interruptions, etc. Les fournisseurs vocaux « full stack » proposent tout cela au même endroit. Les applications grand public (B2C) et d’entreprise (B2B) se trouvent au-dessus de cette stack. Même en utilisant des fournisseurs tiers, les applications y branchent généralement un LLM personnalisé, qui joue souvent aussi le rôle de moteur conversationnel. Full stack vs. assemblage maison : comparaison des principaux facteurs Les fondateurs d’agents vocaux peuvent choisir entre exécuter leur agent sur une plateforme full stack (par ex. Retell, Vapi, Bland) ou assembler eux-mêmes la stack. Plusieurs facteurs clés entrent en jeu dans cette décision : Complexity (complexité) Les acteurs full stack offrent un moyen plus simple de construire des agents vocaux, en abstrahant la complexité côté infrastructure Cela laisse néanmoins de la place pour la personnalisation et le tuning, comme brancher des prompts ou des documents de connaissance (RAG) dans le LLM Flexibility (flexibilité) Les fondateurs qui construisent pour un vertical précis et un cas d’usage spécifique voudront probablement un maximum de flexibilité sur le fonctionnement/exécution de chaque couche de la stack Cela peut aussi aller de pair avec la recherche de la latence la plus faible possible Cost (coût) Les fournisseurs full stack peuvent introduire un niveau de coût supplémentaire par appel, tout en pouvant aussi négocier de meilleurs tarifs grâce aux volumes Pour des agents vocaux à grande échelle, quelques centimes par appel peuvent faire une vraie différence Control (contrôle) En cas de problème, les fondateurs d’agents vocaux doivent être capables d’identifier et de résoudre le souci immédiatement, en particulier pour les cas d’usage sensibles Ils peuvent aussi avoir besoin d’une visibilité maximale sur le fonctionnement de chaque couche C’est plus facile à obtenir avec une stack assemblée en interne Principaux acteurs de la stack Full Stack : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI Emotion : hume Text to Speech : ElevenLabs, Azure Speech to Text : Deepgram, Whisper, AssemblyAI, Azure Streaming : LiveKit, daily Notre point de vue sur les agents B2B L’évolution de la voix IA Nous passons de la voix IA 1.0 (arbres téléphoniques) à l’ère de la voix IA 2.0 (basée sur les LLM) Les entreprises 2.0 ont commencé à émerger au cours des six derniers mois environ Les entreprises 1.0 sont peut-être plus précises aujourd’hui, mais à long terme, l’approche 2.0 sera bien plus scalable et précise La nécessité de modèles spécialisés par vertical Il n’existera pas un seul modèle ou une seule plateforme horizontale valable pour tous les types d’agents vocaux d’entreprise Il existe plusieurs différences majeures d’un vertical à l’autre : type d’appels, ton et structure intégrations et processus GTM et « killer feature » Cela pourrait se traduire par une explosion d’agents verticaux très fortement orientés dans leur UI Pour cela, il faut des équipes fondatrices ayant une expertise ou un intérêt fort pour le domaine concerné Les opportunités les plus proches Le TAM est important pour les entreprises très intensives en main-d’œuvre Les opportunités à court terme pourraient se situer dans les secteurs qui : dépendent fortement de la prise de rendez-vous par téléphone subissent de graves pénuries de main-d’œuvre ont une faible complexité d’appel À mesure que les agents deviendront plus sophistiqués, ils pourront traiter des appels plus complexes L’évolution des agents B2B Processus d’évolution IVR (Interactive Voice Response) : modèle traditionnel à touches, dans lequel l’agent propose une série d’options au consommateur (1 pour les ventes, 2 pour le support client, etc.) et l’oriente en conséquence AI 1.0 (Phone Trees) : version plus flexible et intuitive de l’IVR, où le consommateur parle en langage naturel et l’agent essaie de le guider à travers une série de flux conversationnels AI 2.0 (LLMs) : conversation libre, dans laquelle l’IA n’essaie pas de faire correspondre ce que dit l’humain à des options prédéfinies De nombreuses entreprises d’agents vocaux adoptent une approche verticale, ciblant un secteur spécifique (par ex. l’entretien automobile) ou un type de tâche précis (par ex. la prise de rendez-vous). Cela s’explique par plusieurs raisons : Difficulté d’exécution Le niveau de qualité requis pour confier des appels à l’IA est élevé, et les flux conversationnels (ainsi que les workflows backend côté client) peuvent rapidement devenir complexes ou très spécifiques Les entreprises qui construisent pour les « cas d’exception » de ces verticaux ont plus de chances de réussir (par ex. un vocabulaire spécifique qu’un modèle généraliste pourrait mal interpréter) Réglementation et licences Certaines entreprises d’agents vocaux font face à des restrictions particulières, à des certifications requises, etc. L’exemple le plus évident est la santé (par ex. conformité HIPAA), mais cela apparaît aussi dans des catégories comme la vente, où des réglementations nationales existent sur le démarchage téléphonique par IA Intégrations Dans certaines catégories, offrir une bonne expérience utilisateur (à la fois pour l’entreprise et le consommateur) peut nécessiter des intégrations de long tail ou spécialisées. Cela ne vaut pas la peine d’être construit sauf si l’on vise un cas d’usage spécifique Point d’entrée vers d’autres logiciels La voix peut s’insérer naturellement dans des actions client clés comme les réservations, renouvellements, devis, etc. Dans certains cas, cela peut devenir un point d’entrée vers une plateforme SaaS verticale plus large pour ces entreprises, en particulier lorsque leur clientèle opère encore hors ligne Agents B2B : là où l’on voit des opportunités Basés sur des LLM — mais pas nécessairement 100 % automatisés dès le premier jour La « forme forte » des agents vocaux IA sera une conversation entièrement pilotée par un LLM, et non une approche IVR ou arborescence téléphonique Cependant, comme les LLM ne sont pas fiables à 100 % sur l’ensemble du processus, les cas plus sensibles ou à plus forte valeur auront probablement besoin, au moins temporairement, d’un « humain dans la boucle » Cela rend aussi les workflows spécifiques par vertical particulièrement importants, afin de maximiser le taux de réussite tout en minimisant les edge cases et l’intervention humaine Tuning de modèles personnalisés vs. prompting d’une approche LLM Les agents vocaux B2B doivent gérer des conversations spécialisées (ou spécifiques à un vertical), pour lesquelles un LLM généraliste risque d’être insuffisant De nombreuses entreprises ajustent déjà des modèles par client (avec quelques centaines ou quelques milliers de points de données), avec la possibilité d’en inférer ensuite un modèle de base à l’échelle de l’entreprise Le tuning personnalisé pour les clients enterprise pourrait se poursuivre Remarque : certaines entreprises peuvent ajuster un modèle « général » (utilisé pour l’ensemble des clients) à un cas d’usage spécifique, puis le spécialiser par prompting selon chaque client Des équipes techniques avec une expertise métier Vu la complexité, une expérience préalable en IA sera utile pour construire et faire passer à l’échelle des agents vocaux B2B de haute qualité Mais comprendre comment packager le produit et trouver un wedge dans un vertical donné exigera probablement, tout autant, une expertise métier ou un intérêt très fort pour le domaine Il n’est pas nécessaire d’avoir un doctorat en IA pour construire et lancer un agent vocal d’entreprise ! Une vision claire des intégrations + de l’écosystème Comme indiqué plus haut, les acheteurs de chaque vertical ont généralement quelques fonctionnalités ou intégrations spécifiques qu’ils veulent voir avant d’acheter En pratique, cela peut être ce qui fait passer l’évaluation d’un produit de « utile » à « magique » C’est une autre raison pour laquelle il est logique de démarrer de manière assez verticalisée Un positionnement « enterprise-grade » ou une forte motion de product-led growth (PLG) Pour les verticaux où une part importante du chiffre d’affaires est concentrée chez les plus grands acteurs/fournisseurs, une entreprise d’agents vocaux peut commencer par les grands comptes puis se diffuser « vers le bas » jusqu’aux PME via un produit en self-service Les clients PME veulent souvent cette solution de manière urgente et sont prêts à tester différentes options, mais peuvent ne pas fournir des données d’une qualité ou d’un volume suffisants pour qu’une startup ajuste son modèle au niveau enterprise Notre point de vue sur les agents B2C Différences avec le B2B En B2B, les agents vocaux remplacent principalement des appels existants afin d’accomplir une tâche précise Pour les agents grand public, l’utilisateur doit choisir de continuer à interagir, ce qui est plus difficile puisque parler à voix haute n’est pas toujours pratique Cela signifie que le niveau d’exigence produit est « plus élevé » Premiers domaines d’application Le premier domaine d’application, et le plus évident, des agents vocaux grand public consiste à remplacer par l’IA des services humains coûteux ou difficiles d’accès Cela inclut tout ce qui relève de conversations pouvant être menées à distance : thérapie, coaching, tutorat, etc. Les possibilités à venir Cependant, ils estiment que la vraie magie des agents vocaux B2C reste encore à venir ! Ils recherchent des produits qui utilisent la puissance de la voix pour rendre possibles de nouveaux types de « conversations » qui n’existaient pas auparavant Cela peut réinventer la forme de services existants ou créer des services totalement nouveaux L’imitation d’un lien humain Pour les produits qui réussissent bien leur UX, les agents vocaux offrent l’opportunité d’impliquer les consommateurs à un niveau jamais vu auparavant dans le logiciel Il s’agit d’imiter une connexion véritablement humaine Cela peut prendre la forme d’un agent comme produit à part entière, ou d’un mode vocal au sein d’un produit plus large L’évolution des agents B2C Jusqu’à présent, les agents vocaux IA grand public dominants viennent de grandes entreprises, comme ChatGPT Voice et l’application Pi d’Inflection. Plusieurs raisons expliquent pourquoi la voix grand public a émergé plus lentement : L’avantage des grandes entreprises Les grandes entreprises disposent déjà de réseaux de distribution grand public et de modèles de très haut niveau en matière de précision, de latence, etc. La voix n’est pas facile à fournir à grande échelle, surtout avec l’arrivée récente de GPT-4o La difficulté d’adopter un nouveau comportement Alors que les agents vocaux B2B « branchent » l’IA sur des processus existants, les agents vocaux B2C exigent que les utilisateurs adoptent un nouveau comportement Cela peut nécessiter un produit plus lent à décoller, ou bien plus magique Une perception négative de la voix IA existante Les consommateurs ont pu être marqués négativement par des expériences comme Siri, et ne pas être motivés à essayer de nouvelles applications vocales IA Les produits généralistes couvrent déjà les cas d’usage de base Les produits généralistes peuvent généralement couvrir les cas d’usage de base de la voix IA (tutorat, compagnon, etc.) Les startups B2C de la voix n’en sont qu’au début de la création de cas d’usage ou d’expériences que ChatGPT, Pi et d’autres ne prendront pas en charge Agents B2C : là où l’on voit des opportunités Une vision forte de la raison d’être de la voix Ils attendent avec intérêt des produits et des fondateurs ayant une conviction forte sur la valeur unique que la voix apporte au produit Pas simplement de la « voix pour la voix » Dans bien des cas, une interface vocale est au contraire moins bonne qu’une interface texte, car elle est plus peu pratique pour consommer et extraire de l’information Une vision forte de la raison d’être de la voix en temps réel La voix est difficile à consommer, et la voix en temps réel l’est encore plus (par rapport aux messages vocaux asynchrones) Ils attendent avec intérêt des fondateurs ayant une vision claire de pourquoi leur produit doit être construit autour de conversations en temps réel Cela peut être, par exemple, pour une relation de compagnon plus humaine, un environnement d’entraînement, etc. Une non-similarité avec les « produits » d’avant l’IA Ils soupçonnent que la forme forte du produit ne sera pas une simple transposition directe, en agent vocal IA, d’une conversation humaine préexistante entre deux personnes D’abord, parce qu’il est difficile d’atteindre ce niveau d’exigence Plus important encore, l’IA offre l’opportunité de fournir la même valeur mieux encore (plus efficacement, de façon plus agréable) Une verticalisation où la qualité du modèle ne décide pas seule du vainqueur Les grands produits généralistes d’IA grand public (ChatGPT, Pi, Claude) disposent de modes vocaux de haute qualité Ils peuvent participer de manière significative à de nombreux types de conversations et d’interactions Comme ils hébergent leurs propres modèles et leur propre stack, ils ont de bonnes chances de gagner à court terme sur la latence et le flux conversationnel Ils s’attendent à ce que les startups réussissent des façons suivantes : en s’adaptant ou en se réglant pour des types de conversations spécifiques, en construisant une UI qui apporte davantage de contexte et de valeur à l’expérience de l’agent vocal (par ex. suivi des progrès dans le temps, orientation de la conversation/de l’expérience de manière assumée)

(a16z.com)

12 points par xguru 2024-06-12 | 1 commentaires | Partager sur WhatsApp

Grâce à l’IA générative, les humains n’auront bientôt plus besoin de passer des appels téléphoniques
Les humains ne consacreront du temps aux appels téléphoniques que lorsqu’ils auront une réelle valeur

Avantages pour les entreprises

Réduction du temps et des coûts de main-d’œuvre liés aux appelants humains
Possibilité de réallouer les ressources pour accroître la génération de revenus
Réduction des risques grâce à une expérience client plus standardisée et cohérente

Avantages pour les consommateurs

Les agents vocaux peuvent fournir un service de niveau humain sans avoir à payer une vraie personne ni à être « mis en relation » avec elle
- Aujourd’hui, cela inclut notamment les thérapeutes, coachs et compagnons
- À l’avenir, cela couvrira probablement une palette d’expériences bien plus large, construites autour de la voix
Comme pour la plupart des autres logiciels grand public, les « gagnants » seront probablement imprévisibles

Les appels téléphoniques sont l’API de communication avec le monde, et l’IA élève cela à un niveau supérieur

Là où il semble y avoir des opportunités

Il existe d’énormes opportunités à chaque couche : acteurs de l’infrastructure, interfaces grand public, agents d’entreprise, etc.
Pour les agents vocaux B2C et B2B, voici quelques hypothèses sur les produits émergents les plus intéressants :

Principales caractéristiques des agents vocaux B2B et B2C

Built to scale (conçus pour passer à l’échelle)
- La latence et l’expérience conversationnelle ne sont pas encore entièrement résolues
- Ils recherchent des fondateurs qui ont une vision affirmée de la construction d’agents
- Ils cherchent à maximiser ce qui compte le plus pour un agent : vitesse, précision, ton/émotion, etc.
Vertically focused (focalisés verticalement)
- Il peut s’agir d’agents d’exécution reposant sur des modèles finement adaptés à un cas d’usage spécifique et sur des intégrations étroites
- Ils sont plus faciles à construire, lancer sur le marché et faire croître avec succès
Realistic in scope (réalistes dans leur périmètre)
- Déléguer entièrement des appels importants à l’IA est un défi majeur
- Ils s’attendent à ce que, à court terme, les entreprises d’agents vocaux réalisent des tâches qui ne sont pas encore « extensibles »
- Cela peut inclure un réglage spécifique par client ou le transfert de l’appel à un agent humain pour l’étape finale

La stack pour construire des agents vocaux

Pour fonctionner, un agent vocal a besoin de :
- capter la parole humaine (ASR)
- traiter cette entrée avec un LLM et renvoyer une sortie
- reparler à l’humain (TTS)
De nouveaux modèles multimodaux comme GPT-4o pourraient modifier la structure de la stack en « exécutant » plusieurs de ces couches en même temps au sein d’un seul modèle
- Cela peut réduire la latence et les coûts, tout en offrant une interface conversationnelle plus naturelle
- Beaucoup d’agents ne sont pas encore parvenus à une qualité véritablement humaine avec la stack assemblée ci-dessous
Dans certaines entreprises ou approches, le LLM ou une série de LLM gère le flux conversationnel et les émotions. Dans d’autres cas, il existe un moteur propriétaire qui ajoute l’émotion, gère les interruptions, etc.
- Les fournisseurs vocaux « full stack » proposent tout cela au même endroit.
Les applications grand public (B2C) et d’entreprise (B2B) se trouvent au-dessus de cette stack.
Même en utilisant des fournisseurs tiers, les applications y branchent généralement un LLM personnalisé, qui joue souvent aussi le rôle de moteur conversationnel.

Full stack vs. assemblage maison : comparaison des principaux facteurs

Les fondateurs d’agents vocaux peuvent choisir entre exécuter leur agent sur une plateforme full stack (par ex. Retell, Vapi, Bland) ou assembler eux-mêmes la stack.
Plusieurs facteurs clés entrent en jeu dans cette décision :
- Complexity (complexité)
  - Les acteurs full stack offrent un moyen plus simple de construire des agents vocaux, en abstrahant la complexité côté infrastructure
  - Cela laisse néanmoins de la place pour la personnalisation et le tuning, comme brancher des prompts ou des documents de connaissance (RAG) dans le LLM
- Flexibility (flexibilité)
  - Les fondateurs qui construisent pour un vertical précis et un cas d’usage spécifique voudront probablement un maximum de flexibilité sur le fonctionnement/exécution de chaque couche de la stack
  - Cela peut aussi aller de pair avec la recherche de la latence la plus faible possible
- Cost (coût)
  - Les fournisseurs full stack peuvent introduire un niveau de coût supplémentaire par appel, tout en pouvant aussi négocier de meilleurs tarifs grâce aux volumes
  - Pour des agents vocaux à grande échelle, quelques centimes par appel peuvent faire une vraie différence
- Control (contrôle)
  - En cas de problème, les fondateurs d’agents vocaux doivent être capables d’identifier et de résoudre le souci immédiatement, en particulier pour les cas d’usage sensibles
  - Ils peuvent aussi avoir besoin d’une visibilité maximale sur le fonctionnement de chaque couche
  - C’est plus facile à obtenir avec une stack assemblée en interne
Principaux acteurs de la stack
- Full Stack : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion : hume
- Text to Speech : ElevenLabs, Azure
- Speech to Text : Deepgram, Whisper, AssemblyAI, Azure
- Streaming : LiveKit, daily

Notre point de vue sur les agents B2B

L’évolution de la voix IA

Nous passons de la voix IA 1.0 (arbres téléphoniques) à l’ère de la voix IA 2.0 (basée sur les LLM)
Les entreprises 2.0 ont commencé à émerger au cours des six derniers mois environ
Les entreprises 1.0 sont peut-être plus précises aujourd’hui, mais à long terme, l’approche 2.0 sera bien plus scalable et précise

La nécessité de modèles spécialisés par vertical

Il n’existera pas un seul modèle ou une seule plateforme horizontale valable pour tous les types d’agents vocaux d’entreprise
Il existe plusieurs différences majeures d’un vertical à l’autre :
1. type d’appels, ton et structure
2. intégrations et processus
3. GTM et « killer feature »
Cela pourrait se traduire par une explosion d’agents verticaux très fortement orientés dans leur UI
Pour cela, il faut des équipes fondatrices ayant une expertise ou un intérêt fort pour le domaine concerné

Les opportunités les plus proches

Le TAM est important pour les entreprises très intensives en main-d’œuvre
Les opportunités à court terme pourraient se situer dans les secteurs qui :
- dépendent fortement de la prise de rendez-vous par téléphone
- subissent de graves pénuries de main-d’œuvre
- ont une faible complexité d’appel
À mesure que les agents deviendront plus sophistiqués, ils pourront traiter des appels plus complexes

L’évolution des agents B2B

Processus d’évolution
- IVR (Interactive Voice Response) : modèle traditionnel à touches, dans lequel l’agent propose une série d’options au consommateur (1 pour les ventes, 2 pour le support client, etc.) et l’oriente en conséquence
- AI 1.0 (Phone Trees) : version plus flexible et intuitive de l’IVR, où le consommateur parle en langage naturel et l’agent essaie de le guider à travers une série de flux conversationnels
- AI 2.0 (LLMs) : conversation libre, dans laquelle l’IA n’essaie pas de faire correspondre ce que dit l’humain à des options prédéfinies
De nombreuses entreprises d’agents vocaux adoptent une approche verticale, ciblant un secteur spécifique (par ex. l’entretien automobile) ou un type de tâche précis (par ex. la prise de rendez-vous). Cela s’explique par plusieurs raisons :
- Difficulté d’exécution
  - Le niveau de qualité requis pour confier des appels à l’IA est élevé, et les flux conversationnels (ainsi que les workflows backend côté client) peuvent rapidement devenir complexes ou très spécifiques
  - Les entreprises qui construisent pour les « cas d’exception » de ces verticaux ont plus de chances de réussir (par ex. un vocabulaire spécifique qu’un modèle généraliste pourrait mal interpréter)
- Réglementation et licences
  - Certaines entreprises d’agents vocaux font face à des restrictions particulières, à des certifications requises, etc.
  - L’exemple le plus évident est la santé (par ex. conformité HIPAA), mais cela apparaît aussi dans des catégories comme la vente, où des réglementations nationales existent sur le démarchage téléphonique par IA
- Intégrations
  - Dans certaines catégories, offrir une bonne expérience utilisateur (à la fois pour l’entreprise et le consommateur) peut nécessiter des intégrations de long tail ou spécialisées. Cela ne vaut pas la peine d’être construit sauf si l’on vise un cas d’usage spécifique
- Point d’entrée vers d’autres logiciels
  - La voix peut s’insérer naturellement dans des actions client clés comme les réservations, renouvellements, devis, etc.
  - Dans certains cas, cela peut devenir un point d’entrée vers une plateforme SaaS verticale plus large pour ces entreprises, en particulier lorsque leur clientèle opère encore hors ligne

Agents B2B : là où l’on voit des opportunités

Basés sur des LLM — mais pas nécessairement 100 % automatisés dès le premier jour

La « forme forte » des agents vocaux IA sera une conversation entièrement pilotée par un LLM, et non une approche IVR ou arborescence téléphonique
Cependant, comme les LLM ne sont pas fiables à 100 % sur l’ensemble du processus, les cas plus sensibles ou à plus forte valeur auront probablement besoin, au moins temporairement, d’un « humain dans la boucle »
Cela rend aussi les workflows spécifiques par vertical particulièrement importants, afin de maximiser le taux de réussite tout en minimisant les edge cases et l’intervention humaine

Tuning de modèles personnalisés vs. prompting d’une approche LLM

Les agents vocaux B2B doivent gérer des conversations spécialisées (ou spécifiques à un vertical), pour lesquelles un LLM généraliste risque d’être insuffisant
De nombreuses entreprises ajustent déjà des modèles par client (avec quelques centaines ou quelques milliers de points de données), avec la possibilité d’en inférer ensuite un modèle de base à l’échelle de l’entreprise
Le tuning personnalisé pour les clients enterprise pourrait se poursuivre
- Remarque : certaines entreprises peuvent ajuster un modèle « général » (utilisé pour l’ensemble des clients) à un cas d’usage spécifique, puis le spécialiser par prompting selon chaque client

Des équipes techniques avec une expertise métier

Vu la complexité, une expérience préalable en IA sera utile pour construire et faire passer à l’échelle des agents vocaux B2B de haute qualité
Mais comprendre comment packager le produit et trouver un wedge dans un vertical donné exigera probablement, tout autant, une expertise métier ou un intérêt très fort pour le domaine
Il n’est pas nécessaire d’avoir un doctorat en IA pour construire et lancer un agent vocal d’entreprise !

Une vision claire des intégrations + de l’écosystème

Comme indiqué plus haut, les acheteurs de chaque vertical ont généralement quelques fonctionnalités ou intégrations spécifiques qu’ils veulent voir avant d’acheter
En pratique, cela peut être ce qui fait passer l’évaluation d’un produit de « utile » à « magique »
C’est une autre raison pour laquelle il est logique de démarrer de manière assez verticalisée

Un positionnement « enterprise-grade » ou une forte motion de product-led growth (PLG)

Pour les verticaux où une part importante du chiffre d’affaires est concentrée chez les plus grands acteurs/fournisseurs, une entreprise d’agents vocaux peut commencer par les grands comptes puis se diffuser « vers le bas » jusqu’aux PME via un produit en self-service
Les clients PME veulent souvent cette solution de manière urgente et sont prêts à tester différentes options, mais peuvent ne pas fournir des données d’une qualité ou d’un volume suffisants pour qu’une startup ajuste son modèle au niveau enterprise

Notre point de vue sur les agents B2C

Différences avec le B2B

En B2B, les agents vocaux remplacent principalement des appels existants afin d’accomplir une tâche précise
Pour les agents grand public, l’utilisateur doit choisir de continuer à interagir, ce qui est plus difficile puisque parler à voix haute n’est pas toujours pratique
Cela signifie que le niveau d’exigence produit est « plus élevé »

Premiers domaines d’application

Le premier domaine d’application, et le plus évident, des agents vocaux grand public consiste à remplacer par l’IA des services humains coûteux ou difficiles d’accès
Cela inclut tout ce qui relève de conversations pouvant être menées à distance : thérapie, coaching, tutorat, etc.

Les possibilités à venir

Cependant, ils estiment que la vraie magie des agents vocaux B2C reste encore à venir !
Ils recherchent des produits qui utilisent la puissance de la voix pour rendre possibles de nouveaux types de « conversations » qui n’existaient pas auparavant
Cela peut réinventer la forme de services existants ou créer des services totalement nouveaux

L’imitation d’un lien humain

Pour les produits qui réussissent bien leur UX, les agents vocaux offrent l’opportunité d’impliquer les consommateurs à un niveau jamais vu auparavant dans le logiciel
Il s’agit d’imiter une connexion véritablement humaine
Cela peut prendre la forme d’un agent comme produit à part entière, ou d’un mode vocal au sein d’un produit plus large

L’évolution des agents B2C

Jusqu’à présent, les agents vocaux IA grand public dominants viennent de grandes entreprises, comme ChatGPT Voice et l’application Pi d’Inflection.
Plusieurs raisons expliquent pourquoi la voix grand public a émergé plus lentement :

L’avantage des grandes entreprises

Les grandes entreprises disposent déjà de réseaux de distribution grand public et de modèles de très haut niveau en matière de précision, de latence, etc.
La voix n’est pas facile à fournir à grande échelle, surtout avec l’arrivée récente de GPT-4o

La difficulté d’adopter un nouveau comportement

Alors que les agents vocaux B2B « branchent » l’IA sur des processus existants, les agents vocaux B2C exigent que les utilisateurs adoptent un nouveau comportement
Cela peut nécessiter un produit plus lent à décoller, ou bien plus magique

Une perception négative de la voix IA existante

Les consommateurs ont pu être marqués négativement par des expériences comme Siri, et ne pas être motivés à essayer de nouvelles applications vocales IA

Les produits généralistes couvrent déjà les cas d’usage de base

Les produits généralistes peuvent généralement couvrir les cas d’usage de base de la voix IA (tutorat, compagnon, etc.)
Les startups B2C de la voix n’en sont qu’au début de la création de cas d’usage ou d’expériences que ChatGPT, Pi et d’autres ne prendront pas en charge

Agents B2C : là où l’on voit des opportunités

Une vision forte de la raison d’être de la voix

Ils attendent avec intérêt des produits et des fondateurs ayant une conviction forte sur la valeur unique que la voix apporte au produit
Pas simplement de la « voix pour la voix »
Dans bien des cas, une interface vocale est au contraire moins bonne qu’une interface texte, car elle est plus peu pratique pour consommer et extraire de l’information

Une vision forte de la raison d’être de la voix en temps réel

La voix est difficile à consommer, et la voix en temps réel l’est encore plus (par rapport aux messages vocaux asynchrones)
Ils attendent avec intérêt des fondateurs ayant une vision claire de pourquoi leur produit doit être construit autour de conversations en temps réel
Cela peut être, par exemple, pour une relation de compagnon plus humaine, un environnement d’entraînement, etc.

Une non-similarité avec les « produits » d’avant l’IA

Ils soupçonnent que la forme forte du produit ne sera pas une simple transposition directe, en agent vocal IA, d’une conversation humaine préexistante entre deux personnes
D’abord, parce qu’il est difficile d’atteindre ce niveau d’exigence
Plus important encore, l’IA offre l’opportunité de fournir la même valeur mieux encore (plus efficacement, de façon plus agréable)

Une verticalisation où la qualité du modèle ne décide pas seule du vainqueur

Les grands produits généralistes d’IA grand public (ChatGPT, Pi, Claude) disposent de modes vocaux de haute qualité
Ils peuvent participer de manière significative à de nombreux types de conversations et d’interactions
Comme ils hébergent leurs propres modèles et leur propre stack, ils ont de bonnes chances de gagner à court terme sur la latence et le flux conversationnel

Ils s’attendent à ce que les startups réussissent des façons suivantes :

en s’adaptant ou en se réglant pour des types de conversations spécifiques,
en construisant une UI qui apporte davantage de contexte et de valeur à l’expérience de l’agent vocal
- (par ex. suivi des progrès dans le temps, orientation de la conversation/de l’expérience de manière assumée)

1 commentaires

bus710 2024-06-13

J’ai eu l’occasion d’observer de près l’équipe d’intégration d’une grande entreprise, et j’ai pu voir en temps réel qu’un projet très similaire à ce qui est décrit dans l’article était en cours.

Au départ, l’objectif était d’automatiser le service client via AWS Connect, puis ils se sont mis à gérer la répartition du trafic et même à participer à la conception de services spéciaux pour les clients VVIP… C’est aussi intéressant de voir le périmètre grandir progressivement.

Du coup, pour être honnête, l’orientation du service semble être de faire en sorte que les bots de réponse automatique prennent en charge au maximum les clients peu rentables, tandis que les agents humains contactent le plus vite possible ceux qui ont des dépôts importants. C’est sans doute inévitable haha