- Grâce à l’IA générative, les humains n’auront bientôt plus besoin de passer des appels téléphoniques
- Les humains ne consacreront du temps aux appels téléphoniques que lorsqu’ils auront une réelle valeur
Avantages pour les entreprises
- Réduction du temps et des coûts de main-d’œuvre liés aux appelants humains
- Possibilité de réallouer les ressources pour accroître la génération de revenus
- Réduction des risques grâce à une expérience client plus standardisée et cohérente
Avantages pour les consommateurs
- Les agents vocaux peuvent fournir un service de niveau humain sans avoir à payer une vraie personne ni à être « mis en relation » avec elle
- Aujourd’hui, cela inclut notamment les thérapeutes, coachs et compagnons
- À l’avenir, cela couvrira probablement une palette d’expériences bien plus large, construites autour de la voix
- Comme pour la plupart des autres logiciels grand public, les « gagnants » seront probablement imprévisibles
Les appels téléphoniques sont l’API de communication avec le monde, et l’IA élève cela à un niveau supérieur
Là où il semble y avoir des opportunités
- Il existe d’énormes opportunités à chaque couche : acteurs de l’infrastructure, interfaces grand public, agents d’entreprise, etc.
- Pour les agents vocaux B2C et B2B, voici quelques hypothèses sur les produits émergents les plus intéressants :
Principales caractéristiques des agents vocaux B2B et B2C
- Built to scale (conçus pour passer à l’échelle)
- La latence et l’expérience conversationnelle ne sont pas encore entièrement résolues
- Ils recherchent des fondateurs qui ont une vision affirmée de la construction d’agents
- Ils cherchent à maximiser ce qui compte le plus pour un agent : vitesse, précision, ton/émotion, etc.
- Vertically focused (focalisés verticalement)
- Il peut s’agir d’agents d’exécution reposant sur des modèles finement adaptés à un cas d’usage spécifique et sur des intégrations étroites
- Ils sont plus faciles à construire, lancer sur le marché et faire croître avec succès
- Realistic in scope (réalistes dans leur périmètre)
- Déléguer entièrement des appels importants à l’IA est un défi majeur
- Ils s’attendent à ce que, à court terme, les entreprises d’agents vocaux réalisent des tâches qui ne sont pas encore « extensibles »
- Cela peut inclure un réglage spécifique par client ou le transfert de l’appel à un agent humain pour l’étape finale
La stack pour construire des agents vocaux
- Pour fonctionner, un agent vocal a besoin de :
- capter la parole humaine (ASR)
- traiter cette entrée avec un LLM et renvoyer une sortie
- reparler à l’humain (TTS)
- De nouveaux modèles multimodaux comme GPT-4o pourraient modifier la structure de la stack en « exécutant » plusieurs de ces couches en même temps au sein d’un seul modèle
- Cela peut réduire la latence et les coûts, tout en offrant une interface conversationnelle plus naturelle
- Beaucoup d’agents ne sont pas encore parvenus à une qualité véritablement humaine avec la stack assemblée ci-dessous
- Dans certaines entreprises ou approches, le LLM ou une série de LLM gère le flux conversationnel et les émotions. Dans d’autres cas, il existe un moteur propriétaire qui ajoute l’émotion, gère les interruptions, etc.
- Les fournisseurs vocaux « full stack » proposent tout cela au même endroit.
- Les applications grand public (B2C) et d’entreprise (B2B) se trouvent au-dessus de cette stack.
- Même en utilisant des fournisseurs tiers, les applications y branchent généralement un LLM personnalisé, qui joue souvent aussi le rôle de moteur conversationnel.
Full stack vs. assemblage maison : comparaison des principaux facteurs
- Les fondateurs d’agents vocaux peuvent choisir entre exécuter leur agent sur une plateforme full stack (par ex. Retell, Vapi, Bland) ou assembler eux-mêmes la stack.
- Plusieurs facteurs clés entrent en jeu dans cette décision :
- Complexity (complexité)
- Les acteurs full stack offrent un moyen plus simple de construire des agents vocaux, en abstrahant la complexité côté infrastructure
- Cela laisse néanmoins de la place pour la personnalisation et le tuning, comme brancher des prompts ou des documents de connaissance (RAG) dans le LLM
- Flexibility (flexibilité)
- Les fondateurs qui construisent pour un vertical précis et un cas d’usage spécifique voudront probablement un maximum de flexibilité sur le fonctionnement/exécution de chaque couche de la stack
- Cela peut aussi aller de pair avec la recherche de la latence la plus faible possible
- Cost (coût)
- Les fournisseurs full stack peuvent introduire un niveau de coût supplémentaire par appel, tout en pouvant aussi négocier de meilleurs tarifs grâce aux volumes
- Pour des agents vocaux à grande échelle, quelques centimes par appel peuvent faire une vraie différence
- Control (contrôle)
- En cas de problème, les fondateurs d’agents vocaux doivent être capables d’identifier et de résoudre le souci immédiatement, en particulier pour les cas d’usage sensibles
- Ils peuvent aussi avoir besoin d’une visibilité maximale sur le fonctionnement de chaque couche
- C’est plus facile à obtenir avec une stack assemblée en interne
- Complexity (complexité)
- Principaux acteurs de la stack
- Full Stack : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion : hume
- Text to Speech : ElevenLabs, Azure
- Speech to Text : Deepgram, Whisper, AssemblyAI, Azure
- Streaming : LiveKit, daily
Notre point de vue sur les agents B2B
L’évolution de la voix IA
- Nous passons de la voix IA 1.0 (arbres téléphoniques) à l’ère de la voix IA 2.0 (basée sur les LLM)
- Les entreprises 2.0 ont commencé à émerger au cours des six derniers mois environ
- Les entreprises 1.0 sont peut-être plus précises aujourd’hui, mais à long terme, l’approche 2.0 sera bien plus scalable et précise
La nécessité de modèles spécialisés par vertical
- Il n’existera pas un seul modèle ou une seule plateforme horizontale valable pour tous les types d’agents vocaux d’entreprise
- Il existe plusieurs différences majeures d’un vertical à l’autre :
- type d’appels, ton et structure
- intégrations et processus
- GTM et « killer feature »
- Cela pourrait se traduire par une explosion d’agents verticaux très fortement orientés dans leur UI
- Pour cela, il faut des équipes fondatrices ayant une expertise ou un intérêt fort pour le domaine concerné
Les opportunités les plus proches
- Le TAM est important pour les entreprises très intensives en main-d’œuvre
- Les opportunités à court terme pourraient se situer dans les secteurs qui :
- dépendent fortement de la prise de rendez-vous par téléphone
- subissent de graves pénuries de main-d’œuvre
- ont une faible complexité d’appel
- À mesure que les agents deviendront plus sophistiqués, ils pourront traiter des appels plus complexes
L’évolution des agents B2B
- Processus d’évolution
- IVR (Interactive Voice Response) : modèle traditionnel à touches, dans lequel l’agent propose une série d’options au consommateur (1 pour les ventes, 2 pour le support client, etc.) et l’oriente en conséquence
- AI 1.0 (Phone Trees) : version plus flexible et intuitive de l’IVR, où le consommateur parle en langage naturel et l’agent essaie de le guider à travers une série de flux conversationnels
- AI 2.0 (LLMs) : conversation libre, dans laquelle l’IA n’essaie pas de faire correspondre ce que dit l’humain à des options prédéfinies
- De nombreuses entreprises d’agents vocaux adoptent une approche verticale, ciblant un secteur spécifique (par ex. l’entretien automobile) ou un type de tâche précis (par ex. la prise de rendez-vous). Cela s’explique par plusieurs raisons :
- Difficulté d’exécution
- Le niveau de qualité requis pour confier des appels à l’IA est élevé, et les flux conversationnels (ainsi que les workflows backend côté client) peuvent rapidement devenir complexes ou très spécifiques
- Les entreprises qui construisent pour les « cas d’exception » de ces verticaux ont plus de chances de réussir (par ex. un vocabulaire spécifique qu’un modèle généraliste pourrait mal interpréter)
- Réglementation et licences
- Certaines entreprises d’agents vocaux font face à des restrictions particulières, à des certifications requises, etc.
- L’exemple le plus évident est la santé (par ex. conformité HIPAA), mais cela apparaît aussi dans des catégories comme la vente, où des réglementations nationales existent sur le démarchage téléphonique par IA
- Intégrations
- Dans certaines catégories, offrir une bonne expérience utilisateur (à la fois pour l’entreprise et le consommateur) peut nécessiter des intégrations de long tail ou spécialisées. Cela ne vaut pas la peine d’être construit sauf si l’on vise un cas d’usage spécifique
- Point d’entrée vers d’autres logiciels
- La voix peut s’insérer naturellement dans des actions client clés comme les réservations, renouvellements, devis, etc.
- Dans certains cas, cela peut devenir un point d’entrée vers une plateforme SaaS verticale plus large pour ces entreprises, en particulier lorsque leur clientèle opère encore hors ligne
- Difficulté d’exécution
Agents B2B : là où l’on voit des opportunités
Basés sur des LLM — mais pas nécessairement 100 % automatisés dès le premier jour
- La « forme forte » des agents vocaux IA sera une conversation entièrement pilotée par un LLM, et non une approche IVR ou arborescence téléphonique
- Cependant, comme les LLM ne sont pas fiables à 100 % sur l’ensemble du processus, les cas plus sensibles ou à plus forte valeur auront probablement besoin, au moins temporairement, d’un « humain dans la boucle »
- Cela rend aussi les workflows spécifiques par vertical particulièrement importants, afin de maximiser le taux de réussite tout en minimisant les edge cases et l’intervention humaine
Tuning de modèles personnalisés vs. prompting d’une approche LLM
- Les agents vocaux B2B doivent gérer des conversations spécialisées (ou spécifiques à un vertical), pour lesquelles un LLM généraliste risque d’être insuffisant
- De nombreuses entreprises ajustent déjà des modèles par client (avec quelques centaines ou quelques milliers de points de données), avec la possibilité d’en inférer ensuite un modèle de base à l’échelle de l’entreprise
- Le tuning personnalisé pour les clients enterprise pourrait se poursuivre
- Remarque : certaines entreprises peuvent ajuster un modèle « général » (utilisé pour l’ensemble des clients) à un cas d’usage spécifique, puis le spécialiser par prompting selon chaque client
Des équipes techniques avec une expertise métier
- Vu la complexité, une expérience préalable en IA sera utile pour construire et faire passer à l’échelle des agents vocaux B2B de haute qualité
- Mais comprendre comment packager le produit et trouver un wedge dans un vertical donné exigera probablement, tout autant, une expertise métier ou un intérêt très fort pour le domaine
- Il n’est pas nécessaire d’avoir un doctorat en IA pour construire et lancer un agent vocal d’entreprise !
Une vision claire des intégrations + de l’écosystème
- Comme indiqué plus haut, les acheteurs de chaque vertical ont généralement quelques fonctionnalités ou intégrations spécifiques qu’ils veulent voir avant d’acheter
- En pratique, cela peut être ce qui fait passer l’évaluation d’un produit de « utile » à « magique »
- C’est une autre raison pour laquelle il est logique de démarrer de manière assez verticalisée
Un positionnement « enterprise-grade » ou une forte motion de product-led growth (PLG)
- Pour les verticaux où une part importante du chiffre d’affaires est concentrée chez les plus grands acteurs/fournisseurs, une entreprise d’agents vocaux peut commencer par les grands comptes puis se diffuser « vers le bas » jusqu’aux PME via un produit en self-service
- Les clients PME veulent souvent cette solution de manière urgente et sont prêts à tester différentes options, mais peuvent ne pas fournir des données d’une qualité ou d’un volume suffisants pour qu’une startup ajuste son modèle au niveau enterprise
Notre point de vue sur les agents B2C
Différences avec le B2B
- En B2B, les agents vocaux remplacent principalement des appels existants afin d’accomplir une tâche précise
- Pour les agents grand public, l’utilisateur doit choisir de continuer à interagir, ce qui est plus difficile puisque parler à voix haute n’est pas toujours pratique
- Cela signifie que le niveau d’exigence produit est « plus élevé »
Premiers domaines d’application
- Le premier domaine d’application, et le plus évident, des agents vocaux grand public consiste à remplacer par l’IA des services humains coûteux ou difficiles d’accès
- Cela inclut tout ce qui relève de conversations pouvant être menées à distance : thérapie, coaching, tutorat, etc.
Les possibilités à venir
- Cependant, ils estiment que la vraie magie des agents vocaux B2C reste encore à venir !
- Ils recherchent des produits qui utilisent la puissance de la voix pour rendre possibles de nouveaux types de « conversations » qui n’existaient pas auparavant
- Cela peut réinventer la forme de services existants ou créer des services totalement nouveaux
L’imitation d’un lien humain
- Pour les produits qui réussissent bien leur UX, les agents vocaux offrent l’opportunité d’impliquer les consommateurs à un niveau jamais vu auparavant dans le logiciel
- Il s’agit d’imiter une connexion véritablement humaine
- Cela peut prendre la forme d’un agent comme produit à part entière, ou d’un mode vocal au sein d’un produit plus large
L’évolution des agents B2C
- Jusqu’à présent, les agents vocaux IA grand public dominants viennent de grandes entreprises, comme ChatGPT Voice et l’application Pi d’Inflection.
- Plusieurs raisons expliquent pourquoi la voix grand public a émergé plus lentement :
L’avantage des grandes entreprises
- Les grandes entreprises disposent déjà de réseaux de distribution grand public et de modèles de très haut niveau en matière de précision, de latence, etc.
- La voix n’est pas facile à fournir à grande échelle, surtout avec l’arrivée récente de GPT-4o
La difficulté d’adopter un nouveau comportement
- Alors que les agents vocaux B2B « branchent » l’IA sur des processus existants, les agents vocaux B2C exigent que les utilisateurs adoptent un nouveau comportement
- Cela peut nécessiter un produit plus lent à décoller, ou bien plus magique
Une perception négative de la voix IA existante
- Les consommateurs ont pu être marqués négativement par des expériences comme Siri, et ne pas être motivés à essayer de nouvelles applications vocales IA
Les produits généralistes couvrent déjà les cas d’usage de base
- Les produits généralistes peuvent généralement couvrir les cas d’usage de base de la voix IA (tutorat, compagnon, etc.)
- Les startups B2C de la voix n’en sont qu’au début de la création de cas d’usage ou d’expériences que ChatGPT, Pi et d’autres ne prendront pas en charge
Agents B2C : là où l’on voit des opportunités
Une vision forte de la raison d’être de la voix
- Ils attendent avec intérêt des produits et des fondateurs ayant une conviction forte sur la valeur unique que la voix apporte au produit
- Pas simplement de la « voix pour la voix »
- Dans bien des cas, une interface vocale est au contraire moins bonne qu’une interface texte, car elle est plus peu pratique pour consommer et extraire de l’information
Une vision forte de la raison d’être de la voix en temps réel
- La voix est difficile à consommer, et la voix en temps réel l’est encore plus (par rapport aux messages vocaux asynchrones)
- Ils attendent avec intérêt des fondateurs ayant une vision claire de pourquoi leur produit doit être construit autour de conversations en temps réel
- Cela peut être, par exemple, pour une relation de compagnon plus humaine, un environnement d’entraînement, etc.
Une non-similarité avec les « produits » d’avant l’IA
- Ils soupçonnent que la forme forte du produit ne sera pas une simple transposition directe, en agent vocal IA, d’une conversation humaine préexistante entre deux personnes
- D’abord, parce qu’il est difficile d’atteindre ce niveau d’exigence
- Plus important encore, l’IA offre l’opportunité de fournir la même valeur mieux encore (plus efficacement, de façon plus agréable)
Une verticalisation où la qualité du modèle ne décide pas seule du vainqueur
- Les grands produits généralistes d’IA grand public (ChatGPT, Pi, Claude) disposent de modes vocaux de haute qualité
- Ils peuvent participer de manière significative à de nombreux types de conversations et d’interactions
- Comme ils hébergent leurs propres modèles et leur propre stack, ils ont de bonnes chances de gagner à court terme sur la latence et le flux conversationnel
Ils s’attendent à ce que les startups réussissent des façons suivantes :
- en s’adaptant ou en se réglant pour des types de conversations spécifiques,
- en construisant une UI qui apporte davantage de contexte et de valeur à l’expérience de l’agent vocal
- (par ex. suivi des progrès dans le temps, orientation de la conversation/de l’expérience de manière assumée)
1 commentaires
J’ai eu l’occasion d’observer de près l’équipe d’intégration d’une grande entreprise, et j’ai pu voir en temps réel qu’un projet très similaire à ce qui est décrit dans l’article était en cours.
Au départ, l’objectif était d’automatiser le service client via AWS Connect, puis ils se sont mis à gérer la répartition du trafic et même à participer à la conception de services spéciaux pour les clients VVIP… C’est aussi intéressant de voir le périmètre grandir progressivement.
Du coup, pour être honnête, l’orientation du service semble être de faire en sorte que les bots de réponse automatique prennent en charge au maximum les clients peu rentables, tandis que les agents humains contactent le plus vite possible ceux qui ont des dépôts importants. C’est sans doute inévitable haha