Notre thèse - "Pourquoi la voix ?"
- La voix constitue un puissant levier d’adoption de l’IA
- Pour les entreprises, l’IA permet de remplacer une partie de la main-d’œuvre et d’assurer une relation client 24h/24
- Côté grand public aussi, la voix est appelée à devenir une interface majeure de l’IA
- Nous sommes aujourd’hui à un moment où l’infrastructure vocale pour l’IA s’est en partie stabilisée, et où la voix commence à être utilisée sérieusement dans diverses applications
- À mesure que les performances des modèles s’améliorent, certains estiment que la voix ne sera plus le produit lui-même, mais un « wedge » d’entrée sur le marché
Les nouveautés annoncées jusqu’ici
- Mai 2024 : OpenAI lance GPT-4o voice et présente des interactions vocales en temps réel, Cartesia annonce Sonic
- Juin 2024 : Character introduit les appels vocaux en bêta, Apple annonce l’intégration de ChatGPT dans Siri
- Juillet 2024 : OpenAI déploie Advanced Voice, Speechmatics dévoile le modèle Flow
- Août 2024 : Amazon intègre Claude à Alexa, Meta propose un compagnon IA utilisant des voix de célébrités
- Septembre 2024 : NotebookLM fait parler de lui avec Audio Overview, PlayHT présente son modèle 2.0
- Octobre 2024 : OpenAI lance l’API temps réel, Kyutai présente le modèle Moshi
- Novembre 2024 : ElevenLabs lance Conversational AI, NVIDIA présente le modèle Fugatto, Gemini Live publie son app en temps réel
- Décembre 2024 : le mode ChatGPT Advanced Voice intègre la recherche sur Internet, le lancement de 1-800-CHATGPT fait beaucoup parler
Qu’est-ce qui a changé ?
- L’infrastructure des modèles s’est simplifiée, et des agents vocaux à faible latence et hautes performances ont émergé
- Les nouveaux modèles conversationnels apparus ces six derniers mois ont été un moteur majeur de cette amélioration
- Les coûts baissent également : en décembre 2024, OpenAI a fortement réduit les prix de l’API temps réel de GPT-4o
- GPT-4o mini est lui aussi disponible en version temps réel
Situation actuelle
-
Qualité des modèles
- La qualité de conversation (latence, capacité à interrompre, expression des émotions, etc.) est en grande partie résolue
- Grâce aux progrès du modèle vocal temps réel d’OpenAI et d’autres modèles, certains cas affichent déjà de meilleures performances que les centres d’appels/BPO
-
GTM(go-to-market)
- Les produits d’agents peuvent se diffuser rapidement en remplaçant directement du personnel
- Mais les barrières à l’entrée sont faibles, tandis que les grandes entreprises conservatrices restent difficiles à convaincre
- L’exécution GTM et une seconde phase produit (act 2) sont les facteurs clés du succès
-
Monétisation
- Au départ centrée sur une tarification à la minute, elle subit désormais une forte pression avec la baisse rapide du coût des modèles
- À l’avenir, on s’attend à voir apparaître des modèles hybrides combinant frais de plateforme et facturation à l’usage
-
Dynamique concurrentielle
- Les agents vocaux pour entreprises sont en concurrence avec des plateformes orientées développeurs, des plateformes généralistes en no-code et des solutions spécialisées par secteur
- La concurrence devrait encore s’intensifier
Évolution du marché
- Le marché des agents vocaux a connu une croissance rapide au second semestre 2024
- De nombreux produits suivent une tendance d’ajout de fonctionnalités vocales
- Les levées de fonds et l’acquisition de clients réels sont actives à plusieurs couches de la stack vocale conversationnelle
- En particulier, les grands groupes ont tendance à ne pas remplacer d’emblée tous les appels humains par de l’IA, mais à commencer par certains types d’appels avant d’élargir progressivement
- Appels de nuit ou en surcharge : des appels qui partaient habituellement vers la messagerie vocale peuvent être traités par l’IA, avec collecte d’informations et traitement de transactions à un certain niveau
- Nouveaux appels sortants : des appels auparavant jugés non rentables deviennent possibles, avec à la clé des revenus supplémentaires ou des économies
- Appels de « back-office » : l’automatisation de tâches nécessitant d’appeler d’autres entreprises ou organismes peut améliorer l’efficacité
Évolution du marché - exemples de levées de fonds
-
Entreprises de modèles
- ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI et d’autres ont enchaîné les annonces de levées importantes, du seed jusqu’à la série B
-
Plateformes généralistes
- Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland et d’autres ont levé en séries A à C
- Des acteurs focalisés sur certains secteurs (sales, support client, etc.) comme 11x, Decagon, Sierra ou Artisan attirent aussi l’attention
- Des plateformes développeurs comme Vapi et Retell AI ont également émergé
-
Plateformes verticales
- Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad et bien d’autres ont levé des fonds dans des domaines spécialisés comme la santé, les RH ou la gestion des urgences
- Wayfaster et HappyRobot ont aussi réussi des levées dans la logistique, les entretiens et d’autres usages
Verticaux de marché importants
- Les secteurs les plus susceptibles d’adopter les agents vocaux en premier sont ceux où les dépenses en centres d’appels/BPO sont les plus élevées
- Les grands secteurs comme la finance, l’assurance, le B2C, le B2B, l’administration et la santé sont chacun susceptibles de développer leurs propres solutions vocales
- Les fondateurs devraient être particulièrement actifs dans les domaines suivants
- Financial services (ex. : recouvrement de créances)
- Insurance (relation client et back-office)
- Government
- Support services (gestion de demandes clients complexes, comme le support IT nécessitant une expertise)
- Au-delà du cadre des centres d’appels, on observe aussi une volonté de payer pour des agents vocaux IA de coaching/formation visant des métiers à hauts salaires
- Des agents vocaux réalistes peuvent jouer un rôle de « simulateur » et améliorer fortement les compétences professionnelles
- Ils peuvent ainsi remplacer des coûts humains, par exemple des coachs commerciaux, ou des logiciels existants peu efficaces
Verticaux à surveiller - tendances des entreprises YC
- Le nombre d’entreprises d’agents vocaux présentes chez YC augmente rapidement
- Le B2B (~69 %) et la santé (~18 %) dominent, avec dans le B2B de nombreuses startups liées à la fintech et au support client
- La santé se divise entre front-office (côté patients) et back-office (pharmacies, assureurs, etc.)
- Globalement, les startups tentent de résoudre des problèmes très variés dans de nombreux secteurs à l’aide d’agents vocaux
Ce que nous recherchons
- Des secteurs où le téléphone est un canal central, ou bien où il est optimal pour des raisons réglementaires ou d’efficacité
- Quand le téléphone constitue le principal moyen de démo client (ex. : logistique)
- Quand l’appel est plus efficace du point de vue réglementaire (ex. : recouvrement de dettes)
- Ou dans les domaines où son taux de réussite dépasse les autres approches (ex. : santé)
- Il faut que la structure des appels soit claire et mesurable
- Les points de données à collecter ou les informations à transmettre doivent être bien définis
- Les résultats doivent être faciles à mesurer, afin que les entreprises puissent envisager l’adoption d’agents vocaux IA sans forte réticence
- Il faut obtenir plus de 50 % de réduction des coûts de personnel tout en atteignant des performances comparables à celles d’un humain
- L’adoption est plus simple lorsque les postes remplacés sont clairement identifiables ou que le redéploiement des équipes est possible
- Comme il peut exister un scepticisme interne vis-à-vis de l’IA, le ROI doit être très élevé
- Des appels qui représentent un enjeu vital pour le client, mais dans un environnement où l’émetteur ou le destinataire peut tolérer l’échec
- Cela commence souvent par des appels de nuit, de débordement (overflow) ou des appels « subprime »
- L’IA entre plus facilement là où le niveau d’exigence de performance est plus bas
- Les gains d’efficacité sont importants lorsque les appels génèrent directement du chiffre d’affaires (ex. : nouvelles réservations, paiements) ou concernent des postes de coûts élevés (ex. : drive-thru)
- Pour pénétrer les SMB/mid-market, il faut permettre une intégration VoIP simple ou une configuration en self-service
- Dans l’enterprise, plus l’intégration initiale est complexe, plus elle crée une barrière à l’entrée, tout en devenant un avantage concurrentiel si elle est bien exécutée
- Ou bien il faut pouvoir démarrer facilement avec une faible complexité d’intégration, puis étendre progressivement
- D’une manière générale, le marché s’intéresse fortement aux solutions capables de combiner taux de réussite élevé et forte réduction des coûts
Étude de cas - entretiens vocaux IA
- Au départ, l’usage de la voix IA pour des entretiens d’embauche complexes et sensibles peut sembler surprenant
- Mais le secteur du staffing y a trouvé une grande efficacité pour traiter des entretiens volumineux et répétitifs
- Il devient possible de mener des entretiens plus rapidement et de manière plus cohérente, sans dégrader l’expérience candidat
- L’IA peut mener un entretien immédiatement si nécessaire, ou évaluer un candidat sans barrière de langue ou d’accent
- Pour les postes techniques en particulier, certains retours indiquent que l’IA peut évaluer plus précisément qu’un responsable RH généraliste
- Les entreprises constatent des avantages comme une hausse du taux de réussite en entretien et une accélération du matching des candidats
1 commentaires
Tout ce qu’a compilé a16z sur les agents vocaux IA