15 points par xguru 2025-02-06 | 1 commentaires | Partager sur WhatsApp

Notre thèse - "Pourquoi la voix ?"

  • La voix constitue un puissant levier d’adoption de l’IA
  • Pour les entreprises, l’IA permet de remplacer une partie de la main-d’œuvre et d’assurer une relation client 24h/24
  • Côté grand public aussi, la voix est appelée à devenir une interface majeure de l’IA
  • Nous sommes aujourd’hui à un moment où l’infrastructure vocale pour l’IA s’est en partie stabilisée, et où la voix commence à être utilisée sérieusement dans diverses applications
  • À mesure que les performances des modèles s’améliorent, certains estiment que la voix ne sera plus le produit lui-même, mais un « wedge » d’entrée sur le marché

Les nouveautés annoncées jusqu’ici

  • Mai 2024 : OpenAI lance GPT-4o voice et présente des interactions vocales en temps réel, Cartesia annonce Sonic
  • Juin 2024 : Character introduit les appels vocaux en bêta, Apple annonce l’intégration de ChatGPT dans Siri
  • Juillet 2024 : OpenAI déploie Advanced Voice, Speechmatics dévoile le modèle Flow
  • Août 2024 : Amazon intègre Claude à Alexa, Meta propose un compagnon IA utilisant des voix de célébrités
  • Septembre 2024 : NotebookLM fait parler de lui avec Audio Overview, PlayHT présente son modèle 2.0
  • Octobre 2024 : OpenAI lance l’API temps réel, Kyutai présente le modèle Moshi
  • Novembre 2024 : ElevenLabs lance Conversational AI, NVIDIA présente le modèle Fugatto, Gemini Live publie son app en temps réel
  • Décembre 2024 : le mode ChatGPT Advanced Voice intègre la recherche sur Internet, le lancement de 1-800-CHATGPT fait beaucoup parler

Qu’est-ce qui a changé ?

  • L’infrastructure des modèles s’est simplifiée, et des agents vocaux à faible latence et hautes performances ont émergé
  • Les nouveaux modèles conversationnels apparus ces six derniers mois ont été un moteur majeur de cette amélioration
  • Les coûts baissent également : en décembre 2024, OpenAI a fortement réduit les prix de l’API temps réel de GPT-4o
  • GPT-4o mini est lui aussi disponible en version temps réel

Situation actuelle

  • Qualité des modèles

    • La qualité de conversation (latence, capacité à interrompre, expression des émotions, etc.) est en grande partie résolue
    • Grâce aux progrès du modèle vocal temps réel d’OpenAI et d’autres modèles, certains cas affichent déjà de meilleures performances que les centres d’appels/BPO
  • GTM(go-to-market)

    • Les produits d’agents peuvent se diffuser rapidement en remplaçant directement du personnel
    • Mais les barrières à l’entrée sont faibles, tandis que les grandes entreprises conservatrices restent difficiles à convaincre
    • L’exécution GTM et une seconde phase produit (act 2) sont les facteurs clés du succès
  • Monétisation

    • Au départ centrée sur une tarification à la minute, elle subit désormais une forte pression avec la baisse rapide du coût des modèles
    • À l’avenir, on s’attend à voir apparaître des modèles hybrides combinant frais de plateforme et facturation à l’usage
  • Dynamique concurrentielle

    • Les agents vocaux pour entreprises sont en concurrence avec des plateformes orientées développeurs, des plateformes généralistes en no-code et des solutions spécialisées par secteur
    • La concurrence devrait encore s’intensifier

Évolution du marché

  • Le marché des agents vocaux a connu une croissance rapide au second semestre 2024
  • De nombreux produits suivent une tendance d’ajout de fonctionnalités vocales
  • Les levées de fonds et l’acquisition de clients réels sont actives à plusieurs couches de la stack vocale conversationnelle
  • En particulier, les grands groupes ont tendance à ne pas remplacer d’emblée tous les appels humains par de l’IA, mais à commencer par certains types d’appels avant d’élargir progressivement
    • Appels de nuit ou en surcharge : des appels qui partaient habituellement vers la messagerie vocale peuvent être traités par l’IA, avec collecte d’informations et traitement de transactions à un certain niveau
    • Nouveaux appels sortants : des appels auparavant jugés non rentables deviennent possibles, avec à la clé des revenus supplémentaires ou des économies
      • Appels de « back-office » : l’automatisation de tâches nécessitant d’appeler d’autres entreprises ou organismes peut améliorer l’efficacité

Évolution du marché - exemples de levées de fonds

  • Entreprises de modèles

    • ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI et d’autres ont enchaîné les annonces de levées importantes, du seed jusqu’à la série B
  • Plateformes généralistes

    • Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland et d’autres ont levé en séries A à C
    • Des acteurs focalisés sur certains secteurs (sales, support client, etc.) comme 11x, Decagon, Sierra ou Artisan attirent aussi l’attention
    • Des plateformes développeurs comme Vapi et Retell AI ont également émergé
  • Plateformes verticales

    • Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad et bien d’autres ont levé des fonds dans des domaines spécialisés comme la santé, les RH ou la gestion des urgences
    • Wayfaster et HappyRobot ont aussi réussi des levées dans la logistique, les entretiens et d’autres usages

Verticaux de marché importants

  • Les secteurs les plus susceptibles d’adopter les agents vocaux en premier sont ceux où les dépenses en centres d’appels/BPO sont les plus élevées
  • Les grands secteurs comme la finance, l’assurance, le B2C, le B2B, l’administration et la santé sont chacun susceptibles de développer leurs propres solutions vocales
  • Les fondateurs devraient être particulièrement actifs dans les domaines suivants
    • Financial services (ex. : recouvrement de créances)
    • Insurance (relation client et back-office)
    • Government
    • Support services (gestion de demandes clients complexes, comme le support IT nécessitant une expertise)
  • Au-delà du cadre des centres d’appels, on observe aussi une volonté de payer pour des agents vocaux IA de coaching/formation visant des métiers à hauts salaires
    • Des agents vocaux réalistes peuvent jouer un rôle de « simulateur » et améliorer fortement les compétences professionnelles
    • Ils peuvent ainsi remplacer des coûts humains, par exemple des coachs commerciaux, ou des logiciels existants peu efficaces

Verticaux à surveiller - tendances des entreprises YC

  • Le nombre d’entreprises d’agents vocaux présentes chez YC augmente rapidement
  • Le B2B (~69 %) et la santé (~18 %) dominent, avec dans le B2B de nombreuses startups liées à la fintech et au support client
  • La santé se divise entre front-office (côté patients) et back-office (pharmacies, assureurs, etc.)
  • Globalement, les startups tentent de résoudre des problèmes très variés dans de nombreux secteurs à l’aide d’agents vocaux

Ce que nous recherchons

  • Des secteurs où le téléphone est un canal central, ou bien où il est optimal pour des raisons réglementaires ou d’efficacité
    • Quand le téléphone constitue le principal moyen de démo client (ex. : logistique)
    • Quand l’appel est plus efficace du point de vue réglementaire (ex. : recouvrement de dettes)
    • Ou dans les domaines où son taux de réussite dépasse les autres approches (ex. : santé)
  • Il faut que la structure des appels soit claire et mesurable
    • Les points de données à collecter ou les informations à transmettre doivent être bien définis
    • Les résultats doivent être faciles à mesurer, afin que les entreprises puissent envisager l’adoption d’agents vocaux IA sans forte réticence
  • Il faut obtenir plus de 50 % de réduction des coûts de personnel tout en atteignant des performances comparables à celles d’un humain
    • L’adoption est plus simple lorsque les postes remplacés sont clairement identifiables ou que le redéploiement des équipes est possible
    • Comme il peut exister un scepticisme interne vis-à-vis de l’IA, le ROI doit être très élevé
  • Des appels qui représentent un enjeu vital pour le client, mais dans un environnement où l’émetteur ou le destinataire peut tolérer l’échec
    • Cela commence souvent par des appels de nuit, de débordement (overflow) ou des appels « subprime »
    • L’IA entre plus facilement là où le niveau d’exigence de performance est plus bas
  • Les gains d’efficacité sont importants lorsque les appels génèrent directement du chiffre d’affaires (ex. : nouvelles réservations, paiements) ou concernent des postes de coûts élevés (ex. : drive-thru)
  • Pour pénétrer les SMB/mid-market, il faut permettre une intégration VoIP simple ou une configuration en self-service
  • Dans l’enterprise, plus l’intégration initiale est complexe, plus elle crée une barrière à l’entrée, tout en devenant un avantage concurrentiel si elle est bien exécutée
    • Ou bien il faut pouvoir démarrer facilement avec une faible complexité d’intégration, puis étendre progressivement
  • D’une manière générale, le marché s’intéresse fortement aux solutions capables de combiner taux de réussite élevé et forte réduction des coûts

Étude de cas - entretiens vocaux IA

  • Au départ, l’usage de la voix IA pour des entretiens d’embauche complexes et sensibles peut sembler surprenant
  • Mais le secteur du staffing y a trouvé une grande efficacité pour traiter des entretiens volumineux et répétitifs
  • Il devient possible de mener des entretiens plus rapidement et de manière plus cohérente, sans dégrader l’expérience candidat
  • L’IA peut mener un entretien immédiatement si nécessaire, ou évaluer un candidat sans barrière de langue ou d’accent
  • Pour les postes techniques en particulier, certains retours indiquent que l’IA peut évaluer plus précisément qu’un responsable RH généraliste
  • Les entreprises constatent des avantages comme une hausse du taux de réussite en entretien et une accélération du matching des candidats