13 points par xguru 2024-11-28 | 1 commentaires | Partager sur WhatsApp
  • La Voice AI n’est pas une simple amélioration de l’UI : elle transforme en profondeur la manière dont les entreprises se connectent à leurs clients
    • Comme dans le service client des compagnies aériennes : longues attentes, choix de menus répétitifs, mauvaise compréhension de la situation du client. Des problèmes non résolus qui génèrent stress inutile et perte de temps
    • Avec la Voice AI, contrairement aux systèmes IVR rigides existants (réponse vocale interactive automatisée), il devient possible d’offrir une expérience qui converse comme un humain et personnalise l’expérience client, disponible 24h/24
      • Compréhension immédiate de la situation du client et proposition de la meilleure alternative
      • Exemple : rebooking automatique d’un vol annulé, recommandation d’alternatives fondées sur les préférences du client
      • Dans certaines situations, les clients peuvent préférer un agent IA à un humain
    • La Voice AI permet de répondre à une forte demande et à des attentes élevées des clients tout en améliorant l’efficacité opérationnelle
  • La Voice AI est la convergence de modèles IA nativement vocaux et de technologies multimodales

L’immense marché de la communication vocale

  • Les humains préfèrent parler :
    • Des milliards d’appels ont lieu chaque jour
    • Malgré la généralisation des textos, des e-mails et des réseaux sociaux, le téléphone reste un canal de communication majeur pour de nombreuses entreprises
    • Il est indispensable dans de nombreux secteurs, comme la santé, les services juridiques, les services à domicile, l’assurance ou la logistique, pour transmettre des informations complexes, fournir un service personnalisé et gérer des situations urgentes
  • Les problèmes de la communication téléphonique traditionnelle
    • Faible taux de réponse :
      • 62 % des PME ratent des appels, ce qui les empêche de répondre aux besoins des clients et leur fait perdre des opportunités commerciales
      • Problèmes courants :
        • Bascule vers la messagerie vocale en dehors des heures d’ouverture
        • Une seule conversation traitée à la fois
        • Qualité de support inégale
    • Contraintes techniques :
      • Systèmes IVR (introduits dans les années 1970) :
        • Ne traitent que des commandes prédéfinies, avec un manque de flexibilité : « Appuyez sur 1 pour réserver », « Dites en quelques mots ce pour quoi vous avez besoin d’aide »
        • Ne comprennent ni l’intention du client ni le degré d’urgence
      • Dégradation de l’expérience client :
        • Temps d’attente longs
        • Navigation inefficace dans les menus
        • Échec de résolution des problèmes
  • Malgré une forte demande :
    • Les technologies existantes ont des limites pour résoudre efficacement et agréablement les problèmes des clients
    • Des technologies d’automatisation vocale plus avancées sont nécessaires

[Pourquoi c’est le bon moment pour développer les technologies Voice]

L’évolution des technologies vocales

  1. Les premiers systèmes IVR :
  • La technologie IVR (Interactive Voice Response) introduite dans les années 1970 :
    • Ne pouvait traiter que des commandes préconfigurées
    • Ne comprenait ni l’intention de l’utilisateur ni l’urgence
  • Malgré son impopularité, elle représente encore un marché de 5 milliards de dollars
  1. L’arrivée des technologies ASR/STT :
  • Les modèles ASR (reconnaissance automatique de la parole) et STT (speech-to-text) :
    • Convertissent la voix en texte en temps réel
    • Apparition de startups comme Gong, Rev et DeepL
    • Lancement du modèle Whisper d’OpenAI (2022) et de Reverb de Rev (2024) :
      • Ils soutiennent des systèmes conversationnels naturels capables de gérer accents, bruit de fond et émotions
  1. Innovations récentes : progrès de l’IA vocale :
  • Développement de modèles Text-To-Speech (TTS) capables de générer une voix riche en émotions :
  • Capacités multimodales :
    • Google Gemini 1.5 : intégration de la voix, du texte et des entrées visuelles
    • Voice Engine d’OpenAI : génération vocale imitant une conversation humaine
  • Lancement de GPT-4o :
    • Intégration native en temps réel de l’audio, de la vision et du texte
    • Gestion de conversations complexes et réponses intelligentes

Deux avancées majeures rendues possibles par les innovations récentes

  • Diffusion de modèles de haute qualité et développement d’applications :
    • Limites de l’architecture « cascading » existante :
      • Dans le pipeline STT → LLM → TTS, cela entraîne de la latence et une perte d’informations non textuelles
      • Une latence de réponse élevée dégrade l’expérience utilisateur
    • Nouveaux modèles :
      • GPT-4 Turbo : réduction de la latence
      • Possibilité de choisir le modèle selon le cas d’usage
  • Essor des modèles Speech-to-Speech (STS) :
    • Traitement direct de la voix sans conversion en texte :
      • Latence ultra-faible : environ 300 ms de temps de réponse pour une conversation naturelle
      • Compréhension du contexte : conservation des informations des échanges précédents, identification de l’intention et des émotions
      • Amélioration de la détection émotionnelle et du ton : réponses reflétant l’état émotionnel
      • Détection en temps réel de l’activité vocale : conversation fluide sans interruptions artificielles

Modèles natifs voix : l’avenir de la conversation vocale

  • Dépassement des limites de l’architecture en cascade :
    • Modèles STS dédiés à la voix :
      • Kyutai Moshi : modèle open source
      • Alibaba SenseVoice & CosyVoice : modèles spécialisés dans la voix
      • Hume Empathetic Voice Interface : traitement de réponses émotionnelles
  • Realtime API d’OpenAI :
    • Prise en charge d’interactions Speech-to-Speech fondées sur GPT-4o

Principaux défis de l’adoption par l’industrie

Les trois principaux freins à l’adoption des agents vocaux

  • Qualité (Quality) :
    • De nombreux agents IA vocaux ne sont pas encore assez stables pour être fiables dans plusieurs cas d’usage.
    • Les entreprises les déploient généralement d’abord dans des environnements à faible risque :
      • Exemple : une petite entreprise de réparation de toitures utilise un agent pour gérer les appels en dehors des heures d’ouverture
      • Lorsqu’on passe à des cas d’usage à plus forte valeur, les critères de qualité deviennent plus stricts
      • Exemple : si un seul appel client peut déboucher sur un projet à 30 000 dollars, la tolérance à l’échec est très faible
  • Confiance (Trust) :
    • Les clients ont déjà vécu de nombreuses expériences négatives avec les technologies IVR existantes :
      • Réponses lentes, structure de menus inefficace, manque de naturel dans la conversation
    • Les entreprises doivent avoir la certitude que l’IA peut traiter les demandes des clients avec précision et rapidité
  • Fiabilité (Reliability) :
    • Principaux motifs de plainte :
      • Coupures d’appel : interruption de la conversation, source de frustration pour le client
      • Hallucinations : l’IA fournit des réponses inexactes ou hors sujet
      • Latence de réponse : un traitement trop long peut faire décrocher les clients

Axes de progrès pour résoudre ces problèmes

  • Optimisation de la latence et de la fiabilité :
    • Multiplication des plateformes développeur offrant une infrastructure plus fiable, axée sur la réduction de la latence et la prévention des interruptions de conversation
  • Résilience (Fail Gracefully) :
    • En cas d’échec d’appel, capacité à restaurer naturellement le flux de conversation afin de minimiser l’interruption de l’expérience client
  • Orchestration conversationnelle :
    • Concevoir les agents IA pour qu’ils suivent des flux prévisibles : réduction des hallucinations et mise en place de garde-fous sur les informations et le périmètre de la conversation

Cartographie du marché de la Voice AI

  • Le marché de la Voice AI innove à de multiples niveaux, depuis les modèles fondamentaux jusqu’à l’infrastructure vocale, les plateformes développeur et les applications
  • Trois domaines clés se distinguent tout particulièrement par les opportunités qu’ils offrent

1. Modèles (Models)

  • Rôle : construire les technologies qui soutiennent les cas d’usage vocaux, avec des spécialisations dans des technologies comme SST (Speech-to-Speech), LLS (Large Language Models) ou TTS (Text-to-Speech)
  • Orientation future :
    • Les modèles multimodaux et natifs voix vont dominer
    • Les technologies capables de traiter directement l’audio sans passer par des conversions texte-audio seront cruciales
  • Modèles de nouvelle génération :
    • Des entreprises comme Cartesia ouvrent la voie à de nouvelles architectures fondées sur les State Space Models (SSMs)
    • Les conversations simples pourraient être confiées à de petits modèles, et les tâches complexes à des modèles plus puissants, avec à la clé une réduction de la latence et des coûts

2. Plateformes développeur (Developer Platforms)

  • La création d’agents IA vocaux et la gestion d’infrastructures vocales en temps réel restent un défi technique majeur pour les développeurs. De nouvelles plateformes s’attaquent à cette complexité et offrent divers types de support
  • Optimisation de la latence et de la fiabilité :
    • Gérer à grande échelle des agents vocaux temps réel très performants.
  • Gestion des signaux conversationnels et du contexte non verbal :
    • Détection de l’« endpointing » pour savoir si l’utilisateur a terminé de parler.
    • Filtrage du bruit de fond et amélioration de la détection des émotions et de l’état affectif.
  • Gestion efficace des erreurs :
    • Détection des appels API échoués et relance immédiate.
    • Insertion de réponses de secours pour éviter les ruptures de conversation.
  • Intégration avec des systèmes tiers et prise en charge du RAG :
    • Nécessité d’intégrations à faible latence avec des bases de connaissances et des systèmes tiers.
  • Contrôle du flux conversationnel :
    • Conception de flux prévisibles pour traiter des conversations sensibles ou réglementées.
  • Observabilité, analytics et tests :
    • Réponse au manque d’outils permettant de suivre à grande échelle la qualité et les performances des conversations.
  • Exemple de plateforme : Vapi, qui aide à réduire la complexité de l’infrastructure vocale et à créer rapidement des agents vocaux de haute qualité

3. Applications (Applications)

  • Des produits d’automatisation exploitant la voix sont en cours de développement dans de nombreux domaines.
  • Caractéristiques des applications les plus prometteuses :
    • Elles prennent entièrement en charge les tâches du client et fournissent des résultats à forte valeur.
    • Elles sont capables de monter en charge pour traiter simultanément des milliers d’appels lors de pics de demande.
    • Elles offrent des solutions sur mesure spécialisées pour des secteurs précis.
  • Principales opportunités par fonction
    • Transcription : prise de notes de conversation, recommandations pour les actions de suivi
    • Inbound Calling : gestion de réservations, conversion de prospects, gestion du succès client
    • Outbound Calling : présélection de candidats, confirmation de rendez-vous
    • Training : formation à la vente ou aux entretiens.
    • Negotiation : négociation d’achats, litiges d’assurance, ajustement de contrats
  • Exemples d’investissement
    • Abridge : documentation des conversations médicales
    • Rilla : coaching commercial sur le terrain
    • Rev : transcription collaborative IA + humain dans de multiples secteurs

Cas d’usage concrets

  • Solution spécialisée par secteur Sameday AI : agent commercial IA pour les services à domicile. Automatisation de bout en bout : prise des appels clients → devis selon le problème → planification → paiement final.
  • Appels sortants Wayfaster : automatisation du processus de recrutement. Présélection téléphonique automatisée des candidats pour se concentrer sur les meilleurs profils.
  • Santé négociation avec les assurances : utilisation de LLM pour analyser des milliers de documents d’assurance et de dossiers patients, et soutenir la négociation en temps réel.

Principes d’investissement dans les technologies de Voice AI

  • L’écosystème de la Voice AI offre les plus grandes opportunités entrepreneuriales au niveau des plateformes développeur et de la couche applicative
  • Le rythme rapide d’amélioration des modèles permet aux entrepreneurs de développer et tester rapidement des MVP (produits minimum viables) efficaces avec un investissement initial limité
  • 1. Solutions profondément intégrées aux workflows sectoriels et à la multimodalité
    • Les applications de Voice AI les plus impactantes sont profondément intégrées aux workflows propres à un secteur
    • Elles sont adaptées au langage et aux modes de conversation spécifiques à chaque industrie
    • Exemple :
      • Un agent vocal pour concessionnaires automobiles intégré au CRM exploite les données d’interactions passées avec les clients afin d’améliorer la qualité de service et d’accélérer le déploiement
      • La combinaison de la voix, du texte, de l’image et d’autres modalités permet de résoudre des processus humains multi-étapes plus complexes
  • 2. Fournir des produits de haute qualité grâce à une ingénierie robuste
    • Créer une démo de hackathon est relativement simple, mais un vrai produit exige une grande fiabilité, de la scalabilité et la capacité à gérer des cas d’usage réels
    • Exigences des entreprises : performance constante, faible latence garantie, intégration fluide avec les systèmes existants
    • Éléments de conception prioritaires : traitement d’entrées vocales imprévisibles, sécurité renforcée, maintien d’un haut niveau d’uptime
  • 3. Équilibrer croissance, rétention et KPI de qualité produit
    • Les agents vocaux ont un fort potentiel de croissance dans des fonctions orientées revenus comme les ventes.
    • Quand les clients remplacent un humain par un agent dans un workflow critique, une baisse de qualité peut entraîner un fort taux de churn.

KPI et indicateurs qualité importants

  • Churn (taux d’attrition client) :
    • À un stade précoce, de nombreuses applications vocales peinent à cause d’un taux d’attrition élevé.
    • Cela se produit lorsque les clients quittent le service pour un concurrent jugé plus fiable.
  • Self-Serve Resolution (taux de résolution en self-service) :
    • Mesure dans quelle mesure l’agent vocal résout efficacement le problème de l’utilisateur sans intervention humaine.
  • Customer Satisfaction Score (score de satisfaction client) :
    • Mesure la satisfaction globale des clients ayant interagi avec l’agent vocal, et fournit des insights sur la qualité.
  • Call Termination Rates (taux d’interruption d’appel) :
    • Un taux élevé signale des problèmes d’expérience utilisateur et des sujets non résolus.
  • Cohort Call Volume Expansion (expansion du volume d’appels par cohorte) :
    • Mesure si les clients augmentent leur usage de l’agent vocal au fil du temps, indicateur de valeur produit et d’engagement utilisateur.

L’avenir de la Voice AI

  • Les avancées technologiques de ces dernières années ouvrent la voie à des produits innovants capables de résoudre des problèmes complexes
  • À l’avenir, les systèmes conversationnels multimodaux et temps réel devraient résoudre davantage de problèmes dans de nombreux secteurs

1 commentaires

 
xguru 2024-11-28

Comme j’ai travaillé autrefois dans le domaine de l’IVR, ce sujet m’intéresse beaucoup, haha.

Jetez aussi un œil à l’article Tout ce qu’a résumé a16z sur les agents vocaux IA.