1 points par GN⁺ 2024-06-28 | 1 commentaires | Partager sur WhatsApp

Démo du bot vocal le plus rapide au monde

Présentation de la démo

  • Importance de la vitesse : dans les interfaces vocales basées sur l’IA, la vitesse est essentielle. Les utilisateurs s’attendent à des réponses rapides dans une conversation normale.
  • Objectif : cette démo montre une interaction LLM à faible latence visant un temps de réponse vocal inférieur à 500 ms.
  • Technologie : ce bot a été construit avec Pipecat, un framework open source.

Essayer la démo

  • Tester la démo : vous pouvez essayer la démo vous-même.
  • Voir le code source : vous pouvez consulter le code source.
  • Déployer vous-même : une option est proposée pour le déployer dans votre propre environnement.

L’avis de GN⁺

  • Importance de la vitesse : des réponses rapides dans une interface vocale améliorent fortement l’expérience utilisateur.
  • Avantage de l’open source : des frameworks open source comme Pipecat sont utiles, car les développeurs peuvent facilement y accéder et les modifier.
  • Points à considérer pour l’adoption technologique : lors de l’adoption d’une nouvelle technologie, il faut prendre en compte la compatibilité avec les systèmes existants, les coûts de maintenance, etc.
  • Projets similaires : il existe aussi d’autres solutions d’IA vocale comme Dialogflow de Google ou Lex d’Amazon.

1 commentaires

 
GN⁺ 2024-06-28
Avis Hacker News
  • Vitesse : le temps de réponse a été ramené à quelques secondes pour une IA de service client. La vitesse l’emporte sur tout le reste.
  • Inférence vocale : implémentation de Websocket Faster Whisper avant la sortie de gpt4o d’OpenAI. Utilisation du push-to-talk à cause de problèmes de fiabilité du VAD.
  • VAD cross-platform : présentation d’un module VAD navigateur cross-platform portant le réseau VAD de Silero vers ONNX. Fonctionne aussi sur Firefox.
  • TTS dans le navigateur : les moteurs de synthèse vocale dans le navigateur deviennent de plus en plus rapides et leur qualité s’améliore. GPT-4o fusionne en un seul modèle la reconnaissance vocale automatique, la compréhension et la génération de réponse pour réduire la latence.
  • Potentiel de l’app : cela ressemble à une app teaser de Cerebrium. Lors des tests sur iPad, la latence variait de 1400 ms à 400 ms.
  • Expérience conversationnelle : des réponses rapides améliorent l’expérience conversationnelle. Le maintien d’un contexte court permet d’obtenir des temps de réponse brefs.
  • Whisper-dictation : utilisation de Whisper-dictation avec llama-70b. Le temps de finir de parler correspond au temps de chargement du site web.
  • Conversation naturelle : l’ajustement du VAD et des interruptions paraît très naturel. C’est l’expérience conversationnelle la plus naturelle.
  • Partage : encouragement à ce que d’autres partagent leurs solutions. Prévoit d’examiner différentes méthodes d’implémentation ce week-end.
  • Marketing et maths : remarque qu’en marketing on dit 500, mais que mathématiquement c’est 759.
  • Interface rapide : l’interface est très rapide et presque impossible à distinguer d’un humain. Éloges adressés à Cerebrium.ai.