11 points par xguru 2024-01-31 | 3 commentaires | Partager sur WhatsApp
  • Offre une conversation fluide avec l’IA en s’appuyant sur les fonctionnalités de WhisperLive et WhisperSpeech, en liaison avec le LLM Mistral
    • WhisperLive : implémentation de Whisper d’OpenAI pour fonctionner presque en temps réel afin de convertir la voix en texte
    • WhisperSpeech : système TTS construit en inversant Whisper
  • Le LLM et Whisper sont tous deux optimisés pour s’exécuter efficacement avec des moteurs TensorRT afin de maximiser les performances et les capacités de traitement en temps réel, et WhisperSpeech est optimisé avec torch.compile

3 commentaires

 
kleinstein 2024-02-02

Ce serait bien si la traduction en temps réel était rapide.

 
xguru 2024-01-31

Avis sur Hacker News

  • Deux fonctionnalités sont nécessaires pour qu’un scénario conversationnel fonctionne bien :
    • Fonction d’interruption : le LLM doit pouvoir se mettre en pause quand l’utilisateur dit « attends une seconde ».
    • Réagir à des signaux spécifiques : il doit attendre certains signaux de l’utilisateur, comme « qu’en penses-tu ? », avant de répondre.
    • En plus de ces deux fonctionnalités, une faible latence est importante, afin que l’échange donne l’impression de parler à une autre personne.
  • L’auteur dit s’intéresser à des projets comme WhisperFusion, WhisperLive et WhisperSpeech, et se demande quelle est la latence de chaque système ainsi que les chiffres de WER (Word Error Rate) pour WhisperLive. Il mentionne qu’il semble manquer des informations importantes sur ces modèles.
  • Le projet est excellent, mais le problème relèverait surtout du packaging :
    • Il critique le fait que beaucoup d’applications Python réimplémentent la moitié de setuptools de façon lente et boguée.
    • Il s’interroge sur le fait que TensorRT distribue des fonctionnalités essentielles dans un répertoire « example ».
    • À propos de huggingface_cli, il note qu’il existe déjà des moyens de télécharger quelque chose à partir de son nom (index PyPI, etc.) et qu’il vaudrait peut-être mieux appliquer cela aux modèles.
  • Il se souvient d’une discussion sur le projet Vocode : il y avait eu des échanges à ce sujet il y a 10 mois, il avait essayé la démo et l’avait trouvée impressionnante. Il se demande si quelqu’un l’utilise aujourd’hui en développement ou en production.
  • Un utilisateur imagine porter cette technologie dans une application dédiée qui pourrait reconnaître le contenu affiché à l’écran et le texte, puis fournir une assistance presque en temps réel.
  • Il se demande comment bien utiliser Whisper pour de la transcription en streaming et présente un projet avec des objectifs similaires.
  • Il demande un résumé expliquant en quoi la partie LLM diffère d’une configuration TGWUI+llama.cpp, ou lui ressemble. Il s’interroge notamment sur la manière dont une « ultra-faible latence » peut être obtenue sur le matériel de l’utilisateur.
  • Un utilisateur demande si le projet fonctionne entièrement en local ou s’il nécessite un accès API aux systèmes distants d’OpenAI. Il explique qu’il construit actuellement un système de TTS et de STT avec OpenAI, mais qu’il ne veut pas envoyer en continu un flux audio à OpenAI juste pour attendre une commande unique.
  • Il estime que c’est ce que Siri et Alexa auraient dû être, et prévoit que ce type de technologie va se multiplier dans les prochaines années. Si cela fonctionne en local et ne laisse pas d’historique permanent, cela résoudrait aussi le problème de l’écoute en arrière-plan.
  • Il mentionne l’utilisation de TensorRT et se demande quels GPU sont pris en charge, ainsi que si cela peut fonctionner sur Jetson.