2 points par GN⁺ 2023-11-03 | 1 commentaires | Partager sur WhatsApp
  • Article de présentation de l’outil d’IA « Talk-Llama », qui permet aux utilisateurs de dialoguer avec une IA depuis le terminal
  • Outil utilisant les modèles Whisper Medium et LLaMA v2 13B Q8_0, avec une mise à jour des performances la plus récente datée du 2 novembre 2023
  • Talk-Llama dépend de la bibliothèque SDL2 pour capturer l’audio depuis le microphone
  • Instructions d’installation de SDL2 fournies, ainsi que la méthode pour compiler et exécuter le binaire talk-llama sous Linux et Mac OS
  • Les utilisateurs peuvent préciser les modèles Whisper et LLaMA à utiliser via les arguments -mw et -ml
  • Outil prenant en charge la gestion de session, afin de conserver le contexte des interactions précédentes et de permettre des conversations continues plus cohérentes
  • Les utilisateurs peuvent activer la prise en charge des sessions avec l’option de ligne de commande --session FILE, ce qui permet d’enregistrer l’état du modèle après chaque interaction et de reprendre une session précédente
  • Pour une expérience optimale, il est recommandé d’utiliser un outil de Text-to-Speech (TTS) pour convertir en voix les réponses textuelles générées
  • Les utilisateurs peuvent employer leur moteur TTS préféré et modifier le script speak selon leurs besoins
  • Outil ouvert aux retours, qui encourage les utilisateurs à participer à la discussion en cours

1 commentaires

 
GN⁺ 2023-11-03
Avis Hacker News
  • Les performances sur Apple Silicon se sont nettement améliorées, avec whisper.cpp qui tourne entièrement et une vitesse de génération de llama.cpp fortement accrue.
  • Llama montre une intégration réussie avec un modèle TTS open source pour le projet, ce qui met en avant sa polyvalence.
  • Les outils compagnons de codage qui réduisent la surcharge manuelle sans essayer de résoudre des problèmes complexes sont considérés comme les plus utiles.
  • L’idée d’un outil qui intègre la parole dans un vecteur de contexte a été proposée comme un concept futuriste et potentiellement utile.
  • Des signalements d’un problème de « exception en virgule flottante » lors de l’exécution de talk-llama sur arch et debian indiquent d’éventuels problèmes de compatibilité.
  • Une proposition a été faite pour réduire la latence en diffusant vers le TTS des groupes d’environ 6 tokens à la fois, avant même que la réponse du LLM ne soit complètement commencée.
  • Des inquiétudes ont été exprimées quant à la possibilité que cette technologie soit interdite si la proposition en open weights se concrétise.
  • La possibilité d’une solution texte-vers-parole capable de recevoir un flux de texte a été discutée, ce qui éviterait d’attendre que llama ait fini de produire avant d’énoncer la réponse.
  • Une question a été posée sur l’interface de chat optimale pour llama, avec l’envie d’exécuter l’un des modèles dans le terminal pour des tâches de codage rapides.
  • Il a été souligné que la voix Elevenlabs est coûteuse et qu’une seule conversation peut atteindre 20 $.
  • La question a été posée de savoir quel est l’équivalent d’ollama pour whisper / les modèles TTS OS SOTA, avec le souhait d’une configuration simple pour exécuter whisper en local.
  • Une explication en anglais simple des capacités de cette technologie a été demandée, en particulier pour savoir si elle peut apprendre et conserver le contexte d’un chat et construire une mémoire à long terme.