2 points par GN⁺ 2024-09-20 | 1 commentaires | Partager sur WhatsApp
  • Modèle d’interaction vocale de bout en bout, haute qualité et à faible latence
  • Construit sur la base de Llama-3.1-8B-Instruct, avec pour objectif d’atteindre des capacités vocales de niveau GPT-4o
  • Faible latence de 226 ms
  • Génère simultanément des réponses textuelles et vocales

Le récapitulatif de GN⁺

  • LLaMA-Omni est un modèle parole-langage basé sur Llama-3.1-8B-Instruct, conçu pour offrir des interactions vocales à faible latence et de haute qualité
  • Il peut générer simultanément des réponses textuelles et vocales, ce qui le rend utile dans de nombreux cas d’usage
  • Son entraînement est efficace, achevé en moins de 3 jours avec 4 GPU
  • Il est facile d’interagir avec lui via une démo Gradio, et l’inférence en local est également possible
  • Parmi les projets aux fonctionnalités similaires figurent Whisper d’OpenAI et l’API Speech-to-Text de Google

1 commentaires

 
GN⁺ 2024-09-20
Avis sur Hacker News
  • Question sur la possibilité de reproduire des sons qui ne peuvent pas être exprimés en texte
  • Doutes sur les avantages ou le potentiel de ce modèle par rapport à un modèle purement textuel
    • Avec l’évolution du modèle, espoir qu’il puisse correctement interpréter ou générer l’intonation, le rythme et les émotions perdus avec le TTS
  • Question sur le fait de savoir si ce n’est pas simplement du "STT -> LLM -> TTS"
    • Si on lui donne un son de Chewbacca en entrée, doute sur le fait que le modèle le reconnaisse comme un bruit dénué de sens ou qu’il l’interprète comme des mots aléatoires via un STT approximatif
  • Question sur la prise en charge par des opérateurs de modèles comme Ollama, LM Studio et llama.cpp
  • La voix TTS des clips de démonstration ressemble beaucoup à celle de la comédienne de doublage de Valve Ellen McLain
  • La vitesse est très bonne
    • Réglage récent de LMStudio + AnythingLLM pour essayer le chat vocal en local, mais cela reste encore plus lent que souhaité
    • La voix de PiperTTS est meilleure
  • Le réglage fin de la voix semble être une exigence importante pour un usage commercial
    • Il serait bien d’avoir du code d’entraînement ou de fine-tuning
  • Doute sur la possibilité d’un fine-tuning supplémentaire
  • Question sur l’existence d’une démo montrant les performances
  • Doute sur le fait que la présence d’un graphique d’historique des étoiles sur le dépôt GitHub fasse baisser la crédibilité ressentie