- Modèle d’interaction vocale de bout en bout, haute qualité et à faible latence
- Construit sur la base de Llama-3.1-8B-Instruct, avec pour objectif d’atteindre des capacités vocales de niveau GPT-4o
- Faible latence de 226 ms
- Génère simultanément des réponses textuelles et vocales
Le récapitulatif de GN⁺
- LLaMA-Omni est un modèle parole-langage basé sur Llama-3.1-8B-Instruct, conçu pour offrir des interactions vocales à faible latence et de haute qualité
- Il peut générer simultanément des réponses textuelles et vocales, ce qui le rend utile dans de nombreux cas d’usage
- Son entraînement est efficace, achevé en moins de 3 jours avec 4 GPU
- Il est facile d’interagir avec lui via une démo Gradio, et l’inférence en local est également possible
- Parmi les projets aux fonctionnalités similaires figurent Whisper d’OpenAI et l’API Speech-to-Text de Google
1 commentaires
Avis sur Hacker News