- Le framework Agent permet de créer des programmes serveur pilotés par l’IA capables de voir, d’entendre et de parler en temps réel
- Ils se connectent à l’appareil de l’utilisateur via une session LiveKit, gèrent les flux texte, audio, image et vidéo, et transmettent à l’utilisateur les résultats générés par les modèles d’IA
- Fournit l’API MultimodalAgent en collaboration avec OpenAI
- Enveloppe entièrement la Realtime API d’OpenAI, abstrait le protocole Raw Wire et fournit un transport WebRTC à très faible latence entre GPT-4o et les appareils
- Il s’agit de la pile technologique utilisée par la fonctionnalité Advanced Voice de l’application ChatGPT
- Fonctionnalités proposées
- Des plugins pour les LLM populaires, les services de transcription et de synthèse vocale, ainsi que les bases de données RAG
- Des abstractions de haut niveau pour créer des agents vocaux ou des assistants avec détection automatique des tours de parole, gestion des interruptions, appels de fonctions et transcription
- Compatible avec la pile de téléphonie de LiveKit, permettant aux agents de passer ou de recevoir des appels téléphoniques
- Un système intégré de load balancing pour gérer des pools d’agents avec dispatch en edge, supervision et basculement transparent en cas de panne
- L’exécution des agents est identique en local, en self-hosting et dans l’environnement LiveKit Cloud
1 commentaires
LiveKit - plateforme open source de communication en temps réel
J’avais déjà partagé LiveKit une fois en 2021, et il semble qu’avec son extension via la fonctionnalité Agents, il ait aussi été utilisé dans ChatGPT.
À l’origine, c’est un produit conçu pour les fonctions de réunion audio/vidéo en temps réel pour des groupes de 10 à 1 000 personnes.
À l’époque, il avait pas mal attiré l’attention car il pouvait devenir une alternative open source à Agora, qu’utilisait ClubHouse.
Et en regardant de plus près, je vois qu’Agora propose lui aussi exactement la même fonctionnalité sous le nom de Conversational AI SDK.
https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/