Composant React de contrôle vocal basé sur l’OpenAI Realtime API
(github.com/openai)- Composant de contrôle vocal pour React/navigateurs construit sur la Realtime API
- Permet d’implémenter des widgets capables de répondre à la voix, depuis la saisie de formulaires jusqu’à divers types d’actions
- Fournit un pattern de tool-constrained UI qui limite l’assistant aux seules actions autorisées par l’application
- Un contrôleur unique gère de bout en bout la connexion de session, le traitement audio, l’exécution des outils et l’assemblage des transcriptions, évitant aux développeurs d’avoir à manipuler directement WebRTC ou le protocole Realtime
- Lors de l’intégration à une application existante, l’application reste l’unique source de vérité (source of truth), tandis que la couche vocale se contente d’appeler des handlers d’application limités
- Il s’agit d’un package opinionated spécialisé dans les flux UI du navigateur, et non d’un framework d’orchestration générique ; si vous avez besoin d’un runtime non-React ou d’une orchestration d’agents, il est recommandé d’utiliser Raw Realtime ou
openai-agents-js - Pour l’intégration dans une application existante, un guide en 9 étapes est fourni : proxy de l’endpoint
/session→ création d’un wrapper d’adaptateur vocal → enregistrement des outils → remontée du contrôleur → montage du widget - Le contrôleur utilise
server_vadpar défaut et, dans les sessions tool-only, est configuré avecinterruptResponse: falseafin qu’un appel d’outil en cours ne soit pas annulé par une nouvelle entrée vocale - L’application de démonstration permet d’explorer divers scénarios d’intégration, notamment le changement de thème, un formulaire multi-étapes, un flux d’échecs à état partagé et des expérimentations autour du wake word
- Licence Apache-2.0
Aucun commentaire pour le moment.