Un agent vocal IA multilingue en temps réel qui exploite 100 % des capacités de macOS — TalkMode
(talkmode.baryon.ai)Titre :
Un agent vocal IA en temps réel qui fonctionne sur Mac — TalkMode
Sous-titre :
Une interface vocale de style Agent-OS fondée sur le suivi du regard (gaze), le STT/TTS en temps réel et l’intégration avec Claude/OpenAI
TalkMode est un projet qui se rapproche davantage d’un « agent vocal IA opérationnel en temps réel » que d’un simple chatbot vocal.
Points techniquement intéressants :
- interaction vocale à faible latence, basée nativement sur macOS
- pipeline STT ↔ LLM ↔ TTS en temps réel
- optimisation des conversations vocales multilingues, y compris en coréen
- expérimentation d’interactions fondées sur le regard (
gaze) - gestion du
turn-taking(contrôle du timing de parole) - architecture d’intégration avec OpenAI / Claude / CLI Agent
- orientation vers des workflows de style Agent OS
- orientation vers une architecture local-first
Il ne s’agit surtout pas d’un simple « chat vocal en mode questions-réponses », mais plutôt d’une approche qui cherche à relier par la voix des « flux de travail continus » comme :
- réunions
- brainstorming
- assistance au développement
- recherche
- connexion à l’IDE/CLI
On a l’impression que le projet vise concrètement un flux comme celui-ci :
Mic Input
↓
Streaming STT
↓
Context / Memory
↓
LLM Agent
↓
Tool Calls / CLI
↓
Realtime TTS
Autre point intéressant :
si les assistants vocaux existants donnaient plutôt une impression de « secrétaire mobile »,
TalkMode semble davantage se rapprocher d’un « agent vocal pour développeurs » connecté à la culture Claude Code / Codex / terminal.
Site officiel :
https://talkmode.baryon.ai/
GitHub :
https://github.com/baryonlabs
Aucun commentaire pour le moment.