1 points par fastkoder 3 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Titre :
Un agent vocal IA en temps réel qui fonctionne sur Mac — TalkMode

Sous-titre :
Une interface vocale de style Agent-OS fondée sur le suivi du regard (gaze), le STT/TTS en temps réel et l’intégration avec Claude/OpenAI

TalkMode est un projet qui se rapproche davantage d’un « agent vocal IA opérationnel en temps réel » que d’un simple chatbot vocal.

Points techniquement intéressants :

  • interaction vocale à faible latence, basée nativement sur macOS
  • pipeline STT ↔ LLM ↔ TTS en temps réel
  • optimisation des conversations vocales multilingues, y compris en coréen
  • expérimentation d’interactions fondées sur le regard (gaze)
  • gestion du turn-taking (contrôle du timing de parole)
  • architecture d’intégration avec OpenAI / Claude / CLI Agent
  • orientation vers des workflows de style Agent OS
  • orientation vers une architecture local-first

Il ne s’agit surtout pas d’un simple « chat vocal en mode questions-réponses », mais plutôt d’une approche qui cherche à relier par la voix des « flux de travail continus » comme :

  • réunions
  • brainstorming
  • assistance au développement
  • recherche
  • connexion à l’IDE/CLI

On a l’impression que le projet vise concrètement un flux comme celui-ci :

Mic Input  
  ↓  
Streaming STT  
  ↓  
Context / Memory  
  ↓  
LLM Agent  
  ↓  
Tool Calls / CLI  
  ↓  
Realtime TTS  

Autre point intéressant :
si les assistants vocaux existants donnaient plutôt une impression de « secrétaire mobile »,
TalkMode semble davantage se rapprocher d’un « agent vocal pour développeurs » connecté à la culture Claude Code / Codex / terminal.

Site officiel :
https://talkmode.baryon.ai/

GitHub :
https://github.com/baryonlabs

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.