- Éditeur de documents vocal combinant reconnaissance vocale et commandes en langage naturel
- L’utilisateur peut dire des choses comme « mets ça sous forme de liste » ou « ajoute une citation en ligne à la page 86 de ce livre », et la commande est exécutée
- Les logiciels de reconnaissance vocale offrent encore une expérience contraignante et fragile
- Les logiciels se livrent une bataille sur la précision, mais ne traitent pas la nature fragile du texte généré
- Il faut apprendre des commandes spéciales, et cela reste insuffisant comme substitut au clavier
- La manière dont Aqua Voice apporte une solution
- Aqua peut retranscrire exactement les paroles de l’utilisateur, exécuter une commande ou reformuler avec élégance ce qui a été dit pour produire le texte voulu
- Quand on bafouille ou qu’on répète une phrase plusieurs fois, Aqua ne conserve et ne transcrit que la version finale
- Vision et technologie d’Aqua Voice
- Vise à offrir une expérience de reconnaissance vocale plus naturelle et une expérience d’écriture avec IA plus collaborative
- Fournit un service en streaming connecté en continu aux modèles en temps réel
- 6 modèles collaborent pour transcrire, interpréter et réécrire le document selon l’intention
- Utilise une transcription MoE (Mixture of Experts) pour améliorer la précision en temps réel
1 commentaires
Commentaires sur Hacker News
Génial ! Quelques retours :
Comme d’autres l’ont dit, beau travail.
J’ai eu une blessure liée aux TMS en 94/95 et j’utilise la reconnaissance vocale depuis. Je veux une solution qui me permette de quitter Windows. Je veux une solution avec laquelle je peux dicter facilement dans Firefox, Thunderbird et VS Code. Le plus important, c’est la fonction d’édition/manipulation de texte que Nuance appelait « Select-and-Say ». Faire de petites modifications, remplacer une phrase par une nouvelle dictée, etc., rend l’usage de la voix bien plus facile que la simple dictée capturée, comme dans la plupart des applis type Whisper. Si vous pouvez faire ça, je serai client à vie.
Je voulais quelque chose comme ça pour la saisie de données. Il m’arrive souvent d’avoir les mains prises pendant que je mesure des choses et de devoir prendre des notes. Est-ce que cela peut produire/mettre en forme des données tabulaires ?
C’est vraiment génial. J’espérais que quelqu’un construirait cela :
Les logiciels de dictée sont très importants dans le secteur médical. Tous les médecins les utilisent, et une solution comme la vôtre pourrait rendre leur travail bien plus efficace. Avez-vous exploré ce segment de marché ?
C’est incroyable ! C’est très satisfaisant à utiliser, et la combinaison transcription + intention semble avoir un potentiel énorme.
J’aimerais utiliser cela pour dicter des lettres aux patients, etc. Les modèles locaux / la conformité HIPAA, c’est encore loin ?
Félicitations pour le lancement !
En tant qu’autre personne neuroatypique qui travaille bien mieux avec du texte qu’avec la voix, j’adore absolument cette idée. Mon seul retour est... j’aimerais exécuter cela avec davantage de contrôle. Je fais déjà tourner des LLM en local (par exemple LM Studio), et je pourrais aussi faire tourner quelque chose comme Whisper. Je comprends que passer en open source (ou rendre le code source disponible) puisse aller à l’encontre d’une tentative de commercialisation. Mais il pourrait y avoir quelques options, comme Red Hat, où vous facturez l’usage professionnel tout en permettant une exécution locale gratuite pour l’usage personnel.
D’un côté, vous avez un avantage de premier entrant solide dans un domaine dont beaucoup de gens peuvent bénéficier et qu’ils peuvent utiliser, mais quelqu’un pourrait proposer une concurrence en bricolant ensemble plusieurs couches de sorties de plusieurs LLM (ce genre de projet est souvent open source, mais parfois moins « raffiné »). Si vous proposez une bonne offre, il pourrait y avoir une vraie chance de grand succès. Bonne chance !
C’est sympa, je vais peut-être m’abonner — il faut juste que je réduise mes autres abonnements — il y a eu trop de produits IA tentants ces derniers temps.
Ce n’est pas dit explicitement, mais j’aimerais savoir quelles données partent dans le cloud — je suppose qu’il s’agit de l’enregistrement vocal complet. Ou bien la STT se fait-elle sur l’appareil ? Et quelle est votre politique de confidentialité / de conservation sur ces données ? Excellente démo et super produit !