9 points par xguru 2024-03-29 | 1 commentaires | Partager sur WhatsApp
  • Éditeur de documents vocal combinant reconnaissance vocale et commandes en langage naturel
  • L’utilisateur peut dire des choses comme « mets ça sous forme de liste » ou « ajoute une citation en ligne à la page 86 de ce livre », et la commande est exécutée
  • Les logiciels de reconnaissance vocale offrent encore une expérience contraignante et fragile
    • Les logiciels se livrent une bataille sur la précision, mais ne traitent pas la nature fragile du texte généré
    • Il faut apprendre des commandes spéciales, et cela reste insuffisant comme substitut au clavier
  • La manière dont Aqua Voice apporte une solution
    • Aqua peut retranscrire exactement les paroles de l’utilisateur, exécuter une commande ou reformuler avec élégance ce qui a été dit pour produire le texte voulu
    • Quand on bafouille ou qu’on répète une phrase plusieurs fois, Aqua ne conserve et ne transcrit que la version finale
  • Vision et technologie d’Aqua Voice
    • Vise à offrir une expérience de reconnaissance vocale plus naturelle et une expérience d’écriture avec IA plus collaborative
    • Fournit un service en streaming connecté en continu aux modèles en temps réel
    • 6 modèles collaborent pour transcrire, interpréter et réécrire le document selon l’intention
    • Utilise une transcription MoE (Mixture of Experts) pour améliorer la précision en temps réel

1 commentaires

 
xguru 2024-03-29

Commentaires sur Hacker News

  • Génial ! Quelques retours :

    • Le terme « 1000 tokens » ne veut rien dire pour les utilisateurs non techniques, et il ne m’évoque presque rien non plus. Dites-moi simplement combien de mots je peux prononcer.
    • Ce tableau du taux d’erreur LaTeX en police serif est aussi beaucoup trop ennuyeux. Les gens veulent quelque chose de percutant comme « jusqu’à 7 fois moins d’erreurs que la dictée macOS ». Pas un tableau comparatif.
    • « 0,05 word error rate » doit aussi disparaître. Il faut expliquer ce que cela signifie et utiliser un pourcentage.
    • « Vous avez oublié un nom, un mot, un fait, un chiffre ? Demandez à Aqua de le compléter. » J’aimerais pouvoir désactiver cette fonction, ou au moins qu’il y ait une indication claire quand un contenu que je n’ai pas prononcé est inséré dans le document. Quand je dicte, je veux en général que seuls les mots que j’ai dits apparaissent sur la page.
  • Comme d’autres l’ont dit, beau travail.

    • Cela semble particulièrement utile sur un téléphone ou une montre. La possibilité de prendre des notes là où l’expérience clavier est médiocre semble être un vrai game changer.
    • L’avez-vous essayé pour écrire du code ? Cela pourrait être étonnamment excellent comme plugin d’IDE/éditeur de texte.
    • C’est agréable de voir que vous ne faites rien de regrettable avec l’IA. Beaucoup des applications qu’on voit sont affreuses. Ce que vous avez créé est remarquable et très loin d’une expérience d’usine à chocolat maudite.
  • J’ai eu une blessure liée aux TMS en 94/95 et j’utilise la reconnaissance vocale depuis. Je veux une solution qui me permette de quitter Windows. Je veux une solution avec laquelle je peux dicter facilement dans Firefox, Thunderbird et VS Code. Le plus important, c’est la fonction d’édition/manipulation de texte que Nuance appelait « Select-and-Say ». Faire de petites modifications, remplacer une phrase par une nouvelle dictée, etc., rend l’usage de la voix bien plus facile que la simple dictée capturée, comme dans la plupart des applis type Whisper. Si vous pouvez faire ça, je serai client à vie.

    • La chose la plus importante ensuite, c’est la capacité à écrire des routines d’action pour la grammaire. Ma préférence va à Python, parce que c’est la cible la plus simple quand j’écris du code avec chatGPT. Mais je pourrais probablement apprendre un autre langage aussi (sauf JavaScript, je déteste ça). Je fais référence au paquet « natPython » de Joel Gould. Voici la présentation d’origine et ce que les gens ont construit avec.
    • Il y a des leçons du passé. Au début de DragonDictate/NaturallySpeaking, quand Baker dirigeait Dragon Systems, ils envoyaient régulièrement des employés assister aux réunions locales de groupes d’utilisateurs de reconnaissance vocale pour discuter avec nous de ce qui marchait et de ce qui échouait. Ils savaient qu’observer notre communauté de personnes handicapées leur apporterait plus d’informations sur la façon de construire un bon environnement de reconnaissance vocale que n’importe quelle autre communauté d’utilisateurs. Nous trouvions les cas limites avant tout le monde. Ils ont fait de bonnes choses, par exemple en soutenant certaines réunions de groupes d’utilisateurs de reconnaissance vocale avec des locaux et du temps de personnel.
    • Nuance semble avoir oublié cette leçon.
    • Bref, j’étais censé travailler aujourd’hui, mais votre présentation m’a complètement détourné de ça. :-)
    • [Ajout après utilisation] Vraiment impressionnant. Il est clair que je dois y consacrer plus de temps. Je vois bien que mon expérience avec Naturally Speaking a limité ma vision, et vous avez une vision bien plus large de ce que peut être une interface utilisateur.
  • Je voulais quelque chose comme ça pour la saisie de données. Il m’arrive souvent d’avoir les mains prises pendant que je mesure des choses et de devoir prendre des notes. Est-ce que cela peut produire/mettre en forme des données tabulaires ?

  • C’est vraiment génial. J’espérais que quelqu’un construirait cela :

    • Je paierais volontiers 10 $/mois pour ça. Mais ce que je veux vraiment, c’est l’un des deux points suivants :
      • un plugin Raycast ou une app desktop qui permette à cela d’interagir avec tous les champs de texte modifiables de mon environnement
      • une API à laquelle on peut envoyer le texte/contexte existant + un flux audio, et récupérer en retour un battement de cœur de mises à jour du document complet. La communauté pourrait alors construire des plugins Obsidian/VSCode/navigateur pour un vaste ensemble de contextes de saisie de texte
    • Je vais payer les 10 $ cet après-midi de toute façon, et félicitations !
  • Les logiciels de dictée sont très importants dans le secteur médical. Tous les médecins les utilisent, et une solution comme la vôtre pourrait rendre leur travail bien plus efficace. Avez-vous exploré ce segment de marché ?

  • C’est incroyable ! C’est très satisfaisant à utiliser, et la combinaison transcription + intention semble avoir un potentiel énorme.

    J’aimerais utiliser cela pour dicter des lettres aux patients, etc. Les modèles locaux / la conformité HIPAA, c’est encore loin ?

  • Félicitations pour le lancement !
    En tant qu’autre personne neuroatypique qui travaille bien mieux avec du texte qu’avec la voix, j’adore absolument cette idée. Mon seul retour est... j’aimerais exécuter cela avec davantage de contrôle. Je fais déjà tourner des LLM en local (par exemple LM Studio), et je pourrais aussi faire tourner quelque chose comme Whisper. Je comprends que passer en open source (ou rendre le code source disponible) puisse aller à l’encontre d’une tentative de commercialisation. Mais il pourrait y avoir quelques options, comme Red Hat, où vous facturez l’usage professionnel tout en permettant une exécution locale gratuite pour l’usage personnel.

    D’un côté, vous avez un avantage de premier entrant solide dans un domaine dont beaucoup de gens peuvent bénéficier et qu’ils peuvent utiliser, mais quelqu’un pourrait proposer une concurrence en bricolant ensemble plusieurs couches de sorties de plusieurs LLM (ce genre de projet est souvent open source, mais parfois moins « raffiné »). Si vous proposez une bonne offre, il pourrait y avoir une vraie chance de grand succès. Bonne chance !

  • C’est sympa, je vais peut-être m’abonner — il faut juste que je réduise mes autres abonnements — il y a eu trop de produits IA tentants ces derniers temps.

  • Ce n’est pas dit explicitement, mais j’aimerais savoir quelles données partent dans le cloud — je suppose qu’il s’agit de l’enregistrement vocal complet. Ou bien la STT se fait-elle sur l’appareil ? Et quelle est votre politique de confidentialité / de conservation sur ces données ? Excellente démo et super produit !