9 points par GN⁺ 2023-12-13 | 1 commentaires | Partager sur WhatsApp
  • Assistant IA utilisant la voix et la vision, utilisable dans toutes les applications de macOS
  • Appuyez sur un raccourci clavier et posez une question à l’oral : une réponse vocale est alors fournie en fonction du contexte actuel
    • Une capture d’écran de la fenêtre active est créée puis envoyée à OpenAI GPT Vision
    • La question est transcrite avec l’API OpenAI Whisper, puis envoyée avec le texte
    • La réponse texte reçue est convertie en voix avec OpenAI TTS puis restituée
  • Développé avec NodeJS/Electron
  • Le raccourci clavier par défaut est Cmd + Shift + '

1 commentaires

 
GN⁺ 2023-12-13
Avis Hacker News
  • Question sur le fait qu’il serait préférable d’utiliser le terme « macOS » plutôt que « OSX » dans le prompt, ou si ce choix initial n’avait pas fait l’objet d’une grande réflexion.

    • L’auteur du commentaire dit s’être posé la question en parcourant la vidéo.
    • Un lien vers le code associé est fourni.
  • Suggestion d’ajouter une option de texte en streaming à la place du TTS dans la réponse.

    • Il est également proposé d’envisager l’usage du texte plutôt que des commandes vocales.
    • La personne partage son expérience d’essais prolongés avec des assistants de ce type et propose de prendre contact sur Discord.
  • Mention d’un script similaire écrit pour une configuration Linux.

    • Relié aux raccourcis clavier XFCE.
    • Il est indiqué que le script est peu utilisé.
  • Recommandation de définir une limite de dépenses lors de l’utilisation de l’API OpenAI.

    • Avertissement indiquant qu’on peut vite se rendre compte de l’écart de coût entre les modèles texte et les modèles de vision.
    • Constat positif que les tarifs semblent similaires.
  • Réaction positive au projet.

    • Il est mentionné que des captures d’écran aideraient à clarifier les points confus.
    • Question sur l’existence d’un moyen de masquer la fenêtre lorsqu’elle n’est pas utilisée.
  • Question sur l’intention éventuelle de faire fonctionner le projet avec des LLMs locaux plutôt qu’avec « open »AI.

  • Avis disant vouloir construire quelque chose directement intégré au terminal.

    • Il est indiqué qu’éviter les captures d’écran et travailler directement dans le terminal serait plus simple.
    • Un exemple de code montrant des commandes adressées à l’IA dans le terminal est fourni.
    • La personne se plaint du manque de temps dans un quotidien chargé.
  • Réaction négative à l’information selon laquelle « macOSpilot utilise NodeJS/Electron ».

  • Partage d’une expérience d’utilisation avec la station audionumérique Ableton Live.

    • Évaluation positive indiquant que cela semble très utile et permettrait de gagner du temps.
    • Un lien vers une vidéo d’interaction est fourni.
    • Interrogation sur les commentaires négatifs.
  • Partage d’une réflexion imaginaire sur la productivité pendant l’attente du résultat de la commande ls.