19 points par xguru 2022-11-17 | 3 commentaires | Partager sur WhatsApp
  • Que se passerait-il si notre téléphone enregistrait en permanence ce que nous disons pour le faire traiter par une IA ? Je l’ai testé en premier
  • Enregistrement en continu pendant tout le temps d’éveil, sauf pendant le sommeil (avec désactivation dans les situations inappropriées). C’est un PoC, et une application réelle reste difficile pour l’instant
  • La motivation de départ : la publication de Whisper par OpenAI

Mode de fonctionnement

  • Deux micros enregistrent tout ce que je dis toute la journée, puis à la fin de la journée, Whisper traite le tout pour le convertir en texte
  • J’ai réalisé qu’on pouvait s’en servir pour créer un assistant numérique basique de style "Ok Google"
  • Deux types d’informations peuvent être extraits chaque jour
    • Active : ce que je demande consciemment à l’assistant
    • Passive : toutes les autres informations qui devraient être extraites sans que j’aie besoin d’effectuer une action

Fonctions actives

  • Pour les éléments à traiter de manière asynchrone chaque soir, je parle selon le format 'KEYWORD COMMAND data END KEYWORD'
    • 'Robert WEIGHT 60.1 end Robert' : Robert est le nom de l’assistant, et end est le mot-clé de fin
    • Pourquoi ne pas utiliser "OK Google" : c’est limité, je n’aime pas que les informations partent chez Google, et cela fonctionne de manière synchrone dès qu’on parle
    • Bien sûr, comme le traitement est asynchrone, l’inconvénient est qu’on ne peut rien savoir avant la fin de la journée

Voir les résultats

  • Après être monté sur la balance : 'Robert WEIGHT 62.8 end Robert'
  • Au réveil, lecture du sleep tracker (Mi Band) : 'Robert SLEEP 7 hours 14 minutes end Robert'
    • Les appareils électroniques transmettent bien les informations via le téléphone, mais comme il n’y a pas moyen de les extraire, j’utilise simplement l’assistant numérique comme une sorte d’Analog API
  • Après avoir mangé : 'Robert LUNCH two toasts with a fried egg end Robert'
    • Les calories des aliments consommés chaque jour sont calculées via une API externe
  • Après avoir écouté un podcast : 'Robert NOTE the podcast talks about Morgan Housel's book the psychology of money end Robert'
    • Toutes les notes et idées sont enregistrées
  • Après avoir fait le plein : 'Robert SPENT 250,000 on fuel end Robert'
    • Les dépenses quotidiennes sont enregistrées
  • Se parler à soi-même paraît un peu étrange, mais l’avantage est de ne pas avoir besoin de prendre son téléphone en main pour faire quoi que ce soit

Tableau de bord

  • J’ai créé un dashboard pour visualiser toutes les informations saisies de cette manière
  • J’ai créé My Journal pour enregistrer automatiquement ce que j’ai fait dans la journée

Informations passives - encore en cours de développement

  • RELATIONSHIP THERMOMETER : thermomètre des relations
  • SENTIMENT ANALYS : analyse des sentiments
  • TOTAL RECALL : recherche de tout ce qui a été dit sur un sujet précis, ainsi que de ce que je pensais de ce sujet à un moment donné

Conclusion provisoire

  • Audio + contexte sont nécessaires
  • Le potentiel obtenu grâce à cela est immense, à la fois dans le bon et dans le mauvais sens
    • Positif : mémoire parfaite, psychologue/coach personnel, mon clone virtuel
    • Négatif : que ce genre de choses se retrouve entre les mains d’autres personnes
  • La différence entre l’utopie et la dystopie tient à la question de savoir qui peut accéder à ces informations

3 commentaires

 
budlebee 2022-11-17

« La différence entre une utopie et une dystopie, c’est de savoir qui peut accéder à cette information. » C’est bien dit.

 
nicewook 2022-11-17

C’est séduisant. Cela semble tout à fait réalisable dans la pratique.
Comme un vlog, il pourrait aussi y avoir des contenus permettant parfois de partager et de diffuser un quotidien exemplaire.

 
xguru 2022-11-17

L’auteur l’a posté lui-même sur HN et a aussi répondu dans les commentaires : https://news.ycombinator.com/item?id=33608437
Le lien AliExpress du microphone utilisé est également inclus, haha.

Whisper - système de reconnaissance vocale multilingue (ASR) publié en open source par OpenAI