BrainGPT convertit les pensées en texte

(iflscience.com)

1 points par GN⁺ 2023-12-18 | 1 commentaires | Partager sur WhatsApp

Des chercheurs de l’University of Technology Sydney ont présenté une technologie non invasive de brain-to-text capable de transformer en texte à l’écran des phrases lues silencieusement, en utilisant uniquement les ondes cérébrales EEG
Le modèle d’IA DeWave fonctionne sans implant cérébral ni IRM, et l’utilisateur porte un bonnet EEG qui enregistre l’activité cérébrale
Les EEG sont plus bruités que les signaux issus d’implants, mais le système a obtenu environ 0,4 selon le score BLEU, avec de meilleurs résultats sur l’association des verbes que des noms
Des erreurs du type « the author » remplacé par « the man » apparaissent, ce qui montre une limite : le système choisit des mots proches en sens plutôt que le mot exact
L’équipe estime pouvoir porter la précision à 0,9 ; les résultats ont été présentés à NeurIPS, mais le préprint ArXiV n’a pas encore été évalué par les pairs

Une expérience qui lit des phrases avec le seul EEG

Des chercheurs du GrapheneX-UTS Human-centric Artificial Intelligence Centre de l’University of Technology Sydney ont testé une méthode qui convertit directement des formes d’onde EEG brutes en langage
Ching-Ten Lin indique qu’il s’agit du premier cas d’intégration d’une technique de codage discret (discrete encoding) dans le processus de traduction brain-to-text
Les participants lisaient silencieusement des passages de texte, et le modèle d’IA DeWave affichait des mots à l’écran en prenant uniquement les ondes cérébrales comme entrée
Ce résultat a été sélectionné comme article spotlight à la conférence NeurIPS, la conférence annuelle des chercheurs en IA et en machine learning

Les avantages du non-invasif et ses limites actuelles

Contrairement aux technologies classiques de conversion des signaux cérébraux en langage, cette approche ne nécessite ni implant cérébral ni équipement d’IRM
- Elle peut être utilisée sans entrée supplémentaire comme un logiciel d’eye-tracking
- L’équipe estime aussi qu’une utilisation combinée avec d’autres équipements est possible
L’utilisateur n’a qu’à porter un bonnet EEG qui enregistre l’activité cérébrale
- Les signaux EEG sont plus bruités que les informations obtenues via des implants
- Le score selon l’algorithme BLEU se situe autour de 0,4
Yiqun Duan explique que le modèle est plus performant pour l’association des verbes que pour celle des noms
- Pour les noms, le système avait tendance à produire des synonymes ou des mots proches en sens plutôt qu’une traduction exacte, comme « the man » à la place de « the author »
- L’équipe pense que, lorsque le cerveau traite des mots, des termes de sens proche peuvent produire des motifs d’ondes cérébrales similaires
L’objectif de précision à terme est de 0,9
- Un score de 0,9 serait comparable aux logiciels traditionnels de traduction linguistique
- L’expérience comptait 29 participants, soit plus d’un ordre de grandeur de plus que plusieurs autres expériences sur différentes techniques de décodage
Les résultats ont été présentés à NeurIPS, et le préprint est disponible sur ArXiV
- Il n’a pas encore fait l’objet d’une évaluation par les pairs

1 commentaires

GN⁺ 2023-12-18

Avis sur Hacker News

J’ai fait un doctorat sur les interfaces cerveau-ordinateur, et j’ai travaillé avec l’EEG et des électrodes implantées
Une grande partie de la recherche sur les BCI vise à aider les patients paralysés à communiquer de nouveau
Malheureusement, en dehors de conditions comme un laboratoire équipé d’une cage de Faraday, des jours ou des semaines de suppression du bruit, et l’élimination des artefacts dus aux mouvements des yeux, l’EEG n’offre pas un rapport signal/bruit suffisant pour obtenir une bonne vitesse de communication
C’est une limite physique difficile à surmonter, car le champ électrique du cerveau s’affaiblit en sortant du crâne. Par exemple, les jouets commerciaux de « lecture de pensée » fonctionnent en réalité à partir des signaux des muscles de la tête et des yeux
Les électrodes implantées fournissent un meilleur signal, mais il faudra encore plusieurs itérations avant qu’elles deviennent commercialement viables. Au bout de quelques mois, le cerveau forme du tissu cicatriciel autour des électrodes, ce qui dégrade le signal, et la chirurgie cérébrale elle-même est évidemment assez risquée
Les tests sur l’humain nécessitent une autorisation gouvernementale, ce qui rend aussi les cycles d’itération très lents. Si un ami paralysé ne pouvait bouger que les yeux, je me concentrerais clairement sur la technologie de suivi du regard. Elle surpasse toutes les BCI dont j’ai entendu parler
- Je serais curieux de savoir ce que tu penses de Neuralink d’Elon
  Et aussi si tu penses que de bons algorithmes d’IA, comme dans l’article, peuvent aider à filtrer ou interpréter une grande partie du bruit
- J’ai récemment passé un examen EEG ambulatoire de deux jours, et je notais chaque fois que je faisais quelque chose susceptible de générer du bruit électrique
  Par exemple passer dans un détecteur de métaux ou manipuler mon téléphone
  Comme prévu, l’une des plus grandes sources de bruit était de toucher un téléphone branché sur secteur
  Un bonnet de Faraday pour EEG pourrait vraiment fonctionner, et avec une vidéo auxiliaire en première personne en plus, les médecins pourraient probablement filtrer beaucoup de bruit
- Ça donne fortement l’impression d’écarter une nouvelle technologie comme impossible avec beaucoup trop d’assurance. Certes, ce forum aime ce genre de chose, mais c’était pareil avec GPT
  Cet article lui-même semble plutôt constituer un indice assez solide que l’amélioration des algorithmes peut atténuer le problème de rapport signal/bruit de l’EEG
- Récemment, une équipe franco-suisse a rendu possible la communication entre le cerveau et les jambes, et le dispositif semblait déjà assez mûr
  Il me semble que le patient avait une lésion des nerfs au niveau de la colonne vertébrale. Cela ressemblait à une avancée prometteuse, et je serais curieux de savoir ce que tu en penses
  https://actu.epfl.ch/news/thought-controlled-walking-again-a...
- Je veux bien croire que le rapport signal/bruit soit désastreux, mais je soupçonne fortement qu’avec suffisamment de données, on pourrait quand même obtenir des progrès étonnants
  Comme lorsqu’on reconstruit ce qui a été tapé à partir de l’audio d’une pièce où se trouve un clavier, il ne faut pas sous-estimer la capacité du deep learning à extraire le signal du bruit
  Le plus gros défi pourrait être que produire des données EEG corrélées au signal coûte relativement cher. Il est donc peu probable qu’on alimente un modèle avec des millions d’heures de données de personnes regardant ou traitant des objets connus
  En revanche, les données de suivi du regard vont bientôt exploser, car elles deviennent un composant clé des nouveaux matériels grand public
Réponse correcte : Bob attended the University of Texas at Austin where he graduated, Phi Beta Kappa with a Bachelor’s degree in Latin American Studies in 1973, taking only two and a half years to complete his work, and obtaining generally excel- lent grades
Prédiction : was the University of California at Austin in where he studied in Beta Kappa in a degree of degree in history American Studies in 1975. and a one classes a half years to complete the degree. and was a excellent grades
Waouh, ça ressemble aux systèmes rudimentaires de transcription vocale des années 70 ou 80. Les interfaces cérébrales quittent rapidement le domaine de la science-fiction pour devenir réalité. Je ne sais pas encore très bien comment le prendre
- La Figure 1 n’est pas un résultat réel, mais une illustration montrant l’« objectif » de l’article
  Les résultats réels sont dans le Table 3, et ils sont bien pires
- Il semble qu’on pourrait très vite faire beaucoup mieux simplement en combinant le modèle entraîné avec un grand modèle de langage appris sur la langue dans laquelle on s’attend à ce que la personne pense
  Autrement dit, il s’agirait de trouver un équilibre entre le traitement ascendant de ce que le modèle TTS pense que la personne est en train de « penser », et le traitement descendant de ce qu’un modèle grammatical estime qu’une personne moyenne « dirait ensuite », compte tenu de la conversation jusqu’ici. Comme dans le néocortex réel
  À y réfléchir, si l’on dispose d’un corpus de conversations transcrites de cette personne, on pourrait aussi entraîner le LLM dessus. Cela correspondrait presque exactement à la fonction consistant à prédire « ce que cette personne dirait à ce moment précis »
  On pourrait même trouver des positions supplémentaires pour des électrodes EEG capables de lire les conséquences électriques de l’action des AMPAR et NMDAR. Cela permettrait de déterminer dans quelle mesure la personne s’appuie actuellement sur son modèle interne descendant de production de parole, ou si elle utilise un traitement ascendant interne pour produire une phrase étrange et nouvelle à laquelle elle n’a jamais pensé auparavant, puis d’utiliser cette information pour ajuster les poids respectifs de l’influence du modèle TTS et du LLM sur la sortie
- Si vous « ne savez pas quoi en penser », nous pouvons le lire à votre place
- Il faut absolument utiliser de l’open source ou uniquement des technologies commerciales payantes de qualité professionnelle
  Quelqu’un va forcément sortir une BCI « gratuite » qui surveille tout autant que possible
- Ce podcast couvre très bien l’avenir vers lequel nous fonçons
  https://www.youtube.com/watch?v=OSV7cxma6_s
  « Alors que toutes ces technologies progressent à une vitesse inimaginable, le futurologue Peter Diamandis, à suivre de près, va bouleverser votre façon de penser et vous faire imaginer de nouvelles possibilités et opportunités pour la durée de vie en bonne santé »
Il y a un passage disant que ce n’est « pas la première technologie capable de traduire des signaux cérébraux en langage, mais la seule à ce jour qui ne nécessite ni implant cérébral ni accès à un véritable équipement d’IRM »
Je me demande si, dans 10 ou 20 ans, quand la technologie des capteurs sera suffisamment meilleure pour qu’il ne soit même plus nécessaire de porter un bonnet, on verra apparaître des gens affirmant qu’en public il n’existe pas d’attente raisonnable de ne pas se faire lire ses pensées
Les technologies de surveillance ont généralement tendance à se normaliser, et je me demande aussi s’il existe une limite réaliste à jusqu’où cela peut aller
- À ce moment-là, on commencera probablement à porter des chapeaux en papier aluminium
- Même sans lecture des signaux cérébraux, le simple traitement de données agrégées permet déjà à un acteur centralisé d’en savoir la majeure partie sur vous
  Il y a plus de dix ans, on racontait que l’algorithme du programme de fidélité de Target avait détecté la grossesse d’une adolescente avant même qu’elle l’annonce à sa famille, en observant des corrélations dans l’évolution de ses achats, par exemple le passage de bougies parfumées à des bougies sans parfum
  Si l’on peut récupérer les données des réseaux sociaux, le suivi du visage et du regard par CCTV, les données de gyroscope du téléphone, l’historique d’achats, l’historique de recherche, ainsi que les mêmes données des connaissances connectées, un jeu de données de comparaison suffisamment vaste permettra de découvrir toutes sortes de secrets cachés
  C’est similaire à la peur que « mon téléphone écoute mes conversations ». En réalité, il n’écoute pas, mais ce qui devrait davantage inquiéter, c’est qu’il peut déjà dessiner avec une très grande précision ce que vous finirez par dire, sans même avoir besoin de vous écouter au départ
- https://en.m.wikipedia.org/wiki/The_Hood_Maker
- Nous utilisons encore les ordinateurs comme dans les années 1970, c’est-à-dire avec un clavier et un écran
  Je ne m’attends pas à grand-chose
C’est à la fois très impressionnant, utile et terrifiant
Tout le monde a immédiatement pensé à la lecture de l’esprit pour les interrogatoires, mais qu’en est-il de l’introspection ? Comme nous ne pouvons pas nous analyser nous-mêmes de façon totalement objective, il existe toutes sortes de formes d’éducation et de thérapie
Si l’on pouvait analyser ses propres schémas de pensée en dehors de sa tête, toutes sortes d’améliorations deviendraient possibles. Trouver quelles techniques pédagogiques sont réellement les plus efficaces, vérifier objectivement quand on est le plus concentré ou le moins concentré, et identifier précisément quand une pensée anxieuse a commencé et ce qui l’a déclenchée
Surtout, on pourrait choisir de le faire à titre personnel, avec un partenaire, ou au sein d’un groupe
Aujourd’hui déjà, on peut utiliser l’IRMf comme détecteur de mensonge par scan cérébral. Mais sa légitimité soulève encore beaucoup de questions
https://scholarship.law.columbia.edu/cgi/viewcontent.cgi?art...
- La méthode consistant à taper chaque matin pendant 15 minutes dans un fichier texte de journal existe déjà, et elle est gratuite
- La peur est une émotion forte, et on sait très peu ce que l’on peut gagner grâce à cela, mais on sait beaucoup de choses sur ce que l’on peut perdre
- L’enregistrement automatique semble être une bonne idée
  La difficulté n’est pas seulement l’introspection elle-même, mais aussi le fait qu’il faut se souvenir plus tard de ce sur quoi réfléchir et noter les événements pour pouvoir les analyser. À condition de pouvoir faire confiance à l’exactitude
- Il n’est pas facile d’imaginer les avantages de la disparition des pensées privées
  Je suis surpris qu’on puisse passer directement aux avantages alors que le trou éthique de cette question est grand comme l’univers
  Mais c’est peut-être la nature des techno-optimistes
Cela me rappelle Silent Talk de la DARPA, il y a 14 ans
L’objectif était de « permettre la communication entre utilisateurs sur le champ de bataille sans parole prononcée, grâce à l’analyse des signaux neuronaux »
https://www.engadget.com/2009-05-14-darpa-working-on-silent-...
- La reconnaissance de la parole silencieuse fait elle aussi l’objet de recherches depuis aussi longtemps
C’est à la fois très impressionnant, utile et terrifiant
Cela pourrait aider les patients victimes d’un AVC, mais j’imagine aussi que cela pourrait diffuser des pensées non filtrées, ce qui poserait problème
- Oui. Donc, en 2200, les candidatures à un emploi seront probablement traitées rapidement en analysant directement les pensées
  Avec Neuralink, aucun problème. Il suffira de téléverser directement les traces de pensée
  Même si vous avez de mauvaises pensées, inutile de vous inquiéter. Il existe des écoles de rééducation qui changent votre état d’esprit
  N’oubliez pas que vous devez être heureux. Il est interdit d’être triste
  Pour l’instant c’est en lecture seule, mais qu’en sera-t-il de l’écriture ?
  Cela pourrait aussi ouvrir de nouvelles possibilités, comme une version réelle de Matrix
  Au fait, vous avez entendu parler de Lightspeed Briefs ?
  Bien sûr, la recherche elle-même est remarquable et deviendra utile. Mais à long terme, le potentiel d’abus politique est immense
- Les forces de l’ordre et les employeurs vont vraiment adorer
  Pour les patients atteints du syndrome d’enfermement, les bénéfices positifs sont presque inimaginables, mais c’est aussi le genre d’histoire qui donne envie de dire : « arrêtez d’inventer le Torment Nexus ! »
- Cela dit, il est réjouissant de se dire que nous pourrions enfin parler de ce que sont nos pensées non filtrées, de la mesure dans laquelle on attend de nous que nous les contrôlions ou les polissions, et de la manière de le faire d’une façon psychologiquement bénéfique
- Imaginez qu’on fasse porter cela lors d’un débat de candidats à la présidentielle ou pour expliquer un projet de loi : cela pourrait grandement améliorer la démocratie et permettre aux gens de savoir pour quoi ils votent réellement
- Les pensées non filtrées ne sont pas si éloignées de problèmes existants, comme certaines formes de syndrome de Gilles de la Tourette
À moins que je ne passe à côté de quelque chose d’important, une démonstration contrôlée en aveugle, où le sujet note le mot sur papier puis où l’on compare les résultats plus tard, serait convaincante.
Malheureusement, la démonstration présentée dans l’article semblait aussi être à la portée d’un magicien professionnel ou d’un mentaliste.
Il est sans doute vrai que l’on se rapproche des interfaces cerveau-machine, mais ce cas a quelque chose d’étrange.
Imaginons que, dans quelques années, quelqu’un affirme avoir inventé un scanner d’aéroport capable de détecter les « mauvaises pensées ». Mais il n’existe aucun moyen de le vérifier, et personne n’est responsable des faux positifs ni des faux négatifs. Le résultat est simplement ce que l’opérateur dit qu’il est.
Si suffisamment de gens l’acceptent sans résister, et vont même jusqu’à s’en prendre aux personnes détectées, ce qui est réel n’a plus d’importance. Cela devient simplement un rituel de magie sympathique auquel les gens participent collectivement. J’ai l’impression qu’on a vu des dynamiques similaires dans un passé récent.
Je me demande si cela pourrait aussi fonctionner pour la pensée non verbale.
À partir d’un jeu de données de signaux associés aux activités quotidiennes, ne pourrait-on pas découvrir ce qu’un chien pense ou ce dont il rêve ?
Produire une représentation des expériences vécues par le corps semble être un problème difficile à construire et à interpréter correctement. Cela dit, un jeu de données de signaux liés à l’expérience corporelle pourrait peut-être être annoté plus facilement et de façon robuste avec des descriptions linguistiques, à l’aide de modèles vision-langage.
Un modèle de lecture de l’esprit canin pourrait alors prédire et produire ces descriptions linguistiques.
On peut imaginer savoir précisément dans quel parc son chien veut aller, s’il ressent des signaux précoces et subtils de maladie ou de blessure, ou quelle friandise il veut qu’on lui achète.
Pour information, le modèle de base utilisé par cet article contient un bug dans le code, ce qui a gonflé les résultats de référence.
Le problème est actuellement en cours d’examen.
https://github.com/duanyiqun/DeWave/issues/1
En mettant de côté les implications terrifiantes, cela rend possible quelque chose de très cool : une communication télépathique bidirectionnelle.
On pense un message puis on pense « envoyer », et l’on entend la réponse dans des écouteurs. Avec du clonage vocal en plus, on pourrait même recevoir le message avec la voix de l’expéditeur.
Pour un observateur extérieur, ce serait totalement silencieux et invisible.
- Peut-être même qu’on n’aurait pas besoin d’écouteurs.
  Je serais très curieux de voir ce que donnerait l’utilisation du matériel de ce système comme une sorte de transducteur. Autrement dit, faire tourner le modèle de machine learning d’ici en sens inverse à partir du texte cible, puis réinjecter les signaux électriques de bas niveau obtenus sous forme de signal de stimulation transcrânienne à courant direct via les électrodes EEG.
  Si le résultat était qu’une personne « entende » ce texte comme une pensée verbale dans sa propre voix intérieure, ce serait vraiment fascinant.
- Invisible, à ceci près qu’il faut porter 72 sondes EEG sur la tête.
- Il y a 20 ans, je n’aurais jamais imaginé qu’un jour les smartphones me paraîtraient un peu ennuyeux.
  À l’époque, la GameBoy Color était l’objet le plus cool au monde.
  Tomb Raider sur PsOne avait l’air en haute définition, la haute définition n’existait même pas vraiment, et je pensais qu’on avait atteint le sommet du jeu vidéo.
  L’Apple Pro One essaie de spatialiser l’ordinateur, et nous trouvons la télépathie cool.
  Ce serait bien de pouvoir coder par tranches de 10 secondes, uniquement par la pensée, en courant dans la forêt ou en faisant de la plongée sous-marine.
  Ce serait bien de recevoir une image créée mentalement par quelqu’un d’autre, de la faire apparaître devant soi, puis de la partager avec les gens autour en disant : « Hé, regardez ce que Julia a fait ».
  En réalité, c’est exactement ce qui se passe déjà, simplement de façon plus immédiate. Remplacez le smartphone par l’esprit et l’écran par l’environnement, et vous êtes dans ce monde futur.
  Si c’est la nouveauté qui rend cela cool, alors perforer de nouveau du code sur cartes perforées, ou écrire des lignes dans ed depuis un terminal, devrait aussi être cool, non ?
  Il y a quelques années, je suis passé de la production musicale sur DAW à dix synthétiseurs des années 70-84 et à une machine à bande : c’était beaucoup plus cool, et je n’ai aucune envie de revenir en arrière.
  Mais est-ce que je produis aussi vite qu’avant ? Non.
  Si je veux écrire du code uniquement avec mon esprit et des écrans virtuels flottants, il n’y a qu’une seule raison, une fois passés les quelques jours de coolitude dus à la nouveauté.
  C’est parce que je veux travailler moins — plus précisément, je veux être moins souvent au travail.
  Mais en réalité, on me demandera de produire davantage. Il deviendra obligatoire de travailler par la seule force de l’esprit, avec 5 ou 6 écrans virtuels flottant autour de soi.
  Et ce sera tout. Jusqu’à ce qu’une nouvelle invention ait l’air cool.
- Je ne l’utiliserai jamais, parce que je ne peux pas contrôler mes pensées à 100 %.
  Par exemple les pensées intrusives, les chansons qui tournent en boucle dans la tête, les secrets, ce genre de choses.
- Il faut faire attention à ce que l’on souhaite.
  Les conséquences involontaires de cette technologie dépasseront l’imagination.

BrainGPT convertit les pensées en texte

Une expérience qui lit des phrases avec le seul EEG

Les avantages du non-invasif et ses limites actuelles

À lire aussi

1 commentaires

Avis sur Hacker News