13 points par xguru 2023-11-07 | 4 commentaires | Partager sur WhatsApp
  • Reproduction, avec l’IA, d’un service similaire à « Be My Eyes », qui met en relation des bénévoles avec des personnes malvoyantes pour lire ce qui s’affiche à l’écran
  • Web app qui, via un backend multimodal, regarde une vidéo et décrit en temps réel ce qu’elle montre
  • Exécute le modèle multimodal open source BakLLaVA-1 de SkunkworksAI avec llama.cpp, et restitue la voix via la Web Speech API

4 commentaires

 
botplaysdice 2023-11-08

Waouh, quand on voit ce genre de choses, on est fier d’être ingénieur. Ça semble pouvoir vraiment apporter une aide précieuse aux personnes malvoyantes.

 
hi098123 2023-11-08

Il existe aussi une application appelée « Sullivan Plus », utilisée par le YouTuber OneShot Hansol.
Il semble qu’elle ne se contente pas de reconnaître le texte, mais qu’elle identifie aussi les caractéristiques des objets.
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/

 
hero512 2023-11-07

C’est une super nouvelle, ça me fait vraiment plaisir haha. Ma fille est malvoyante, vous savez.