- Reproduction, avec l’IA, d’un service similaire à « Be My Eyes », qui met en relation des bénévoles avec des personnes malvoyantes pour lire ce qui s’affiche à l’écran
- Web app qui, via un backend multimodal, regarde une vidéo et décrit en temps réel ce qu’elle montre
- Exécute le modèle multimodal open source BakLLaVA-1 de SkunkworksAI avec llama.cpp, et restitue la voix via la Web Speech API
4 commentaires
Waouh, quand on voit ce genre de choses, on est fier d’être ingénieur. Ça semble pouvoir vraiment apporter une aide précieuse aux personnes malvoyantes.
Il existe aussi une application appelée « Sullivan Plus », utilisée par le YouTuber OneShot Hansol.
Il semble qu’elle ne se contente pas de reconnaître le texte, mais qu’elle identifie aussi les caractéristiques des objets.
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/
Be My Eyes - redonner la vue aux personnes malvoyantes
Le système d’IA de légendage d’images de Microsoft commence à décrire les photos comme un humain
C’est une super nouvelle, ça me fait vraiment plaisir haha. Ma fille est malvoyante, vous savez.