- Le 25 septembre 2023, OpenAI a annoncé le lancement de deux nouvelles fonctionnalités de GPT-4, son modèle avancé
- Ces nouvelles fonctionnalités permettent aux utilisateurs de poser des questions sur des images et d’utiliser la voix comme entrée de requête, faisant ainsi évoluer GPT-4 vers un modèle multimodal
- GPT-4V(ision), ou GPT-4V, est un modèle multimodal qui permet aux utilisateurs d’importer des images en entrée et de poser des questions à leur sujet, une tâche connue sous le nom de réponse visuelle aux questions (VQA)
- GPT-4V a été testé sur diverses tâches, notamment la réponse visuelle aux questions, la reconnaissance optique de caractères (OCR), l’OCR mathématique, la détection d’objets, les CAPTCHA, les mots croisés et le sudoku
- Le modèle a obtenu de bons résultats sur des questions générales liées aux images et a montré, sur certaines images, une compréhension du contexte. Il a également réussi à répondre à des questions sur le film affiché dans une image, même lorsque le texte ne précisait pas de quel film il s’agissait
- Cependant, GPT-4V a des limites. Il n’a pas été capable de renvoyer avec précision des boîtes englobantes pour la détection d’objets, ce qui indique qu’il n’est pas adapté à cet usage pour le moment. Il lui arrive aussi de produire des hallucinations et de renvoyer des informations inexactes
- OpenAI a fourni une version alpha de son modèle de vision à un petit groupe d’utilisateurs afin de mener des recherches et d’obtenir, à travers des prompts proposés par des personnes variées, des retours et des enseignements sur le fonctionnement de GPT-4V
- OpenAI a cherché à identifier, étudier et atténuer plusieurs risques liés au modèle. Par exemple, GPT-4V évite d’identifier des personnes spécifiques dans les images et ne répond pas aux prompts liés à des symboles haineux
- Malgré ses limites, GPT-4V représente une évolution notable dans les domaines du machine learning et du traitement du langage naturel
1 commentaires
Avis Hacker News