1 points par GN⁺ 2023-09-29 | 1 commentaires | Partager sur WhatsApp
  • Le 25 septembre 2023, OpenAI a annoncé le lancement de deux nouvelles fonctionnalités de GPT-4, son modèle avancé
  • Ces nouvelles fonctionnalités permettent aux utilisateurs de poser des questions sur des images et d’utiliser la voix comme entrée de requête, faisant ainsi évoluer GPT-4 vers un modèle multimodal
  • GPT-4V(ision), ou GPT-4V, est un modèle multimodal qui permet aux utilisateurs d’importer des images en entrée et de poser des questions à leur sujet, une tâche connue sous le nom de réponse visuelle aux questions (VQA)
  • GPT-4V a été testé sur diverses tâches, notamment la réponse visuelle aux questions, la reconnaissance optique de caractères (OCR), l’OCR mathématique, la détection d’objets, les CAPTCHA, les mots croisés et le sudoku
  • Le modèle a obtenu de bons résultats sur des questions générales liées aux images et a montré, sur certaines images, une compréhension du contexte. Il a également réussi à répondre à des questions sur le film affiché dans une image, même lorsque le texte ne précisait pas de quel film il s’agissait
  • Cependant, GPT-4V a des limites. Il n’a pas été capable de renvoyer avec précision des boîtes englobantes pour la détection d’objets, ce qui indique qu’il n’est pas adapté à cet usage pour le moment. Il lui arrive aussi de produire des hallucinations et de renvoyer des informations inexactes
  • OpenAI a fourni une version alpha de son modèle de vision à un petit groupe d’utilisateurs afin de mener des recherches et d’obtenir, à travers des prompts proposés par des personnes variées, des retours et des enseignements sur le fonctionnement de GPT-4V
  • OpenAI a cherché à identifier, étudier et atténuer plusieurs risques liés au modèle. Par exemple, GPT-4V évite d’identifier des personnes spécifiques dans les images et ne répond pas aux prompts liés à des symboles haineux
  • Malgré ses limites, GPT-4V représente une évolution notable dans les domaines du machine learning et du traitement du langage naturel

1 commentaires

 
GN⁺ 2023-09-29
Avis Hacker News
  • Article sur le potentiel du modèle d’IA GPT-4V, présenté comme une possible excellente interface utilisateur pour divers appareils et applications.
  • Malgré quelques échecs extrêmes, la capacité de l’IA à comprendre et à manipuler des éléments d’interface et des mises en page est impressionnante.
  • GPT-4V peut décrire avec précision des images de bandes dessinées case par case, montrant des capacités avancées de computer vision.
  • La capacité de l’IA à interpréter l’humour dans les images s’est nettement améliorée au cours des dix dernières années.
  • Parmi les limites de GPT-4V, on trouve une mauvaise interprétation de la structure des plateaux de jeu ou l’omission de certains éléments spécifiques dans une image.
  • L’IA ne parvient pas à expliquer correctement une blague sur la stratégie de prix des GPU de NVIDIA.
  • Les réponses de GPT-4V peuvent manquer de cohérence, en particulier lorsqu’il s’agit d’interpréter des devises dans un ensemble de pièces.
  • L’IA hésite souvent à répondre à des questions subjectives, ce qui suscite l’insatisfaction de certains utilisateurs.
  • Malgré ses fonctionnalités avancées, GPT-4V a encore du mal avec des jeux simples comme le morpion.