HyperCLOVA X Vision : ouvre les yeux

(clova.ai)

5 points par GN⁺ 2024-08-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp

HCX Vision fait évoluer le grand modèle de langage (LLM) existant en grand modèle vision-langage (LVLM) en y ajoutant des capacités de compréhension d’image
Un entraînement supplémentaire sur diverses données visuelles et linguistiques lui permet de comprendre simultanément les images et le texte
En collectant des données adaptées à différents scénarios, il peut réaliser des tâches de compréhension visuelle et linguistique dans des contextes variés, comme la reconnaissance de documents ou la compréhension de texte présent dans une image
Fort de l’expérience de Naver dans la technologie OCR, il renforce ses capacités de traitement documentaire et de reconnaissance de caractères afin de fournir des services précis et fiables
Basé sur HCX, il possède des connaissances sur la langue et la culture coréennes, ce qui lui permet d’obtenir d’excellentes performances dans la compréhension de documents en coréen et de texte présent dans les images

Indicateurs quantitatifs de HyperCLOVA X Vision

Sur les benchmarks publics, il atteint une performance moyenne de 71,59 %, soit 99,94 % du niveau de GPT-4V
Sur des sujets d’examens blancs du primaire, du collège et du lycée en Corée, il affiche un taux de bonnes réponses de 83,8 %, supérieur aux 77,8 % de GPT-4o

Detailed Image Captioning : reconnaît et décrit avec précision les détails les plus fins d’une image
Reasoning : infère la situation et prédit l’étape suivante à partir d’une compréhension détaillée de l’image
Entity Recognition : comprend, à partir de la seule image, des entités significatives comme des personnes, des lieux ou des produits
Chart Understanding : comprend des données numériques abstraites sous forme de graphiques
Table Understanding : reconnaît les données tabulaires dans des captures d’écran et comprend leurs relations spatiales
Document Understanding : comprend des documents dans diverses langues, dont les caractères chinois et le japonais
Culture and Humor (Meme Understanding) : comprend des mèmes composés de paires image-texte
Equation Understanding : reconnaît des équations rendues visuellement et les convertit en syntaxe TeX
Code Generation : génère du code pour produire certaines formes, certains graphiques ou certains diagrammes
Math Problem Solving : comprend des problèmes de mathématiques incluant des figures et fournit une solution
Creative Writing (with Image Grounding) : permet une écriture créative fondée sur les éléments présents dans l’image

Grâce à une longueur de contexte de plusieurs millions d’unités, la compréhension de longs films et le traitement vidéo en temps réel pourraient devenir possibles
Si ces capacités s’accompagnent de technologies de traitement en temps réel, l’IA pourra réagir avec souplesse aux situations en tant qu’entité autonome
Pour les LVLM aussi, la souveraineté liée aux régions et aux contextes culturels deviendra un enjeu important
Naver bénéficie d’une position favorable, en tant que première plateforme de Corée du Sud, pour sécuriser efficacement les données nécessaires

La technologie LVLM de Naver évolue vers une forme de communication encore plus proche
Des efforts sont faits pour que HCX Vision devienne une IA bénéfique pour des personnes aux parcours variés
L’espoir est que HCX Vision s’intègre à l’avenir dans la vie quotidienne des gens

Grâce à ses capacités de compréhension d’image, HCX Vision devrait permettre une communication plus naturelle avec les humains. Son utilité devrait être particulièrement élevée dans les domaines où l’information visuelle joue un rôle clé
Comme le montrent ses bonnes performances sur des problèmes d’examen, HCX Vision pourrait être utilisé comme outil d’aide à l’apprentissage dans l’éducation. Il existe toutefois un risque d’affaiblissement de l’autonomie des élèves dans leurs apprentissages
L’accès aux données et la garantie de souveraineté seront des facteurs importants dans le développement des LVLM. Naver devrait pouvoir développer un LVLM compétitif en s’appuyant sur ses vastes données et sa plateforme
Si la technologie évolue du niveau actuel de compréhension d’image unique vers la compréhension de films et de vidéos en temps réel, elle pourra être appliquée à de nombreux domaines, comme le divertissement, la sécurité ou la conduite autonome. Une préparation aux défis techniques et éthiques sera également nécessaire
Par rapport au GPT-4 d’OpenAI, les performances semblent similaires, mais HCX Vision devrait avoir un avantage dans la compréhension du coréen et de la culture coréenne. Pour assurer sa compétitivité mondiale, il faudra améliorer ses capacités de traitement multilingue