- HCX Vision fait évoluer le grand modèle de langage (LLM) existant en grand modèle vision-langage (LVLM) en y ajoutant des capacités de compréhension d’image
- Un entraînement supplémentaire sur diverses données visuelles et linguistiques lui permet de comprendre simultanément les images et le texte
- En collectant des données adaptées à différents scénarios, il peut réaliser des tâches de compréhension visuelle et linguistique dans des contextes variés, comme la reconnaissance de documents ou la compréhension de texte présent dans une image
- Fort de l’expérience de Naver dans la technologie OCR, il renforce ses capacités de traitement documentaire et de reconnaissance de caractères afin de fournir des services précis et fiables
- Basé sur HCX, il possède des connaissances sur la langue et la culture coréennes, ce qui lui permet d’obtenir d’excellentes performances dans la compréhension de documents en coréen et de texte présent dans les images
Indicateurs quantitatifs de HyperCLOVA X Vision
- Sur les benchmarks publics, il atteint une performance moyenne de 71,59 %, soit 99,94 % du niveau de GPT-4V
- Sur des sujets d’examens blancs du primaire, du collège et du lycée en Corée, il affiche un taux de bonnes réponses de 83,8 %, supérieur aux 77,8 % de GPT-4o
Fonctions de HyperCLOVA X Vision illustrées par des exemples
- Detailed Image Captioning : reconnaît et décrit avec précision les détails les plus fins d’une image
- Reasoning : infère la situation et prédit l’étape suivante à partir d’une compréhension détaillée de l’image
- Entity Recognition : comprend, à partir de la seule image, des entités significatives comme des personnes, des lieux ou des produits
- Chart Understanding : comprend des données numériques abstraites sous forme de graphiques
- Table Understanding : reconnaît les données tabulaires dans des captures d’écran et comprend leurs relations spatiales
- Document Understanding : comprend des documents dans diverses langues, dont les caractères chinois et le japonais
- Culture and Humor (Meme Understanding) : comprend des mèmes composés de paires image-texte
- Equation Understanding : reconnaît des équations rendues visuellement et les convertit en syntaxe TeX
- Code Generation : génère du code pour produire certaines formes, certains graphiques ou certains diagrammes
- Math Problem Solving : comprend des problèmes de mathématiques incluant des figures et fournit une solution
- Creative Writing (with Image Grounding) : permet une écriture créative fondée sur les éléments présents dans l’image
Perspectives d’avenir de HyperCLOVA X Vision et Sovereign AI
- Grâce à une longueur de contexte de plusieurs millions d’unités, la compréhension de longs films et le traitement vidéo en temps réel pourraient devenir possibles
- Si ces capacités s’accompagnent de technologies de traitement en temps réel, l’IA pourra réagir avec souplesse aux situations en tant qu’entité autonome
- Pour les LVLM aussi, la souveraineté liée aux régions et aux contextes culturels deviendra un enjeu important
- Naver bénéficie d’une position favorable, en tant que première plateforme de Corée du Sud, pour sécuriser efficacement les données nécessaires
En conclusion
- La technologie LVLM de Naver évolue vers une forme de communication encore plus proche
- Des efforts sont faits pour que HCX Vision devienne une IA bénéfique pour des personnes aux parcours variés
- L’espoir est que HCX Vision s’intègre à l’avenir dans la vie quotidienne des gens
Avis de GN⁺
- Grâce à ses capacités de compréhension d’image, HCX Vision devrait permettre une communication plus naturelle avec les humains. Son utilité devrait être particulièrement élevée dans les domaines où l’information visuelle joue un rôle clé
- Comme le montrent ses bonnes performances sur des problèmes d’examen, HCX Vision pourrait être utilisé comme outil d’aide à l’apprentissage dans l’éducation. Il existe toutefois un risque d’affaiblissement de l’autonomie des élèves dans leurs apprentissages
- L’accès aux données et la garantie de souveraineté seront des facteurs importants dans le développement des LVLM. Naver devrait pouvoir développer un LVLM compétitif en s’appuyant sur ses vastes données et sa plateforme
- Si la technologie évolue du niveau actuel de compréhension d’image unique vers la compréhension de films et de vidéos en temps réel, elle pourra être appliquée à de nombreux domaines, comme le divertissement, la sécurité ou la conduite autonome. Une préparation aux défis techniques et éthiques sera également nécessaire
- Par rapport au GPT-4 d’OpenAI, les performances semblent similaires, mais HCX Vision devrait avoir un avantage dans la compréhension du coréen et de la culture coréenne. Pour assurer sa compétitivité mondiale, il faudra améliorer ses capacités de traitement multilingue
Aucun commentaire pour le moment.