• Grok-1.5V, le modèle multimodal de première génération, peut désormais traiter un large éventail d’informations visuelles — notamment des documents, diagrammes, graphiques, captures d’écran et photos — en plus de ses puissantes capacités textuelles.
• Grok-1.5V surpasse les modèles multimodaux existants dans divers domaines, notamment le raisonnement multidisciplinaire, la compréhension de documents, les diagrammes scientifiques, les graphiques, les captures d’écran et les photos, et démontre une excellente capacité à comprendre le monde physique.
• Présentation de RealWorldQA, un nouveau benchmark destiné à évaluer les capacités fondamentales de compréhension de l’espace réel des modèles multimodaux, composé de plus de 700 images accompagnées de questions et de réponses facilement vérifiables.
• Grok-1.5V sera bientôt disponible pour les premiers testeurs et les utilisateurs existants de Grok, tandis que ses capacités multimodales sont activement étendues à divers formats comme l’image, l’audio et la vidéo.
Aucun commentaire pour le moment.