Aperçu de Grok-1.5 Vision : présentation du premier modèle multimodal doté de capacités avancées de traitement visuel

(x.ai)

5 points par brainer 2024-04-14 | Aucun commentaire pour le moment. | Partager sur WhatsApp

• Grok-1.5V, le modèle multimodal de première génération, peut désormais traiter un large éventail d’informations visuelles — notamment des documents, diagrammes, graphiques, captures d’écran et photos — en plus de ses puissantes capacités textuelles.

• Grok-1.5V surpasse les modèles multimodaux existants dans divers domaines, notamment le raisonnement multidisciplinaire, la compréhension de documents, les diagrammes scientifiques, les graphiques, les captures d’écran et les photos, et démontre une excellente capacité à comprendre le monde physique.

• Présentation de RealWorldQA, un nouveau benchmark destiné à évaluer les capacités fondamentales de compréhension de l’espace réel des modèles multimodaux, composé de plus de 700 images accompagnées de questions et de réponses facilement vérifiables.

• Grok-1.5V sera bientôt disponible pour les premiers testeurs et les utilisateurs existants de Grok, tandis que ses capacités multimodales sont activement étendues à divers formats comme l’image, l’audio et la vidéo.

Aperçu de Grok-1.5 Vision : présentation du premier modèle multimodal doté de capacités avancées de traitement visuel

À lire aussi

Aucun commentaire pour le moment.