9 points par xguru 2023-10-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une petite version du modèle multimodal (image + texte) qu’ils utilisent dans leurs produits
  • L’architecture et le processus d’entraînement sont très simples (pas d’encodeur d’image)
  • Conçu pour les agents numériques, il prend en charge des résolutions d’image arbitraires et peut répondre à des questions sur des graphiques, des diagrammes et des interfaces utilisateur
  • Suffisamment rapide pour générer des réponses en moins de 100 ms, même pour de grandes images
  • Bien qu’optimisé pour leurs cas d’usage, il affiche aussi d’excellentes performances sur les benchmarks standard de compréhension d’image
  • Publié sous licence CC-BY-NC

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.