- Une petite version du modèle multimodal (image + texte) qu’ils utilisent dans leurs produits
- L’architecture et le processus d’entraînement sont très simples (pas d’encodeur d’image)
- Conçu pour les agents numériques, il prend en charge des résolutions d’image arbitraires et peut répondre à des questions sur des graphiques, des diagrammes et des interfaces utilisateur
- Suffisamment rapide pour générer des réponses en moins de 100 ms, même pour de grandes images
- Bien qu’optimisé pour leurs cas d’usage, il affiche aussi d’excellentes performances sur les benchmarks standard de compréhension d’image
- Publié sous licence CC-BY-NC
Aucun commentaire pour le moment.