Fuyu-8B, le LLM multimodal open source dévoilé par Adept

xguru · 2023-10-23T10:37:02+09:00

Une petite version du modèle multimodal (image + texte) qu’ils utilisent dans leurs produits L’architecture et le processus d’entraînement sont très simples (pas d’encodeur d’image) Conçu pour les agents numériques, il prend en charge des résolutions d’image arbitraires et peut répondre à des questions sur des graphiques, des diagrammes et des interfaces utilisateur Suffisamment rapide pour générer des réponses en moins de 100 ms, même pour de grandes images Bien qu’optimisé pour leurs cas d’usage, il affiche aussi d’excellentes performances sur les benchmarks standard de compréhension d’image Publié sous licence CC-BY-NC

(adept.ai)

9 points par xguru 2023-10-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une petite version du modèle multimodal (image + texte) qu’ils utilisent dans leurs produits
L’architecture et le processus d’entraînement sont très simples (pas d’encodeur d’image)
Conçu pour les agents numériques, il prend en charge des résolutions d’image arbitraires et peut répondre à des questions sur des graphiques, des diagrammes et des interfaces utilisateur
Suffisamment rapide pour générer des réponses en moins de 100 ms, même pour de grandes images
Bien qu’optimisé pour leurs cas d’usage, il affiche aussi d’excellentes performances sur les benchmarks standard de compréhension d’image
Publié sous licence CC-BY-NC

Fuyu-8B, le LLM multimodal open source dévoilé par Adept

À lire aussi

Aucun commentaire pour le moment.