- Repo officiel de « FastVLM: Efficient Vision Encoding for Vision Language Models », présenté par Apple à la CVPR 2025
- FastViTHD montre des performances de réduction du nombre de tokens et de diminution du temps d’encodage des images haute résolution
- Le plus petit modèle atteint des résultats 85 fois plus rapides que LLaVA-OneVision-0.5B avec un encodeur 3,4 fois plus petit
- Le grand modèle affiche des performances supérieures à Cambrian-1-8B avec une vitesse 7,9 fois plus rapide
- Une application de démonstration fonctionnant sur des appareils mobiles comme l’iPhone est fournie
Importance et avantages du projet FastVLM
- FastVLM est une implémentation open source officielle pour les modèles vision-langage (Vision Language Model, VLM)
- Il offre des avantages remarquables en matière de vitesse et d’efficacité par rapport aux encodeurs visuels existants
- Il est particulièrement utile sur différents matériels, notamment dans les environnements Apple Silicon et mobiles
- Il est possible de choisir et d’utiliser directement des modèles préentraînés de tailles et de performances variées
- Par rapport à d’autres projets, sa petite taille de modèle garantit des réponses temps réel optimisées et une faible consommation de ressources matérielles
Principales caractéristiques
- FastViTHD est un encodeur visuel innovant à architecture hybride, qui réduit le nombre de tokens en sortie et diminue fortement le temps d’encodage des images haute résolution
- Le plus petit modèle, FastVLM-0.5B, offre un TTFT (temps jusqu’au premier token) 85 fois plus rapide que LLaVA-OneVision-0.5B et un encodeur 3,4 fois plus petit
- Le grand modèle FastVLM-7B, associé au LLM Qwen2-7B, affiche un TTFT 7,9 fois plus rapide et de meilleures performances avec un encodeur d’image unique face aux SOTA récents comme Cambrian-1-8B
- Une application de démonstration fonctionnant dans un environnement mobile réel (iOS) est également fournie, ce qui permet de valider immédiatement l’usage de la technologie
Informations sur les modèles (Model Zoo)
- Des modèles FastVLM de différentes tailles (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) sont proposés en versions étape 2 et étape 3
- Des fichiers de checkpoints PyTorch sont officiellement fournis pour chaque modèle
- Les utilisateurs peuvent utiliser les commandes officielles pour télécharger en lot plusieurs modèles dans le répertoire
checkpoints
Exemples d’utilisation (Usage Example)
- Les checkpoints PyTorch déjà entraînés peuvent être testés facilement et rapidement en inférence avec le script predict.py
- En fournissant une image et un prompt (question) via les commandes d’exemple, on peut obtenir une description de l’image ou une réponse à la question posée
Prise en charge d’Apple Silicon et des appareils mobiles
- Un guide explique le processus distinct d’export du modèle et de quantification pour l’inférence sur Apple Silicon
- Des fichiers de checkpoints de version directement optimisée pour Apple Silicon sont officiellement distribués
- Un guide de développement d’application et le code source utilisables directement sur iPhone, iPad et Mac sont indiqués dans le dossier
/app
Informations complémentaires et open source
- Le lien arXiv officiel de l’article FastVLM ainsi qu’un format de citation pour l’article de la CVPR 2025 sont fournis
- Le code repose sur plusieurs projets open source, et les contributions ainsi que les informations de licence sont indiquées séparément
- Avant toute utilisation des modèles et du code, il faut impérativement vérifier la licence (fichier de licence et licence du modèle)
1 commentaires
Commentaires Hacker News