- Llama3-V est le premier modèle multimodal basé sur Llama3
- Llama3-V a été entraîné pour moins de 500 dollars
- Sur les benchmarks, il affiche des performances 10 à 20 % supérieures à celles de Llava, et obtient sur la plupart des métriques des résultats similaires à ceux de modèles fermés 100 fois plus grands
Architecture du modèle
- SigLIP : modèle d'embedding d'image, similaire à CLIP mais utilisant une perte sigmoïde.
- Alignement des embeddings texte : SigLIP est gelé, et un module de projection est utilisé pour aligner les embeddings d'image sur les embeddings texte.
- Ajout de tokens d'image : les embeddings d'image sont ajoutés avant les tokens texte puis fournis à Llama3.
Optimisation de l'inférence
- Mise en cache : les embeddings d'image du modèle SigLIP sont pré-calculés afin d'améliorer l'utilisation du GPU et de réduire le temps d'entraînement et d'inférence.
- Optimisation MPS/MLX : le modèle SigLIP est optimisé pour MPS et traite 32 images par seconde.
Processus d'entraînement
- Pré-calcul des embeddings : les embeddings d'image sont pré-calculés à l'aide de SigLIP.
- Apprentissage de la couche de projection : la couche de projection aligne les embeddings d'image et de texte dans un espace d'embedding multimodal.
- Apprentissage supervisé : après le pré-entraînement, les performances du modèle sont améliorées via un apprentissage supervisé.
Résumé
- Ajout d'un encodeur de vision à Llama3 8B.
- Amélioration de 10 à 20 % par rapport à Llava.
- Performances similaires à celles de modèles 100 fois plus grands comme GPT4v, Gemini Ultra et Claude Opus.
- Fournit un pipeline efficace d'entraînement et d'apprentissage supervisé pour moins de 500 dollars.
L'avis de GN⁺
- Point intéressant : Llama3-V est intéressant car il montre qu'il est possible de construire un modèle multimodal très performant à faible coût.
- Regard critique : on peut s'interroger sur la durabilité d'une approche qui réduit autant la taille et le coût du modèle tout en maintenant les performances.
- Technologies liées : CLIP et DALL-E font partie des modèles offrant des fonctionnalités similaires.
- Points à considérer pour l'adoption : lors de l'adoption d'une nouvelle technologie, il faut prendre en compte la précision du modèle et son efficacité en termes de coût.
- Avantages et inconvénients du choix technologique : il est possible d'obtenir de hautes performances à bas coût, mais il faut aussi considérer la scalabilité du modèle et les coûts de maintenance.
Aucun commentaire pour le moment.