Llama 3-V - atteindre des performances comparables à GPT4-V avec un modèle 100 fois plus petit et 500 dollars

(aksh-garg.medium.com)

10 points par GN⁺ 2024-05-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Llama3-V est le premier modèle multimodal basé sur Llama3
Llama3-V a été entraîné pour moins de 500 dollars
Sur les benchmarks, il affiche des performances 10 à 20 % supérieures à celles de Llava, et obtient sur la plupart des métriques des résultats similaires à ceux de modèles fermés 100 fois plus grands

SigLIP : modèle d'embedding d'image, similaire à CLIP mais utilisant une perte sigmoïde.
Alignement des embeddings texte : SigLIP est gelé, et un module de projection est utilisé pour aligner les embeddings d'image sur les embeddings texte.
Ajout de tokens d'image : les embeddings d'image sont ajoutés avant les tokens texte puis fournis à Llama3.

Mise en cache : les embeddings d'image du modèle SigLIP sont pré-calculés afin d'améliorer l'utilisation du GPU et de réduire le temps d'entraînement et d'inférence.
Optimisation MPS/MLX : le modèle SigLIP est optimisé pour MPS et traite 32 images par seconde.

Pré-calcul des embeddings : les embeddings d'image sont pré-calculés à l'aide de SigLIP.
Apprentissage de la couche de projection : la couche de projection aligne les embeddings d'image et de texte dans un espace d'embedding multimodal.
Apprentissage supervisé : après le pré-entraînement, les performances du modèle sont améliorées via un apprentissage supervisé.

Ajout d'un encodeur de vision à Llama3 8B.
Amélioration de 10 à 20 % par rapport à Llava.
Performances similaires à celles de modèles 100 fois plus grands comme GPT4v, Gemini Ultra et Claude Opus.
Fournit un pipeline efficace d'entraînement et d'apprentissage supervisé pour moins de 500 dollars.

L'avis de GN⁺

Point intéressant : Llama3-V est intéressant car il montre qu'il est possible de construire un modèle multimodal très performant à faible coût.
Regard critique : on peut s'interroger sur la durabilité d'une approche qui réduit autant la taille et le coût du modèle tout en maintenant les performances.
Technologies liées : CLIP et DALL-E font partie des modèles offrant des fonctionnalités similaires.
Points à considérer pour l'adoption : lors de l'adoption d'une nouvelle technologie, il faut prendre en compte la précision du modèle et son efficacité en termes de coût.
Avantages et inconvénients du choix technologique : il est possible d'obtenir de hautes performances à bas coût, mais il faut aussi considérer la scalabilité du modèle et les coûts de maintenance.