10 points par GN⁺ 2024-05-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Llama3-V est le premier modèle multimodal basé sur Llama3
  • Llama3-V a été entraîné pour moins de 500 dollars
  • Sur les benchmarks, il affiche des performances 10 à 20 % supérieures à celles de Llava, et obtient sur la plupart des métriques des résultats similaires à ceux de modèles fermés 100 fois plus grands

Architecture du modèle

  • SigLIP : modèle d'embedding d'image, similaire à CLIP mais utilisant une perte sigmoïde.
  • Alignement des embeddings texte : SigLIP est gelé, et un module de projection est utilisé pour aligner les embeddings d'image sur les embeddings texte.
  • Ajout de tokens d'image : les embeddings d'image sont ajoutés avant les tokens texte puis fournis à Llama3.

Optimisation de l'inférence

  • Mise en cache : les embeddings d'image du modèle SigLIP sont pré-calculés afin d'améliorer l'utilisation du GPU et de réduire le temps d'entraînement et d'inférence.
  • Optimisation MPS/MLX : le modèle SigLIP est optimisé pour MPS et traite 32 images par seconde.

Processus d'entraînement

  • Pré-calcul des embeddings : les embeddings d'image sont pré-calculés à l'aide de SigLIP.
  • Apprentissage de la couche de projection : la couche de projection aligne les embeddings d'image et de texte dans un espace d'embedding multimodal.
  • Apprentissage supervisé : après le pré-entraînement, les performances du modèle sont améliorées via un apprentissage supervisé.

Résumé

  • Ajout d'un encodeur de vision à Llama3 8B.
  • Amélioration de 10 à 20 % par rapport à Llava.
  • Performances similaires à celles de modèles 100 fois plus grands comme GPT4v, Gemini Ultra et Claude Opus.
  • Fournit un pipeline efficace d'entraînement et d'apprentissage supervisé pour moins de 500 dollars.

L'avis de GN⁺

  • Point intéressant : Llama3-V est intéressant car il montre qu'il est possible de construire un modèle multimodal très performant à faible coût.
  • Regard critique : on peut s'interroger sur la durabilité d'une approche qui réduit autant la taille et le coût du modèle tout en maintenant les performances.
  • Technologies liées : CLIP et DALL-E font partie des modèles offrant des fonctionnalités similaires.
  • Points à considérer pour l'adoption : lors de l'adoption d'une nouvelle technologie, il faut prendre en compte la précision du modèle et son efficacité en termes de coût.
  • Avantages et inconvénients du choix technologique : il est possible d'obtenir de hautes performances à bas coût, mais il faut aussi considérer la scalabilité du modèle et les coûts de maintenance.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.