Présentation de PaliGemma 2
(developers.googleblog.com)Google a annoncé PaliGemma 2, le dernier modèle vision-langage de la gamme Gemma. PaliGemma 2 s’appuie sur le modèle Gemma 2 existant et ajoute des capacités de compréhension et d’interaction avec les images, élargissant ainsi les possibilités de diverses applications d’IA.
- Performances évolutives : il propose différentes tailles de modèle (3B, 10B, 28B paramètres) et résolutions (224px, 448px, 896px), afin d’offrir des performances optimisées pour une grande variété de tâches.
- Génération de légendes longues : il génère des légendes détaillées et adaptées au contexte pour les images, allant au-delà de la simple identification d’objets pour décrire les actions, les émotions et l’histoire globale de la scène.
- Extension à de nouveaux domaines : il affiche d’excellentes performances dans des domaines variés, comme la reconnaissance de formules chimiques, la reconnaissance de partitions, le raisonnement spatial et la génération de comptes rendus de radiographies thoraciques.
- Mise à niveau et fine-tuning simplifiés : les utilisateurs existants de PaliGemma peuvent effectuer la mise à niveau facilement, et le modèle peut être affiné simplement pour l’adapter à des tâches spécifiques et à des jeux de données particuliers.
Expansion de l’écosystème Gemmaverse :
Depuis le lancement de PaliGemma, la gamme Gemma s’est rapidement développée en Gemmaverse, un écosystème dynamique comptant des dizaines de milliers de modèles et d’applications. Divers exemples d’innovation, comme les avancées de ColPali dans la recherche visuelle de documents, les techniques de fine-tuning de RoboFlow et les progrès du suivi d’objets en temps réel, illustrent le potentiel de Gemmaverse.
Aucun commentaire pour le moment.