- PaliGemma est un modèle multimodal qui affiche d’excellentes performances sur des tâches comme la détection et la segmentation d’objets, se distinguant d’autres VLM (modèles vision-langage)
- Il peut être affiné pour améliorer ses performances sur des tâches spécifiques
- Annoncé lors de l’événement Google I/O 2024. Il combine un modèle de vision appelé SigLIP et un grand modèle de langage appelé Gemma.
- Il est composé d’un décodeur Transformer et d’un encodeur d’images Vision Transformer, prend en entrée à la fois des images et du texte, génère du texte en sortie et prend en charge plusieurs langues
- Le modèle, relativement compact avec 3 milliards de paramètres combinés, autorise un usage commercial et peut être affiné pour des tâches comme le sous-titrage d’images/de courtes vidéos, le question-réponse visuel, la lecture de texte, la détection d’objets et la segmentation d’objets
- Il s’agit d’un VLM single-turn, qui fonctionne le mieux lorsqu’il est affiné pour un cas d’usage précis
- Il convient à des tâches comme la génération de légendes d’images, le sous-titrage vidéo, les réponses à des questions visuelles et la segmentation fine
- Il affiche d’excellentes performances sur divers travaux de computer vision comme l’OCR, la compréhension de documents, le question-réponse visuel (VQA) et la détection d’objets
- Il est utile pour créer des applications personnalisées difficiles à réaliser avec des modèles fermés, et offre aussi des performances de premier plan ainsi qu’une excellente efficacité coût dans le domaine de l’OCR
- En revanche, en raison des limites des VLM, il n’est pas adapté aux problèmes ouverts, complexes et subtils reposant sur du raisonnement, et sa sensibilité aux prompts exige une utilisation prudente
- La publication de PaliGemma devrait faire fortement progresser l’IA multimodale. C’est un modèle open léger, permettant à chacun d’entraîner son propre grand modèle vision-langage sur mesure et de le déployer à des fins commerciales
- Les précédents LMM étaient très coûteux et nécessitaient une forte puissance de calcul, mais PaliGemma surmonte ces limites et constitue un modèle innovant pour créer des applications d’IA personnalisées
Aucun commentaire pour le moment.