- Ollama commence à prendre en charge les modèles multimodaux (texte + image) grâce à un nouveau moteur
- La prise en charge de divers modèles visuels multimodaux comme Llama 4 Scout et Gemma 3 permet désormais de répondre à des questions combinant images et texte
- Le nouveau moteur apporte une meilleure modularité des modèles, une précision accrue et une gestion efficace de la mémoire
- Grâce à la mise en cache des images et à l’exploitation des métadonnées matérielles, il offre des performances d’inférence rapides et une optimisation du matériel
- D’autres extensions sont prévues, notamment la prise en charge de contextes plus longs, l’appel d’outils et le streaming
Prise en charge des modèles multimodaux par Ollama
Avec l’introduction d’un nouveau moteur multimodal, Ollama prend en charge les derniers modèles de vision multimodale capables de traiter conjointement images et texte
Compréhension multimodale globale et raisonnement
Llama 4 Scout
- Ollama prend en charge Llama 4 Scout (109 milliards de paramètres, modèle mixture-of-experts)
- Il est par exemple possible de poser des questions basées sur la localisation dans une image extraite d’une vidéo
- Ex.) détection de divers éléments visuels comme un bâtiment précis, des éléments d’environnement ou des informations d’arrière-plan
- Il est ensuite possible d’enchaîner naturellement avec différentes questions de suivi
- Ex.) « Quelle est la distance entre ce bâtiment et Stanford ? », « Quel est le meilleur moyen d’y aller ? » ; le modèle fournit des informations précises
- Il peut répondre en tenant compte de la situation réelle, avec plusieurs moyens de transport, itinéraires et durées estimées
Gemma 3
- Gemma 3 peut recevoir plusieurs images à la fois et analyser les relations entre elles
- Ex.) il repère rapidement, dans 4 images, des animaux ou plantes présents en commun, la présence d’une scène donnée ou des situations inhabituelles selon différents critères
- Exemple plus ludique : en observant un lama et un dauphin en train de boxer, il peut analyser lequel gagnerait en identifiant les caractéristiques et la dynamique de chacun
Reconnaissance et analyse de documents
Qwen 2.5 VL
- Le modèle Qwen 2.5 VL est utilisé pour la reconnaissance de texte (OCR) et l’extraction d’informations textuelles spécifiques dans les images
- Cas d’usage concrets : extraire les informations d’un chèque ou traduire en anglais des inscriptions verticales chinoises telles que des distiques de printemps
Caractéristiques du moteur multimodal d’Ollama
- Jusqu’à présent, Ollama s’appuyait sur le projet ggml-org/llama.cpp pour prendre en charge les modèles, avec un développement centré sur la facilité d’usage et la portabilité des modèles
- Avec la publication récente de modèles multimodaux par divers laboratoires, Ollama a renforcé son propre moteur afin d’élargir encore la prise en charge des modèles, conformément à son objectif
- Le nouveau moteur traite les modèles multimodaux comme des objets indépendants de premier ordre et favorise davantage la participation des partenaires et de la communauté
Ce que signifie cette évolution du moteur
- Elle améliore la fiabilité et la précision de l’inférence locale d’Ollama et pose les bases du support de nombreux domaines multimodaux à l’avenir (par exemple : voix, génération d’images, génération vidéo, contextes longs, usage amélioré des outils, etc.)
Modularité des modèles
- La « portée d’impact » de chaque modèle est isolée de façon indépendante afin d’améliorer la fiabilité et de permettre aux développeurs d’intégrer facilement de nouveaux modèles
- Les versions précédentes de ggml/llama.cpp ne prenaient en charge que les modèles textuels ; dans le multimodal, le décodeur de texte et l’encodeur de vision sont séparés et exécutés distinctement
- Les images doivent être transformées en embeddings par l’algorithme de vision avant d’être transmises au modèle de texte, ce qui permet d’implémenter une logique allégée propre à chaque modèle
- Dans Ollama, chaque modèle peut séparer ses propres couches de projection d’embeddings conformément à son schéma d’entraînement spécifique
- Les créateurs de modèles peuvent ainsi se concentrer uniquement sur leur modèle et son entraînement, sans patchs supplémentaires ni conditions complexes
- Quelques exemples d’architectures de modèles sont disponibles dans le dépôt GitHub d’Ollama
Précision accrue
- Les grandes images peuvent produire un grand nombre de tokens et dépasser la taille de batch
- Si l’image dépasse le batch, les informations de position peuvent être dégradées
- Lors du traitement des images, Ollama ajoute des métadonnées supplémentaires pour améliorer la précision
- Il gère avec précision des détails comme l’application ou non de l’attention causale, ainsi que le découpage en batch des embeddings d’image et la gestion des frontières
- Si les points de découpe sont inadaptés, la qualité de sortie peut se dégrader ; les critères sont ajustés selon les références des articles de recherche propres à chaque modèle
- D’autres outils d’inférence locale implémentent cela chacun à leur manière, mais Ollama garantit la qualité par un traitement fidèle à la conception et à la méthode d’entraînement de chaque modèle
Optimisation de la gestion mémoire
- Mise en cache des images : une image traitée une fois reste stockée en mémoire, ce qui accélère le traitement des prompts suivants. Tant que les limites mémoire ne sont pas atteintes, l’image est conservée
- Prédiction mémoire et optimisation du cache KV : en collaboration avec des fabricants de matériel et des partenaires OS, Ollama identifie précisément les métadonnées matérielles et vise à optimiser l’usage de la mémoire
- Des validations sont effectuées selon les versions de firmware, et des benchmarks sont menés pour les nouvelles fonctionnalités
- Ollama optimise séparément la causal attention au niveau de chaque modèle et fournit des réglages adaptés individuellement, plutôt qu’au niveau du groupe
- Exemples :
- Gemma 3 de Google DeepMind : l’attention à fenêtre glissante n’alloue qu’une partie de la longueur de contexte, tandis que le reste de la mémoire est alloué à l’inférence simultanée, etc.
- Llama 4 Scout, Maverick, etc. de Meta : prise en charge de la chunked attention, des embeddings rotatifs 2D, etc., avec implémentation de la prise en charge des contextes longs pour les modèles mixture-of-experts
- Exemples :
- Pour les modèles dont les couches d’attention ne sont pas entièrement implémentées, le système peut « fonctionner », mais avec un risque de baisse de qualité des sorties et de résultats anormaux à long terme
Prochaines étapes
- Prise en charge de longueurs de contexte plus importantes
- Renforcement des capacités de raisonnement
- Appel d’outils et réponses en streaming
- Extension des fonctions d’usage direct de l’ordinateur
Remerciements
- Organisations et chercheurs ayant contribué au développement des modèles
- Remerciements à Google DeepMind, Meta Llama, Alibaba Qwen, Mistral, IBM Granite ainsi qu’aux nombreux laboratoires et membres de la communauté ayant contribué au développement de modèles de vision
- GGML
- La bibliothèque de tenseurs de l’équipe GGML est un élément central du moteur d’inférence d’Ollama. En accédant directement à GGML depuis Go, il est possible de concevoir des graphes d’inférence personnalisés et des architectures de modèles complexes
- Partenaires matériels
- Remerciements aux partenaires matériels tels que NVIDIA, AMD, Qualcomm, Intel et Microsoft pour leur collaboration à l’amélioration des performances d’inférence sur divers appareils
1 commentaires
Avis Hacker News