Aperçu de Moondream 3 : des capacités de raisonnement de pointe à une vitesse révolutionnaire
(moondream.ai)- Moondream 3 exploite une architecture 9B MoE avec 2B de paramètres actifs pour atteindre à la fois des performances de pointe en raisonnement visuel et une inférence rapide et efficace
- Ce modèle a été conçu en mettant l’accent sur une architecture spécialisée pour les tâches de vision du monde réel, la facilité d’entraînement, la vitesse élevée et le faible coût
- Il affiche de solides performances dans un large éventail d’applications concrètes, notamment la détection d’objets, le pointing, la sortie structurée et l’OCR
- Il prend en charge une longueur de contexte de 32k tokens, ce qui renforce fortement sa capacité à traiter des questions-réponses complexes
- Les premiers benchmarks montrent un avantage en vitesse de réponse et en efficacité face aux grands modèles existants
Introduction et objectifs principaux
- Moondream 3 est un nouveau modèle vision-langage basé sur une architecture 9B Mixture-of-Experts (MoE) avec 2B de paramètres actifs
- Par rapport aux modèles existants, il vise à combiner des capacités de raisonnement visuel de pointe avec une inférence très rapide et rentable
- Pour résoudre des problèmes du monde réel, il se concentre sur quatre domaines clés
- Raisonnement visuel : l’objectif est d’offrir d’excellentes performances sur des tâches réelles sans sacrifier les capacités pratiques malgré une taille de modèle réduite
- Facilité d’entraînement : l’accent est mis sur un fine-tuning simple pour des tâches de vision spécialisées, comme l’interprétation d’images médicales ou la détection de comportements anormaux dans une foule
- Vitesse : prise en charge de hautes performances pour des applications d’IA visuelle nécessitant du temps réel, comme le tri de produits ou la surveillance par drone
- Faible coût : en tenant compte des environnements de traitement massif d’images, le modèle cherche à minimiser les coûts d’exploitation même à grande échelle
- Bien qu’il s’agisse d’un modèle 9B MoE, seuls 2B de paramètres actifs sont mobilisés, ce qui ouvre la voie à une inférence temps réel rapide et économique
- L’utilisation du Reinforcement Learning renforce l’efficacité de l’entraînement et permet une forte adaptabilité, même dans des environnements complexes
- La longueur de contexte a été largement étendue de 2k à 32k, améliorant la gestion des contextes complexes
Cas d’usage concrets de Moondream 3
-
Détection d’objets (Object Detection)
- Moondream 3 va au-delà de la simple classification par label et peut comprendre des requêtes complexes ainsi qu’effectuer une détection d’objets adaptée au contexte
- Comparé aux modèles frontier, il offre des performances différenciées sur des fonctions essentielles comme la détection d’objets et le pointing
- Exemple 1 : détection d’un « coureur portant des chaussettes violettes »
- Exemple 2 : détection d’un élément d’interface « saisie de quantité »
-
Pointing (fonction de désignation)
- Moondream 3 intègre nativement une fonction de désignation précise (pointing) d’objets spécifiques dans une image
- Exemple 3 : pointing sur l’objet « bouteille »
- Exemple 4 : sélection de « l’ustensile le plus adapté pour des pâtes »
- Moondream 3 intègre nativement une fonction de désignation précise (pointing) d’objets spécifiques dans une image
-
Sortie structurée (Structured Output)
- Grâce au contexte 32k, ses capacités de génération de sorties à structure complexe sont améliorées et il peut renvoyer, avec un prompt minimal, des résultats structurés comme du JSON
- Exemple 5 : génération d’un tableau JSON avec les champs dog_id, fur_color, harness_color pour des informations sur des chiens de traîneau
- Grâce au contexte 32k, ses capacités de génération de sorties à structure complexe sont améliorées et il peut renvoyer, avec un prompt minimal, des résultats structurés comme du JSON
-
OCR (reconnaissance optique de caractères)
- Les performances OCR ont été fortement améliorées par rapport à la version précédente, ce qui ouvre la voie à diverses applications concrètes
- Bien qu’il subsiste certaines limites sur les textes très petits, le modèle affiche une grande précision pour l’extraction d’informations structurées comme les tableaux
- Exemple 6 : conversion en tableau Markdown d’un tableau de réactions chimiques
Benchmarks
- Moondream 3 affiche, sur divers benchmarks, des performances comparables à celles des VLM de premier plan
- En revanche, il continue de démontrer des avantages concrets en matière de vitesse de réponse face aux grands modèles
- Des résultats de benchmark plus complets ainsi qu’une comparaison des temps d’inférence seront publiés ultérieurement
Notes techniques sur Moondream 3
- Modèle Mixture-of-Experts parcimonieux et finement granulaire où, parmi 64 experts, 8 sont activés à chaque token
- Application de la technique d’initialisation drop upcycling à partir de Moondream 2 (2B Dense)
- Prise en charge effective d’une longueur de contexte complète de 32k tokens pendant l’entraînement
- Intégration d’échantillons à long contexte dans le pré-entraînement pour une utilisation efficace sans étape supplémentaire d’extension du contexte
- Renforcement de la compréhension des longs contextes via le temperature scaling pendant l’entraînement et l’ajustement de l’attention structurée
- Prise en charge de deux modes, raisonnement logique et explication non logique, avec une spécialisation marquée pour le raisonnement ancré dans l’image (grounding)
- Un entraînement fondé sur le Reinforcement Learning (RL) améliore progressivement la dépendance aux exemples de raisonnement visuel et l’adaptabilité
- La load balancing et la perte orthogonale du routeur encouragent la spécialisation par token, puis la phase de post-entraînement renforce la stabilité
- L’amélioration de composants d’attention comme la suppression LSE et le temperature tuning accroît la précision et la clarté
Conclusion et suite
- Cet aperçu peut sembler lent en raison d’un code d’inférence non optimisé, et un entraînement supplémentaire du modèle est actuellement en cours
- La version finale devrait fortement améliorer les performances, les benchmarks et la vitesse d’inférence
- Le projet inclut également la création de divers modèles dérivés, dont des versions quantifiées et distilled plus petites
- Le modèle est disponible sur Moondream Playground et HuggingFace, et les retours comme les questions peuvent être partagés sur Discord
Remarque : les modèles frontier ne prennent pas en charge la détection d’objets intrinsèque, un prompt modèle a donc été utilisé pour la comparaison
1 commentaires
Avis Hacker News
Depuis le tag de version 2025-01-09, je n’ai pas vraiment ressenti les améliorations de performances annoncées ; les releases suivantes ont amélioré le recall, mais avec une forte baisse de la precision, ce qui est dommage
Pour mieux traiter ce genre de problème, ce serait bien que les modèles Vision-Language comme Moondream remontent aussi la confiance par classe
J’apprécie aussi énormément le fait qu’il y ait une API dédiée à la détection d’objets, je n’ai pas vu ça sur d’autres modèles ou wrappers
J’attends avec impatience les résultats des optimisations d’inférence de Moondream 3, félicitations à l’équipe
Le fondateur Vik vaut aussi le coup d’être suivi sur X
Mais en voyant les résultats des trois grands labos, j’ai été surpris de constater à quel point Claude et OpenAI s’en sortent mal
Gemini est moins bon que Moondream, mais c’est quand même le seul à atteindre un niveau qu’on peut qualifier d’utilisable
Je ne pensais pas que l’écart de performances serait aussi grand
ChatGPT se trompe sans arrêt, et Claude dit seulement qu’il ne peut pas lire la face supérieure du dé parce qu’elle serait cachée (alors qu’elle ne l’est pas)
On dirait qu’Anthropic, OpenAI et d’autres voudraient absolument intégrer ce type de technologie à leur plateforme
Les créateurs méritent de devenir riches, et combiné à la portée des grandes organisations, cela rendrait l’usage visuel des LLM bien plus utile
Moi aussi je préférais Gemini pour l’automatisation des bounding boxes, donc si un modèle 9B le dépasse, c’est extrêmement prometteur
Moondream 2 était sous licence Apache 2, mais la preview de 3 est sous BSL ; je me demande si ce changement de licence est permanent
C’est vraiment rapide et précis, j’attends aussi la 3 avec impatience
Il y a bien 5 000 requêtes gratuites, mais avant de connecter un vrai service, ma priorité absolue est de vérifier si le pricing est raisonnable
Ils sont en train d’optimiser pour réduire encore le coût d’inférence et se préparer à proposer le meilleur prix possible
Si vous voulez être informé rapidement du lancement, vous pouvez aussi suivre @moondreamai sur X
Le fait de n’activer que 2B de paramètres tout en conservant des performances de niveau 8B pourrait vraiment changer la donne pour le déploiement sur edge devices
J’ai beaucoup d’expérience en déploiement de modèles de vision en production où la latence est critique, et ce type d’activation sparse pourrait considérablement réduire les freins à l’adoption liés au coût d’inférence des grands modèles vision-language
La compréhension des graphiques est aussi un point très prometteur pour les workflows d’automatisation documentaire
Je me demande si quelqu’un a testé la régularité du modèle avec d’autres qualités d’image ou conditions d’éclairage
Dans ce genre de conditions, les petits modèles ont souvent plus de mal que les modèles flagship
Je me demande si quelqu’un l’a essayé pour du contrôle d’ordinateur/navigateur, et aussi à quel point il gère bien les graphes et graphiques
Nous essayons aussi de l’entraîner davantage pour obtenir un fonctionnement end-to-end dans un environnement agent avant la release finale
C’est pour cela que nous avons aussi augmenté la longueur de contexte
La compréhension des graphiques couvre différents types, mais c’est plutôt solide
Nous avons publié le benchmark ChartQA sur le blog ; c’est comparable à GPT5* et légèrement meilleur que Gemini 2.5 Flash
Plus précisément, j’aimerais entendre une explication supplémentaire sur l’impact du MoE sur l’activation en inférence et sa signification concrète du point de vue de la latence
En comptant le KV cache, une config CPU avec 32 Go de RAM semble être l’option la moins chère tout en restant raisonnablement rapide
Comme le nombre de paramètres actifs est faible, les performances sur CPU restent correctes