Aperçu de Moondream 3 : des capacités de raisonnement de pointe à une vitesse révolutionnaire

(moondream.ai)

14 points par GN⁺ 2025-09-28 | 1 commentaires | Partager sur WhatsApp

Moondream 3 exploite une architecture 9B MoE avec 2B de paramètres actifs pour atteindre à la fois des performances de pointe en raisonnement visuel et une inférence rapide et efficace
Ce modèle a été conçu en mettant l’accent sur une architecture spécialisée pour les tâches de vision du monde réel, la facilité d’entraînement, la vitesse élevée et le faible coût
Il affiche de solides performances dans un large éventail d’applications concrètes, notamment la détection d’objets, le pointing, la sortie structurée et l’OCR
Il prend en charge une longueur de contexte de 32k tokens, ce qui renforce fortement sa capacité à traiter des questions-réponses complexes
Les premiers benchmarks montrent un avantage en vitesse de réponse et en efficacité face aux grands modèles existants

Introduction et objectifs principaux

Moondream 3 est un nouveau modèle vision-langage basé sur une architecture 9B Mixture-of-Experts (MoE) avec 2B de paramètres actifs
Par rapport aux modèles existants, il vise à combiner des capacités de raisonnement visuel de pointe avec une inférence très rapide et rentable
Pour résoudre des problèmes du monde réel, il se concentre sur quatre domaines clés
- Raisonnement visuel : l’objectif est d’offrir d’excellentes performances sur des tâches réelles sans sacrifier les capacités pratiques malgré une taille de modèle réduite
- Facilité d’entraînement : l’accent est mis sur un fine-tuning simple pour des tâches de vision spécialisées, comme l’interprétation d’images médicales ou la détection de comportements anormaux dans une foule
- Vitesse : prise en charge de hautes performances pour des applications d’IA visuelle nécessitant du temps réel, comme le tri de produits ou la surveillance par drone
- Faible coût : en tenant compte des environnements de traitement massif d’images, le modèle cherche à minimiser les coûts d’exploitation même à grande échelle
Bien qu’il s’agisse d’un modèle 9B MoE, seuls 2B de paramètres actifs sont mobilisés, ce qui ouvre la voie à une inférence temps réel rapide et économique
L’utilisation du Reinforcement Learning renforce l’efficacité de l’entraînement et permet une forte adaptabilité, même dans des environnements complexes
La longueur de contexte a été largement étendue de 2k à 32k, améliorant la gestion des contextes complexes

Cas d’usage concrets de Moondream 3

Détection d’objets (Object Detection)
- Moondream 3 va au-delà de la simple classification par label et peut comprendre des requêtes complexes ainsi qu’effectuer une détection d’objets adaptée au contexte
- Comparé aux modèles frontier, il offre des performances différenciées sur des fonctions essentielles comme la détection d’objets et le pointing
  - Exemple 1 : détection d’un « coureur portant des chaussettes violettes »
  - Exemple 2 : détection d’un élément d’interface « saisie de quantité »
Pointing (fonction de désignation)
- Moondream 3 intègre nativement une fonction de désignation précise (pointing) d’objets spécifiques dans une image
  - Exemple 3 : pointing sur l’objet « bouteille »
  - Exemple 4 : sélection de « l’ustensile le plus adapté pour des pâtes »
Sortie structurée (Structured Output)
- Grâce au contexte 32k, ses capacités de génération de sorties à structure complexe sont améliorées et il peut renvoyer, avec un prompt minimal, des résultats structurés comme du JSON
  - Exemple 5 : génération d’un tableau JSON avec les champs dog_id, fur_color, harness_color pour des informations sur des chiens de traîneau
OCR (reconnaissance optique de caractères)
- Les performances OCR ont été fortement améliorées par rapport à la version précédente, ce qui ouvre la voie à diverses applications concrètes
- Bien qu’il subsiste certaines limites sur les textes très petits, le modèle affiche une grande précision pour l’extraction d’informations structurées comme les tableaux
  - Exemple 6 : conversion en tableau Markdown d’un tableau de réactions chimiques

Benchmarks

Moondream 3 affiche, sur divers benchmarks, des performances comparables à celles des VLM de premier plan
En revanche, il continue de démontrer des avantages concrets en matière de vitesse de réponse face aux grands modèles
Des résultats de benchmark plus complets ainsi qu’une comparaison des temps d’inférence seront publiés ultérieurement

Notes techniques sur Moondream 3

Modèle Mixture-of-Experts parcimonieux et finement granulaire où, parmi 64 experts, 8 sont activés à chaque token
Application de la technique d’initialisation drop upcycling à partir de Moondream 2 (2B Dense)
Prise en charge effective d’une longueur de contexte complète de 32k tokens pendant l’entraînement
Intégration d’échantillons à long contexte dans le pré-entraînement pour une utilisation efficace sans étape supplémentaire d’extension du contexte
Renforcement de la compréhension des longs contextes via le temperature scaling pendant l’entraînement et l’ajustement de l’attention structurée
Prise en charge de deux modes, raisonnement logique et explication non logique, avec une spécialisation marquée pour le raisonnement ancré dans l’image (grounding)
Un entraînement fondé sur le Reinforcement Learning (RL) améliore progressivement la dépendance aux exemples de raisonnement visuel et l’adaptabilité
La load balancing et la perte orthogonale du routeur encouragent la spécialisation par token, puis la phase de post-entraînement renforce la stabilité
L’amélioration de composants d’attention comme la suppression LSE et le temperature tuning accroît la précision et la clarté

Conclusion et suite

Cet aperçu peut sembler lent en raison d’un code d’inférence non optimisé, et un entraînement supplémentaire du modèle est actuellement en cours
La version finale devrait fortement améliorer les performances, les benchmarks et la vitesse d’inférence
Le projet inclut également la création de divers modèles dérivés, dont des versions quantifiées et distilled plus petites
Le modèle est disponible sur Moondream Playground et HuggingFace, et les retours comme les questions peuvent être partagés sur Discord

Remarque : les modèles frontier ne prennent pas en charge la détection d’objets intrinsèque, un prompt modèle a donc été utilisé pour la comparaison

1 commentaires

GN⁺ 2025-09-28

Avis Hacker News

J’utilise Moondream 2 de façon vraiment très utile, surtout pour auto-étiqueter des jeux de données de détection d’objets sur de nouvelles classes, puis distiller vers un CNN bien plus petit avec une précision similaire
Depuis le tag de version 2025-01-09, je n’ai pas vraiment ressenti les améliorations de performances annoncées ; les releases suivantes ont amélioré le recall, mais avec une forte baisse de la precision, ce qui est dommage
Pour mieux traiter ce genre de problème, ce serait bien que les modèles Vision-Language comme Moondream remontent aussi la confiance par classe
J’apprécie aussi énormément le fait qu’il y ait une API dédiée à la détection d’objets, je n’ai pas vu ça sur d’autres modèles ou wrappers
J’attends avec impatience les résultats des optimisations d’inférence de Moondream 3, félicitations à l’équipe
Le fondateur Vik vaut aussi le coup d’être suivi sur X
- Réponse : si vous avez des exemples de problèmes de precision/recall, n’hésitez pas à envoyer un mail à vik@m87.ai
Je m’en suis aussi servi pour l’auto-étiquetage de datasets, et ça marche vraiment bien
Les performances du modèle Moondream sont vraiment impressionnantes
Mais en voyant les résultats des trois grands labos, j’ai été surpris de constater à quel point Claude et OpenAI s’en sortent mal
Gemini est moins bon que Moondream, mais c’est quand même le seul à atteindre un niveau qu’on peut qualifier d’utilisable
Je ne pensais pas que l’écart de performances serait aussi grand
- Fait amusant, seul Gemini lit correctement les chiffres d’un dé à 20 faces
  ChatGPT se trompe sans arrêt, et Claude dit seulement qu’il ne peut pas lire la face supérieure du dé parce qu’elle serait cachée (alors qu’elle ne l’est pas)
- C’est étonnant que Moondream soit déjà aussi bon sans avoir encore été racheté par une big tech
  On dirait qu’Anthropic, OpenAI et d’autres voudraient absolument intégrer ce type de technologie à leur plateforme
  Les créateurs méritent de devenir riches, et combiné à la portée des grandes organisations, cela rendrait l’usage visuel des LLM bien plus utile
- Gemini est vraiment excellent sur les tâches proches de l’OCR, mais sur la plupart des autres tâches liées aux images, ses performances ont tendance à nettement chuter
Le résultat est vraiment superbe
Moi aussi je préférais Gemini pour l’automatisation des bounding boxes, donc si un modèle 9B le dépasse, c’est extrêmement prometteur
Moondream 2 était sous licence Apache 2, mais la preview de 3 est sous BSL ; je me demande si ce changement de licence est permanent
- D’après la licence de Moondream3, elle passera à Apache 2 après 2 ans
Sur paper.design, nous utilisons moondream2 pour ajouter automatiquement des labels aux images uploadées par les utilisateurs (pour l’arborescence de calques)
C’est vraiment rapide et précis, j’attends aussi la 3 avec impatience
J’ai passé 5 minutes à chercher les informations tarifaires de Moondream cloud, mais elles semblent carrément inexistantes (du moins avant inscription)
Il y a bien 5 000 requêtes gratuites, mais avant de connecter un vrai service, ma priorité absolue est de vérifier si le pricing est raisonnable
- Le lancement du cloud arrive bientôt
  Ils sont en train d’optimiser pour réduire encore le coût d’inférence et se préparer à proposer le meilleur prix possible
  Si vous voulez être informé rapidement du lancement, vous pouvez aussi suivre @moondreamai sur X
Je trouve le choix de l’architecture MoE particulièrement intéressant
Le fait de n’activer que 2B de paramètres tout en conservant des performances de niveau 8B pourrait vraiment changer la donne pour le déploiement sur edge devices
J’ai beaucoup d’expérience en déploiement de modèles de vision en production où la latence est critique, et ce type d’activation sparse pourrait considérablement réduire les freins à l’adoption liés au coût d’inférence des grands modèles vision-language
La compréhension des graphiques est aussi un point très prometteur pour les workflows d’automatisation documentaire
Je me demande si quelqu’un a testé la régularité du modèle avec d’autres qualités d’image ou conditions d’éclairage
Dans ce genre de conditions, les petits modèles ont souvent plus de mal que les modèles flagship
Modèle impressionnant
Je me demande si quelqu’un l’a essayé pour du contrôle d’ordinateur/navigateur, et aussi à quel point il gère bien les graphes et graphiques
- La compétence « point » a été entraînée sur énormément de données d’interface utilisateur, et beaucoup d’utilisateurs l’emploient avec un plus gros modèle driver pour l’automatisation d’UI
  Nous essayons aussi de l’entraîner davantage pour obtenir un fonctionnement end-to-end dans un environnement agent avant la release finale
  C’est pour cela que nous avons aussi augmenté la longueur de contexte
  La compréhension des graphiques couvre différents types, mais c’est plutôt solide
  Nous avons publié le benchmark ChartQA sur le blog ; c’est comparable à GPT5* et légèrement meilleur que Gemini 2.5 Flash
  - Cela dit, GPT5 fonctionnera probablement bien sur une gamme beaucoup plus large de types de graphes/graphiques, alors que Moondream est davantage adapté à une IA visuelle là où GPT5 est difficile à utiliser pour des raisons de prix et de latence
- Je l’utilise pour l’étiquetage de datasets et j’ai hâte de voir ce que ça donnera
Je me demande si la notion de 2B de paramètres actifs correspond à l’inférence par token, et comment cela change d’échelle quand la longueur de contexte varie
Plus précisément, j’aimerais entendre une explication supplémentaire sur l’impact du MoE sur l’activation en inférence et sa signification concrète du point de vue de la latence
Quelqu’un peut recommander le matériel le moins cher permettant de faire tourner ce modèle en local à un niveau correct ?
- Il n’existe pas encore de version quantifiée, donc rien que les poids demandent environ 20 Go de mémoire
  En comptant le KV cache, une config CPU avec 32 Go de RAM semble être l’option la moins chère tout en restant raisonnablement rapide
  Comme le nombre de paramètres actifs est faible, les performances sur CPU restent correctes
Je suis curieux de voir des résultats comparant les performances des modèles Qwen3-VL et Moondream

Aperçu de Moondream 3 : des capacités de raisonnement de pointe à une vitesse révolutionnaire

Introduction et objectifs principaux

Cas d’usage concrets de Moondream 3

Détection d’objets (Object Detection)

Pointing (fonction de désignation)

Sortie structurée (Structured Output)

OCR (reconnaissance optique de caractères)

Benchmarks

Notes techniques sur Moondream 3

Conclusion et suite

À lire aussi

1 commentaires

Avis Hacker News