VibeThinker-3B : un modèle 3B qui dépasse les performances de raisonnement d’Opus 4.5 avec SFT+GRPO

(arxiv.org)

2 points par GN⁺ 5 시간 전 | 1 commentaires | Partager sur WhatsApp

VibeThinker-3B est un petit modèle dense qui expérimente jusqu’où il est possible de compresser un raisonnement vérifiable avec seulement 3B de paramètres
Le pipeline d’entraînement combine, sur la base du post-entraînement Spectrum-to-Signal, un fine-tuning supervisé par curriculum, un apprentissage par renforcement multi-domaines et une auto-distillation hors ligne
Il a obtenu 94,3 sur AIME26, 97,1 avec CLR, ainsi que 80,2 en Pass@1 sur LiveCodeBench v6, et un taux d’acceptation de 96,1 % sur de récents concours LeetCode non publiés
Tout en se situant à un niveau de performance comparable ou supérieur à des modèles flagship bien plus grands comme DeepSeek V3.2, GLM-5 et Gemini 3 Pro, il conserve un contrôle strict des instructions avec 93,4 sur IFEval
L’hypothèse Parametric Compression-Coverage Hypothesis estime que le raisonnement vérifiable peut être compressé dans un petit reasoning core, tandis que les connaissances ouvertes et les capacités généralistes nécessitent une couverture paramétrique plus large

Une expérience poussant le raisonnement vérifiable dans un modèle 3B

VibeThinker-3B est un petit modèle dense de 3B de paramètres
L’objectif est de vérifier jusqu’où il est possible d’augmenter les performances de raisonnement vérifiable même dans un cadre strict de petit modèle
Le post-entraînement est construit sur le paradigme Spectrum-to-Signal
- fine-tuning supervisé basé sur un curriculum
- apprentissage par renforcement multi-domaines
- auto-distillation hors ligne
Ces résultats s’inscrivent dans la continuité d’une extension de travaux précédents sur un modèle 1.5B

L’éventail de performances observé dans les évaluations

Le modèle affiche des performances de niveau frontier sur les évaluations en mathématiques, codage et exécution d’instructions
- AIME26 : 94,3
- AIME26 + CLR : 97,1
- LiveCodeBench v6 : Pass@1 80,2
- concours LeetCode récents non publiés : taux d’acceptation de 96,1 %
- IFEval : 93,4
CLR signifie Claim-Level Reliability Assessment et correspond à une stratégie de test-time scaling au niveau des claims
Les comparaisons de la Figure 1 incluent Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 et Claude Opus 4.5
D’après les résultats rapportés, VibeThinker-3B peut se situer au même niveau de performance, voire au-dessus, de modèles flagship beaucoup plus grands comme DeepSeek V3.2, GLM-5 et Gemini 3 Pro
Dans la comparaison par nombre de paramètres, VibeThinker-3B est indiqué à 3B
- Qwen3.5-4B : 4B
- GPT-OSS-20B : 20B
- MiniMax M2.7 : 229B
- DeepSeek V3.2 : 671B
- GLM-5 : 744B
- Kimi K2.5 : 1T
La Parametric Compression-Coverage Hypothesis considère les compact models non comme un simple substitut plus efficace au déploiement, mais comme une voie complémentaire vers des performances de niveau frontier dans une zone de capacités à forte densité paramétrique

1 commentaires

GN⁺ 5 시간 전

Commentaires sur Hacker News

Je me demande si, au fond, ce n’est rien de plus qu’un petit modèle entraîné à bien raisonner
Un peu comme une personne intelligente qui ne connaît pas forcément un sujet précis, mais qui fait des recherches sérieuses dès qu’on lui donne des outils
Ce serait vraiment idéal si, au lieu de faire apprendre toutes les connaissances au modèle, on pouvait simplement l’entraîner à apprendre, puis le laisser se débrouiller avec un petit appareil comme un Pi Zero et une connexion Internet
- Je rêve de quelque chose comme ça depuis longtemps
  Au lieu d’encoder toutes les connaissances dans les paramètres, je me demandais ce que donnerait un modèle de même taille qui consacrerait l’essentiel de sa capacité au raisonnement
  Il suffirait de lui donner la capacité de naviguer sur Internet et de lui faire consulter les spécifications de langage, la documentation et les bonnes pratiques
  Je ne vois pas pourquoi mon agent de code devrait connaître la population de New York, la recette du cheesecake ou l’espérance de vie d’une autruche
  Il suffirait de lui donner le minimum de connaissances nécessaire pour penser et raisonner, puis de le laisser découvrir le reste par lui-même
  Dommage que les grands modèles de langage actuels restent au fond de la prédiction de tokens, et ne fonctionnent donc pas ainsi
- Je pense plutôt l’inverse
  Le raisonnement est un sous-produit émergent d’un entraînement sur l’ensemble des connaissances, et même sous cette forme le modèle ne “sait” rien vraiment : il ne fait que générer des tokens
  Sans entraînement sur un vaste jeu de données rempli de nombreux mots et de liens plausibles entre eux, il ne peut pas former des connexions appropriées entre les mots et les phrases, et donc ne peut pas raisonner non plus
  Si on entraîne un petit modèle sur un jeu de données minuscule, on obtient vite des sorties incohérentes
  Ce serait amusant d’optimiser un dataset pour tirer le maximum de génération à partir d’un minimum de données, mais pour une entreprise qui veut produire un modèle de pointe, il est de loin plus rentable d’ajouter quelques GPU que de faire ce genre d’efforts
- On peut sans doute entraîner un modèle à plutôt bien manier la logique booléenne, la logique modale et les mathématiques, mais il y a encore un grand fossé avant d’en arriver à “penser à propos des choses”
  Par exemple, même une question très simple comme mettre une balle dans une tasse, retourner la tasse sur la table, puis soulever la tasse pour la mettre dans une boîte, exige des connaissances non explicites dans l’énoncé, notamment sur la gravité
  Dès qu’on essaie de définir rigoureusement tous les termes, on tombe vite dans un marécage de complexité
  Comprendre des instructions demande des connaissances de base sur les choses, et si l’on sait seulement raisonner, on n’a aucune intuition de ce qu’il faut accomplir
  Il existe une rupture assez nette entre l’immense réserve de textes sur laquelle le modèle est entraîné et sa capacité à examiner solidement un sujet donné
  Je me demande aussi s’il est possible d’orienter une trajectoire par l’ordre de l’entraînement
  Par exemple, si l’on commence par TinyStories pour acquérir une littératie de base, puis des textes de mathématiques et de philosophie, ensuite de psychologie et de sociologie, et enfin une masse de données comprenant aussi des dialogues, des textes rageurs, du code et des romans, est-ce que cela donnerait un modèle très différent d’un autre ayant commencé par le jeu d’acteur, l’écriture créative et la fantasy, avant de recevoir au final le même grand dataset ?
  Je me demande aussi dans quelle mesure les capacités actuelles influencent la contextualisation des nouvelles données d’entraînement
- En réalité, c’est l’inverse
  Il a été entraîné à résoudre des problèmes en produisant de longs raisonnements pas à pas (CoT), et il le fait bien, mais il n’a presque aucune capacité d’appel d’outils et gère à peine plus d’un ou deux messages
  Il suffit de lire l’avertissement tout en haut de https://huggingface.co/WeiboAI/VibeThinker-3B
- Je suis obsédé par cette idée depuis un moment, et les modèles de la famille Qwen distillés à partir du raisonnement d’Opus fonctionnent plutôt bien
  Je pense que le prochain front, c’est l’optimisation des modèles pour les rendre plus capables avec moins de matériel
  Ce sera encore plus intéressant si on arrive en plus à du real-time learning
Avec ces percées sur les modèles petits mais puissants, on a l’impression qu’ils commencent à dépasser la simple puissance de feu capitalistique des fournisseurs de modèles de pointe
J’ai envie d’encourager les plus petits, mais je me demande s’il n’est pas encore trop tôt pour l’affirmer
À l’inverse, on peut aussi se dire que les benchmarks actuels ne capturent peut-être pas encore assez efficacement la réussite dans les flux de travail réels des développeurs
- Je pense que les gens vont continuer à être surpris par les capacités des petits modèles à l’avenir
  En revanche, si on essaie d’avoir une conversation avec ce modèle, il risque d’échouer et de perdre sa cohérence
  Par contre, il est vraiment très bon pour raisonner sur des problèmes de maths et les résoudre
- Depuis quelques jours, j’ai commencé à faire tourner qwen3.6:35b sur un desktop Framework, et c’est assez impressionnant
  Ça tourne bien, et ça me rappelle le premier modèle Claude que j’avais utilisé
  C’est le premier modèle local pour agent de code que j’ai essayé qui fonctionne vraiment de façon exploitable, donc je suis très enthousiaste
- J’ai parfois l’impression que l’optimisation ne fait que commencer
Pour qu’un modèle soit utile, même sur une tâche étroite, il lui faut un niveau d’intelligence de base
Peut-on apprendre à conduire à un enfant de 5 ans ? De 10 ans ? De 12 ans ?
Pour conduire, il faut savoir lire, évaluer des conditions comme le verglas ou la pluie, et anticiper un enfant qui surgit en courant derrière un ballon
Les humains acquièrent ce socle de connaissances vers le milieu de l’adolescence
Même un petit modèle a besoin d’un certain bagage de connaissances de base pour bien fonctionner, même si le domaine semble restreint en apparence
Il n’a sans doute pas besoin de toute la connaissance rare des frontier models, mais il y a probablement un seuil minimal plus élevé qu’on ne l’imagine au départ
- Dire que « pour conduire, il faut savoir lire » est totalement faux
  Il faut peut-être savoir lire pour réussir l’examen du permis, mais dans le monde entier beaucoup de personnes analphabètes conduisent très bien
  Ce n’est pas pour rien que les panneaux de signalisation courants sont conçus pour être reconnus à leur forme et à leur couleur
- Il y a quelque chose d’assez étrange dans cette manière de réduire un comportement humain fondamental à une sorte de jeu vidéo sur ordinateur en texte seul
  La conduite elle-même repose surtout sur la mémoire musculaire liée à la manipulation du véhicule, et c’est pourquoi les gens qui conduisent beaucoup peuvent rouler sur de longues distances en mode quasi automatique tout en pensant à tout autre chose
  C’est aussi une forme de connaissance, mais elle ne s’acquiert que par la répétition
  Bien sûr, conduire dans le trafic demande bien plus, notamment une compréhension de base du code de la route, mais l’essentiel de la conduite repose sur la mémoire musculaire, la compréhension du véhicule et la prédiction de ce qui va se passer
  Si les grands singes sont doués pour ce genre de choses, c’est parce qu’ils ont évolué pendant des millions d’années en utilisant leur corps et en observant les résultats
  Il existait aussi un GIF d’un orang-outan conduisant une voiturette de golf, mais je ne sais pas à quel point c’était réel
  Il est peut-être plus utile de voir les modèles non comme de futurs humains clonés, mais comme des outils dotés de capacités précises dans des domaines précis
  De la même façon qu’il serait absurde de demander à Opus 4.8 de conduire une voiture, il est absurde d’attendre d’un petit modèle d’image pour appareil edge qu’il écrive un roman
  Il faut les considérer comme des outils conçus pour un usage spécifique
- Ce sujet serait intéressant dans le cadre d’une vraie étude formelle
  Le vrai obstacle me semble être a) le jugement, b) les réflexes physiques et la force
  Quand j’étais enfant, je connaissais déjà le verglas, la neige et la pluie
  Je faisais du vélo toute l’année, et j’avais particulièrement peu confiance dans mon contrôle du vélo sur la neige ou les surfaces mouillées, surtout aux changements de saison
  Cette expérience m’a ensuite servi quand j’ai appris à conduire en hiver dans le nord du Canada, et j’ai appliqué les mêmes leçons à la conduite
  Dans un environnement sans conséquences, j’ai vu des enfants manier de vrais simulateurs ou des simulations de conduite en jeu vidéo avec une précision surprenante
  Des enfants de 9 à 11 ans se montraient parfois bien plus confiants que des conducteurs adultes dans les simulations et les jeux
  Les enfants savent qu’il n’y a pas de conséquences dans une simulation, et à moins d’une motivation supplémentaire, ils se comportent en conséquence
  À l’inverse, chez les adultes qui conduisent régulièrement, la mémoire musculaire et les idées préconçues dominent les décisions, même en jeu
  Je me demande combien d’entraînement et d’exposition il faut pour qu’un enfant dépasse son incapacité à percevoir les limites réelles et les conséquences de la conduite et des erreurs de conduite, et inversement combien il en faut pour qu’un conducteur expérimenté mais novice en jeu cesse d’appliquer son expérience réelle à une simulation sans conséquences
- À 10 ans, c’est certainement possible, et à 5 ans c’est limite, mais pas irréaliste
  Savoir lire n’est pas nécessaire pour conduire une voiture
  En revanche, conduire sur la route avec d’autres personnes est une tout autre histoire
- Pour bien conduire, il faut aussi trouver le bon équilibre exploration-exploitation
  Un enfant de trois ans cherchera probablement trop à explorer dans des situations où les erreurs sont dangereuses
  Cela demande non seulement des connaissances, mais aussi des systèmes de contrôle qui se développent avec le cortex préfrontal
  Les grands modèles de langage ne savent pas encore exercer beaucoup de ce type de contrôle
Il faut noter que ce résultat est réservé à Python
Dans d’autres langages, il ne sera probablement pas aussi bon
C’est une bonne nouvelle de voir apparaître davantage de petits modèles de langage spécialisés par domaine
Un modèle Mixture of Experts (MoE) spécialisé en programmation pourrait bien fonctionner sur plusieurs langages
- S’il écrit du Python qui fonctionne au lieu d’imiter un programmeur Java en bourrant le code de classes et d’accesseurs, c’est déjà mieux qu’Opus
- Il y a beaucoup de confusion sur ce sur quoi ce modèle est réellement focalisé
  Ce modèle est un expert peu coûteux pour les tâches de raisonnement vérifiables en monde fermé, comme les mathématiques ou les problèmes de code auto-contenus
  « Monde fermé » signifie que les informations nécessaires sont déjà présentes dans le contexte
  Ce n’est pas un agent outillé qui va découvrir le contexte manquant
  « Vérifiable » signifie qu’il est difficile de produire la réponse, mais facile de la vérifier
  Il n’est donc pas adapté à la recherche ouverte, aux tâches d’agent sur l’ensemble d’un dépôt, aux questions-réponses factuelles ou à la génération de SVG
  C’est plus proche d’un petit module de raisonnement pour des problèmes bien délimités
Ce qui est intéressant avec un modèle aussi petit, c’est qu’il devrait pouvoir tenir sur une seule puce Taalas
HC1 exécute déjà le modèle Llama 3.1 8B
On est déjà arrivé au point où l’on peut faire tourner un raisonnement correct sur un ASIC, et à une vitesse énorme
- Si Taalas pouvait faire tourner un modèle 8B vraiment fort pour améliorer ses sorties par la réflexion à 16K tokens par seconde, ce serait énorme
J’essaie ce modèle comme remplaçant de GPT-5 nano pour des revues de sécurité de code source, avec un certain succès
Il tourne avec vLLM sur une RTX 3090 24GB VRAM
Comme indiqué sur la model card, il n’est pas bon pour les sorties structurées, mais je contourne cela dans mon test harness
- Impossible de forcer une sortie structurée via constrained generation ?
- Je suis curieux de savoir comment tu le contournes
J’ai essayé de générer le SVG classique du pélican, mais ce fut un échec total : on n’obtenait que des rectangles et des cercles noirs
- Ça semble être un résultat prévisible
  Le point clé semble être qu’on a réduit des connaissances du type « un pélican a des ailes » tout en préservant les capacités de raisonnement essentielles
  « Cette découverte soutient l’hypothèse de compression-couverture des paramètres. Selon cette hypothèse, le raisonnement vérifiable peut être compressé dans un petit cœur de raisonnement, mais la connaissance en domaine ouvert et les capacités généralistes exigent une large couverture paramétrique sur l’ensemble des faits, des concepts et des scénarios de longue traîne »
- Réessaie, mais en expliquant soigneusement ce qu’est un vélo, ce qu’est un pélican, et comment un pélican s’assoit sur un vélo
  Ensuite, il suffit de lui donner les balises SVG et les références documentaires que tu veux qu’il utilise
  Le résultat que j’ai obtenu est ici : https://9ol.es/tmp/pelican.png
  Le prompt est ici : https://9ol.es/tmp/prompt_pelican.txt
  Le modèle utilisé est prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
- Ce n’est pas un modèle de raisonnement plutôt qu’un modèle de génération artistique ?
On ne peut toujours pas faire confiance aux évaluations et aux benchmarks
Comment prouver que le jeu de test était vraiment composé d’exemples non publiés ?
À mon avis, la seule façon de prouver que ces modèles sont aussi bons qu’annoncé, c’est d’attendre de voir s’ils sont réellement adoptés
- Pour le prouver, il faudrait au final résoudre le problème de la boîte noire, donc se rapprocher d’un objectif de transparence
  S’il faut implémenter quelque chose comme un raisonneur, alors il faut concevoir et implémenter la meilleure architecture possible pour cela, puis la tester
C’est vraiment agréable de voir arriver des petits modèles de langage aussi compétents
Cela dit, on peut lire ceci sur Hugging Face :
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Donc on ne peut pas simplement le brancher sur un harnais de code comme pi.dev
Meilleur en raisonnement qu’Opus 4.5 ?
Prompt : « Si A va vers B, puis que B va ensuite vers C, A peut-il envoyer quelque chose à C ? »
La réponse était la suivante :
« Il faut l’interpréter de la manière la plus appropriée. Cette phrase peut être une énigme portant sur la notion d’envoyer quelque chose, par exemple passer une balle, et sur les relations.
Scénario : A donne quelque chose à B, et B le transmet à C.
Question : A peut-il aussi donner la même chose à C ?
Réponse : ce n’est possible que si A peut obtenir une deuxième copie, par exemple si l’objet a été dupliqué. Sinon, après l’avoir remis à B, A ne l’a plus, donc sans copie il ne peut pas l’« envoyer ». »
Il y avait aussi beaucoup d’explications inutiles et de « scénarios » peu convaincants
- J’ai lancé la même requête, et même si la sortie est énorme, on dirait qu’il est en train de raisonner pour résoudre l’ambiguïté de la phrase
  Malgré tout, il donne la bonne réponse
  Et si on compare au passage la quantité d’opérations en virgule flottante utilisée pour arriver à la réponse avec celle d’Opus, ça reste à mon avis un bilan positif
  Mon intuition, c’est qu’un modèle de la taille d’Opus a encodé en interne des raccourcis pour gérer ce genre de cas ambigus, alors que ce modèle semble avoir appris un programme qui raisonne à la volée sur les cas limites
  C’est plus proche d’une différence entre intelligence cristallisée et intelligence fluide
  Les modèles de frontière donnent l’impression de mémoriser les probabilités, tandis que VibeThinker donne l’impression de calculer à la volée
- La description du contrôle qualité dit ceci :
  « Contrôle qualité multi-étapes. »
  « Filtrage de la qualité des requêtes basé sur de grands modèles de langage. Nous utilisons des grands modèles de langage performants pour évaluer la qualité des requêtes et éliminer les échantillons dont l’explication est incomplète, dont les conditions sont déraisonnables, dont la logique est erronée ou qui ne permettent pas d’évaluer efficacement les points de connaissance visés. »
- Moi-même, en tant qu’humain, je ne sais pas comment interpréter ce prompt
- Si A va vers B et que B va ensuite vers C, est-ce que C connaît A ?

VibeThinker-3B : un modèle 3B qui dépasse les performances de raisonnement d’Opus 4.5 avec SFT+GRPO

Une expérience poussant le raisonnement vérifiable dans un modèle 3B

L’éventail de performances observé dans les évaluations

À lire aussi

1 commentaires

Commentaires sur Hacker News