DeepScaleR : dépasser O1-Preview avec un modèle 1.5B grâce au RL

(pretty-radio-b75.notion.site)

5 points par GN⁺ 2025-02-12 | 1 commentaires | Partager sur WhatsApp

DeepScaleR-1.5B-Preview : modèle affiné à partir de Deepseek-R1-Distilled-Qwen-1.5B via l’apprentissage par renforcement (RL)
Atteint une précision Pass@1 de 43,1 % sur AIME2024 (soit +14,3 % par rapport au modèle de base),
→ dépasse les performances d’OpenAI o1-preview !
Entraîné en 3 800 heures GPU A100 (4 500 $) → un scaling RL 18,42 fois plus efficace que 70 000 heures GPU A100
Dataset, code et logs d’entraînement publiés en open source → tout le monde peut expérimenter l’extension des capacités via le RL

Renforcer un petit modèle avec le RL

Deepseek-R1 est un modèle open source comparable à OpenAI o1, mais son processus d’entraînement exact n’est pas public
Le travail étudie comment développer un modèle de raisonnement puissant avec peu de calcul grâce au RL
La plus grande limite du RL jusqu’ici est son coût élevé :
→ reproduire l’expérience de Deepseek-R1 demande au minimum 70 000 heures GPU A100
Solution :
- exploiter un modèle de distillation de connaissances performant
- introduire la technique d’« Iterative Lengthening » pour étendre progressivement le RL → réduction du calcul à 3 800 heures GPU A100

Construction du dataset

Utilisation de AIME (1984-2023) + AMC (avant 2023) + Omni-MATH + dataset Still
Processus de nettoyage des données :
1. Extraction des réponses : utilisation de gemini-1.5-pro-002 pour extraire les réponses depuis les corrigés officiels
2. Déduplication : suppression des problèmes similaires à l’aide d’embeddings sentence-transformers/all-MiniLM-L6-v2
3. Filtrage des problèmes non notables automatiquement : suppression des problèmes difficiles à évaluer automatiquement avec sympy
Au final, 40 000 paires problème-réponse ont été obtenues, avec une extension des données prévue par la suite

Fonction de récompense (Reward Function)

Comme pour Deepseek-R1, application d’un « Outcome Reward Model (ORM) » :
- 1 point : réponse correcte au bon format (validation sympy réussie)
- 0 point : réponse incorrecte, erreur de format (absence de <think>...</think>, etc.)
Pourquoi ne pas utiliser de « Process Reward Model (PRM) » :
- éviter le reward hacking → empêcher l’effet secondaire où le modèle ne cherche qu’à respecter la forme

« Iterative Lengthening » : une technique pour étendre progressivement l’apprentissage RL

Step 1 : démarrer l’apprentissage RL avec un contexte 8K

Raisons :
- les mauvaises réponses font en moyenne 20 346 tokens, contre 6 395 tokens pour les bonnes → les réponses longues augmentent le risque d’erreur
- entraîner dès le départ avec un long contexte est inefficace → optimisation d’abord en 8K
Résultats :
- AIME Pass@1 passe de 28,9 % à 33,9 % (+5 %)
- réduction du nombre de tokens inutiles → baisse de 10 484 tokens de la longueur moyenne des réponses

Step 2 : extension à un contexte 16K

Après 1 000 étapes d’entraînement, le modèle montre une tendance à raisonner plus longuement
Mais la limite de 8K restreint l’effet de l’apprentissage → extension à 16K
Avantages :
- plus de 2 fois plus rapide qu’un entraînement directement en 16K (évite un allongement moyen des réponses de 3 000 à 9 000 tokens)
- précision de 38 % atteinte sur AIME2024

Step 3 : « 24K Magic » - amélioration finale des performances

En 16K, les performances stagnent → dernière extension vers un contexte 24K
Résultat : une précision Pass@1 de 43,1 % sur AIME2024, dépassant OpenAI o1-preview !

Résultats d’évaluation finaux

Le modèle DeepScaleR a été évalué sur plusieurs benchmarks mathématiques, dont AIME, MATH 500, AMC 2023, Minerva Math et OlympiadBench
Sur AIME2024, DeepScaleR-1.5B-Preview atteint 43,1 % de précision, mieux qu’OpenAI o1-preview
Sur MATH 500, AMC 2023 et d’autres, ce modèle 1.5B égale ou dépasse aussi des modèles 7B
Comparé à des travaux antérieurs (rStar, PRIME, SimpleRL basés sur le RL), il montre également la meilleure efficacité

Points clés à retenir (Key Takeaways)

Le scaling RL est possible même sur de petits modèles
- Jusqu’ici, on pensait souvent que le RL n’était efficace que pour les grands modèles
- Mais un petit modèle affiné sur des données de haute qualité peut aussi apprendre de solides capacités de raisonnement via le RL
- DeepScaleR passe de 28,9 % à 43,1 % de précision sur AIME
La technique d’« Iterative Lengthening » permet une extension de longueur efficace
- Des travaux précédents rapportaient des gains limités au-delà d’un contexte 16K
- L’extension progressive 8K → 16K → 24K permet de maximiser les performances

Conclusion : démocratiser le scaling RL

DeepScaleR-1.5B-Preview est le premier modèle RL open source à dépasser O1-preview
Il montre qu’il est possible de construire un modèle performant avec seulement 3 800 heures GPU A100 (4 500 $) → preuve du potentiel de la recherche RL à bas coût
Le développement de modèles de raisonnement basés sur le RL doit se poursuivre avec la communauté open source

🔗 Ressources open source :

1 commentaires

GN⁺ 2025-02-12

Avis Hacker News

Ce modèle a été ajusté au benchmark pour résoudre un problème précis, et ses performances sont inférieures à O1-Preview sur d'autres tâches. À moins de vouloir résoudre précisément ce problème, cela ne mérite pas vraiment l'attention. Cela reste néanmoins impressionnant
Les petits modèles renforcés vont gagner. Regardez notre civilisation, nos entreprises, nos équipes : elles sont composées de nombreuses personnes spécialisées, pas d'un seul génie hypertrophié
Le problème actuel est l'accent excessif mis sur les benchmarks. Dans l'idéal, il faudrait les évaluer par rapport aux KPI utilisateurs
Ce qui compte, c'est une formule simple et fiable pour entraîner un modèle de 1B capable d'offrir de solides performances sur des tâches spécifiques. Cela n'existait pas auparavant. Les appareils edge vont devenir bien plus intelligents
Je suis peut-être très naïf, mais y a-t-il vraiment des gens qui font confiance à ce benchmark ? Ont-ils du sens ? Ils semblent trop faciles à manipuler et ne donnent pas l'impression d'être un moyen fiable de savoir comment les modèles se comparent réellement entre eux. Dès qu'on introduit des problèmes similaires aux benchmarks mais que le modèle n'a jamais vus, les performances semblent chuter fortement
Y a-t-il un bon prompt simple pour tester les nouveaux modèles de « raisonnement » ? « Compte la lettre R dans le mot strawberry » devient un peu lassant
J'essaie cela en local avec Ollama et la plus petite version GGUF quantifiée (769MB)
J'ai obtenu la bonne réponse après avoir consulté les réponses ici : https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52. Mais il a commis une erreur importante au départ
Les modèles CoT peuvent-ils appeler des fonctions externes ? Et s'ils avaient accès à une calculatrice ?
Ce serait vraiment bien si on pouvait obtenir des modèles non censurés de cette manière
En réalité, c'est plutôt idiot. Je lui ai demandé de décoder une séquence ASCII et il a donné une réponse absurde. J'ai essayé phi-4 Q4 et il a trouvé. 9GB contre 2GB (raisonnement). Il semble qu'on ne puisse pas faire tenir assez d'informations dans 2GB, donc à part résoudre des problèmes de maths génériques ou savoir ce qu'il y avait dans les données d'entraînement, cela ne semble pas très utile
À l'université, on appelait franchement ça du surapprentissage. Il ne semble pas bien fonctionner en dehors du jeu d'évaluation

DeepScaleR : dépasser O1-Preview avec un modèle 1.5B grâce au RL

Renforcer un petit modèle avec le RL

Construction du dataset

Fonction de récompense (Reward Function)

« Iterative Lengthening » : une technique pour étendre progressivement l’apprentissage RL

Step 1 : démarrer l’apprentissage RL avec un contexte 8K

Step 2 : extension à un contexte 16K

Step 3 : « 24K Magic » - amélioration finale des performances

Résultats d’évaluation finaux

Points clés à retenir (Key Takeaways)

Conclusion : démocratiser le scaling RL

À lire aussi

1 commentaires

Avis Hacker News