DeepScaleR : dépasser O1-Preview avec un modèle 1.5B grâce au RL
(pretty-radio-b75.notion.site)- DeepScaleR-1.5B-Preview : modèle affiné à partir de Deepseek-R1-Distilled-Qwen-1.5B via l’apprentissage par renforcement (RL)
- Atteint une précision Pass@1 de 43,1 % sur AIME2024 (soit +14,3 % par rapport au modèle de base),
→ dépasse les performances d’OpenAIo1-preview! - Entraîné en 3 800 heures GPU A100 (4 500 $) → un scaling RL 18,42 fois plus efficace que 70 000 heures GPU A100
- Dataset, code et logs d’entraînement publiés en open source → tout le monde peut expérimenter l’extension des capacités via le RL
Renforcer un petit modèle avec le RL
- Deepseek-R1 est un modèle open source comparable à OpenAI
o1, mais son processus d’entraînement exact n’est pas public - Le travail étudie comment développer un modèle de raisonnement puissant avec peu de calcul grâce au RL
- La plus grande limite du RL jusqu’ici est son coût élevé :
→ reproduire l’expérience deDeepseek-R1demande au minimum 70 000 heures GPU A100 - Solution :
- exploiter un modèle de distillation de connaissances performant
- introduire la technique d’« Iterative Lengthening » pour étendre progressivement le RL → réduction du calcul à 3 800 heures GPU A100
Construction du dataset
-
Utilisation de AIME (1984-2023) + AMC (avant 2023) + Omni-MATH + dataset Still
-
Processus de nettoyage des données :
- Extraction des réponses : utilisation de
gemini-1.5-pro-002pour extraire les réponses depuis les corrigés officiels - Déduplication : suppression des problèmes similaires à l’aide d’embeddings
sentence-transformers/all-MiniLM-L6-v2 - Filtrage des problèmes non notables automatiquement : suppression des problèmes difficiles à évaluer automatiquement avec
sympy
- Extraction des réponses : utilisation de
-
Au final, 40 000 paires problème-réponse ont été obtenues, avec une extension des données prévue par la suite
Fonction de récompense (Reward Function)
-
Comme pour Deepseek-R1, application d’un « Outcome Reward Model (ORM) » :
1 point: réponse correcte au bon format (validationsympyréussie)0 point: réponse incorrecte, erreur de format (absence de<think>...</think>, etc.)
-
Pourquoi ne pas utiliser de « Process Reward Model (PRM) » :
- éviter le reward hacking → empêcher l’effet secondaire où le modèle ne cherche qu’à respecter la forme
« Iterative Lengthening » : une technique pour étendre progressivement l’apprentissage RL
Step 1 : démarrer l’apprentissage RL avec un contexte 8K
- Raisons :
- les mauvaises réponses font en moyenne 20 346 tokens, contre 6 395 tokens pour les bonnes → les réponses longues augmentent le risque d’erreur
- entraîner dès le départ avec un long contexte est inefficace → optimisation d’abord en 8K
- Résultats :
- AIME Pass@1 passe de 28,9 % à 33,9 % (+5 %)
- réduction du nombre de tokens inutiles → baisse de 10 484 tokens de la longueur moyenne des réponses
Step 2 : extension à un contexte 16K
- Après 1 000 étapes d’entraînement, le modèle montre une tendance à raisonner plus longuement
- Mais la limite de 8K restreint l’effet de l’apprentissage → extension à 16K
- Avantages :
- plus de 2 fois plus rapide qu’un entraînement directement en 16K (évite un allongement moyen des réponses de 3 000 à 9 000 tokens)
- précision de 38 % atteinte sur AIME2024
Step 3 : « 24K Magic » - amélioration finale des performances
- En 16K, les performances stagnent → dernière extension vers un contexte 24K
- Résultat : une précision Pass@1 de 43,1 % sur AIME2024, dépassant OpenAI
o1-preview!
Résultats d’évaluation finaux
- Le modèle DeepScaleR a été évalué sur plusieurs benchmarks mathématiques, dont AIME, MATH 500, AMC 2023, Minerva Math et OlympiadBench
- Sur AIME2024, DeepScaleR-1.5B-Preview atteint 43,1 % de précision, mieux qu’OpenAI
o1-preview - Sur MATH 500, AMC 2023 et d’autres, ce modèle 1.5B égale ou dépasse aussi des modèles 7B
- Comparé à des travaux antérieurs (rStar, PRIME, SimpleRL basés sur le RL), il montre également la meilleure efficacité
Points clés à retenir (Key Takeaways)
-
Le scaling RL est possible même sur de petits modèles
- Jusqu’ici, on pensait souvent que le RL n’était efficace que pour les grands modèles
- Mais un petit modèle affiné sur des données de haute qualité peut aussi apprendre de solides capacités de raisonnement via le RL
- DeepScaleR passe de 28,9 % à 43,1 % de précision sur AIME
-
La technique d’« Iterative Lengthening » permet une extension de longueur efficace
- Des travaux précédents rapportaient des gains limités au-delà d’un contexte 16K
- L’extension progressive 8K → 16K → 24K permet de maximiser les performances
Conclusion : démocratiser le scaling RL
- DeepScaleR-1.5B-Preview est le premier modèle RL open source à dépasser O1-preview
- Il montre qu’il est possible de construire un modèle performant avec seulement 3 800 heures GPU A100 (4 500 $) → preuve du potentiel de la recherche RL à bas coût
- Le développement de modèles de raisonnement basés sur le RL doit se poursuivre avec la communauté open source
🔗 Ressources open source :
1 commentaires
Avis Hacker News