5 points par GN⁺ 2025-02-12 | 1 commentaires | Partager sur WhatsApp
  • DeepScaleR-1.5B-Preview : modèle affiné à partir de Deepseek-R1-Distilled-Qwen-1.5B via l’apprentissage par renforcement (RL)
  • Atteint une précision Pass@1 de 43,1 % sur AIME2024 (soit +14,3 % par rapport au modèle de base),
    → dépasse les performances d’OpenAI o1-preview !
  • Entraîné en 3 800 heures GPU A100 (4 500 $) → un scaling RL 18,42 fois plus efficace que 70 000 heures GPU A100
  • Dataset, code et logs d’entraînement publiés en open source → tout le monde peut expérimenter l’extension des capacités via le RL

Renforcer un petit modèle avec le RL

  • Deepseek-R1 est un modèle open source comparable à OpenAI o1, mais son processus d’entraînement exact n’est pas public
  • Le travail étudie comment développer un modèle de raisonnement puissant avec peu de calcul grâce au RL
  • La plus grande limite du RL jusqu’ici est son coût élevé :
    → reproduire l’expérience de Deepseek-R1 demande au minimum 70 000 heures GPU A100
  • Solution :
    • exploiter un modèle de distillation de connaissances performant
    • introduire la technique d’« Iterative Lengthening » pour étendre progressivement le RL → réduction du calcul à 3 800 heures GPU A100

Construction du dataset

  • Utilisation de AIME (1984-2023) + AMC (avant 2023) + Omni-MATH + dataset Still

  • Processus de nettoyage des données :

    1. Extraction des réponses : utilisation de gemini-1.5-pro-002 pour extraire les réponses depuis les corrigés officiels
    2. Déduplication : suppression des problèmes similaires à l’aide d’embeddings sentence-transformers/all-MiniLM-L6-v2
    3. Filtrage des problèmes non notables automatiquement : suppression des problèmes difficiles à évaluer automatiquement avec sympy
  • Au final, 40 000 paires problème-réponse ont été obtenues, avec une extension des données prévue par la suite

Fonction de récompense (Reward Function)

  • Comme pour Deepseek-R1, application d’un « Outcome Reward Model (ORM) » :

    • 1 point : réponse correcte au bon format (validation sympy réussie)
    • 0 point : réponse incorrecte, erreur de format (absence de <think>...</think>, etc.)
  • Pourquoi ne pas utiliser de « Process Reward Model (PRM) » :

    • éviter le reward hacking → empêcher l’effet secondaire où le modèle ne cherche qu’à respecter la forme

« Iterative Lengthening » : une technique pour étendre progressivement l’apprentissage RL

Step 1 : démarrer l’apprentissage RL avec un contexte 8K

  • Raisons :
    • les mauvaises réponses font en moyenne 20 346 tokens, contre 6 395 tokens pour les bonnes → les réponses longues augmentent le risque d’erreur
    • entraîner dès le départ avec un long contexte est inefficace → optimisation d’abord en 8K
  • Résultats :
    • AIME Pass@1 passe de 28,9 % à 33,9 % (+5 %)
    • réduction du nombre de tokens inutiles → baisse de 10 484 tokens de la longueur moyenne des réponses

Step 2 : extension à un contexte 16K

  • Après 1 000 étapes d’entraînement, le modèle montre une tendance à raisonner plus longuement
  • Mais la limite de 8K restreint l’effet de l’apprentissage → extension à 16K
  • Avantages :
    • plus de 2 fois plus rapide qu’un entraînement directement en 16K (évite un allongement moyen des réponses de 3 000 à 9 000 tokens)
    • précision de 38 % atteinte sur AIME2024

Step 3 : « 24K Magic » - amélioration finale des performances

  • En 16K, les performances stagnent → dernière extension vers un contexte 24K
  • Résultat : une précision Pass@1 de 43,1 % sur AIME2024, dépassant OpenAI o1-preview !

Résultats d’évaluation finaux

  • Le modèle DeepScaleR a été évalué sur plusieurs benchmarks mathématiques, dont AIME, MATH 500, AMC 2023, Minerva Math et OlympiadBench
  • Sur AIME2024, DeepScaleR-1.5B-Preview atteint 43,1 % de précision, mieux qu’OpenAI o1-preview
  • Sur MATH 500, AMC 2023 et d’autres, ce modèle 1.5B égale ou dépasse aussi des modèles 7B
  • Comparé à des travaux antérieurs (rStar, PRIME, SimpleRL basés sur le RL), il montre également la meilleure efficacité

Points clés à retenir (Key Takeaways)

  1. Le scaling RL est possible même sur de petits modèles

    • Jusqu’ici, on pensait souvent que le RL n’était efficace que pour les grands modèles
    • Mais un petit modèle affiné sur des données de haute qualité peut aussi apprendre de solides capacités de raisonnement via le RL
    • DeepScaleR passe de 28,9 % à 43,1 % de précision sur AIME
  2. La technique d’« Iterative Lengthening » permet une extension de longueur efficace

    • Des travaux précédents rapportaient des gains limités au-delà d’un contexte 16K
    • L’extension progressive 8K → 16K → 24K permet de maximiser les performances

Conclusion : démocratiser le scaling RL

  • DeepScaleR-1.5B-Preview est le premier modèle RL open source à dépasser O1-preview
  • Il montre qu’il est possible de construire un modèle performant avec seulement 3 800 heures GPU A100 (4 500 $) → preuve du potentiel de la recherche RL à bas coût
  • Le développement de modèles de raisonnement basés sur le RL doit se poursuivre avec la communauté open source

🔗 Ressources open source :

1 commentaires

 
GN⁺ 2025-02-12
Avis Hacker News
  • Ce modèle a été ajusté au benchmark pour résoudre un problème précis, et ses performances sont inférieures à O1-Preview sur d'autres tâches. À moins de vouloir résoudre précisément ce problème, cela ne mérite pas vraiment l'attention. Cela reste néanmoins impressionnant
  • Les petits modèles renforcés vont gagner. Regardez notre civilisation, nos entreprises, nos équipes : elles sont composées de nombreuses personnes spécialisées, pas d'un seul génie hypertrophié
  • Le problème actuel est l'accent excessif mis sur les benchmarks. Dans l'idéal, il faudrait les évaluer par rapport aux KPI utilisateurs
  • Ce qui compte, c'est une formule simple et fiable pour entraîner un modèle de 1B capable d'offrir de solides performances sur des tâches spécifiques. Cela n'existait pas auparavant. Les appareils edge vont devenir bien plus intelligents
  • Je suis peut-être très naïf, mais y a-t-il vraiment des gens qui font confiance à ce benchmark ? Ont-ils du sens ? Ils semblent trop faciles à manipuler et ne donnent pas l'impression d'être un moyen fiable de savoir comment les modèles se comparent réellement entre eux. Dès qu'on introduit des problèmes similaires aux benchmarks mais que le modèle n'a jamais vus, les performances semblent chuter fortement
  • Y a-t-il un bon prompt simple pour tester les nouveaux modèles de « raisonnement » ? « Compte la lettre R dans le mot strawberry » devient un peu lassant
  • J'essaie cela en local avec Ollama et la plus petite version GGUF quantifiée (769MB)
  • J'ai obtenu la bonne réponse après avoir consulté les réponses ici : https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52. Mais il a commis une erreur importante au départ
  • Les modèles CoT peuvent-ils appeler des fonctions externes ? Et s'ils avaient accès à une calculatrice ?
  • Ce serait vraiment bien si on pouvait obtenir des modèles non censurés de cette manière
  • En réalité, c'est plutôt idiot. Je lui ai demandé de décoder une séquence ASCII et il a donné une réponse absurde. J'ai essayé phi-4 Q4 et il a trouvé. 9GB contre 2GB (raisonnement). Il semble qu'on ne puisse pas faire tenir assez d'informations dans 2GB, donc à part résoudre des problèmes de maths génériques ou savoir ce qu'il y avait dans les données d'entraînement, cela ne semble pas très utile
  • À l'université, on appelait franchement ça du surapprentissage. Il ne semble pas bien fonctionner en dehors du jeu d'évaluation