Analyse des LLM capables de raisonnement
(magazine.sebastianraschka.com)Comprendre : les modèles de raisonnement
-
Définition des modèles de raisonnement : les modèles de raisonnement répondent à des questions qui nécessitent une génération en plusieurs étapes, avec des étapes intermédiaires, afin de résoudre des problèmes complexes. Par exemple, une question comme « si un train roule à 60 miles par heure pendant 3 heures, quelle distance parcourt-il ? » nécessite un raisonnement, contrairement à une simple question fondée sur des faits.
-
Pourquoi les modèles de raisonnement sont nécessaires : ils conviennent aux tâches complexes comme les puzzles, les problèmes de mathématiques avancées et les problèmes de code complexes. En revanche, ils ne sont pas nécessaires pour des tâches simples comme le résumé, la traduction ou les réponses à des questions fondées sur des connaissances. Les modèles de raisonnement sont coûteux et peuvent parfois produire des erreurs à cause d’une réflexion excessive.
Pipeline d’entraînement de DeepSeek R1
-
DeepSeek-R1-Zero : modèle basé sur DeepSeek-V3, préentraîné à 671B, et entraîné uniquement par apprentissage par renforcement (RL). Cette approche est appelée entraînement « cold start » et, contrairement au RLHF classique, ne comporte pas d’étape de fine-tuning supervisé (SFT).
-
DeepSeek-R1 : modèle de raisonnement phare de DeepSeek, amélioré à partir de DeepSeek-R1-Zero grâce à des étapes SFT supplémentaires et à un entraînement RL.
-
DeepSeek-R1-Distill : améliore les capacités de raisonnement en affinant des modèles Qwen et Llama à l’aide des données SFT générées lors de l’étape précédente.
Quatre approches clés pour construire et améliorer des modèles de raisonnement
-
Mise à l’échelle au moment de l’inférence : méthode consistant à augmenter les ressources de calcul pendant l’inférence pour améliorer la qualité de sortie. Par exemple, inclure dans le prompt des expressions comme « réfléchir étape par étape » afin d’inciter le modèle à générer des étapes intermédiaires de raisonnement.
-
Apprentissage par renforcement pur (RL) : DeepSeek-R1-Zero montre que le raisonnement peut émerger comme un comportement via du RL pur. Des récompenses de précision et de format sont utilisées pour amener le modèle à développer des compétences de raisonnement de base.
-
Fine-tuning supervisé (SFT) et apprentissage par renforcement (RL) : DeepSeek-R1 combine SFT et RL pour améliorer les performances de raisonnement. Il s’agit d’une approche importante pour construire des modèles de raisonnement très performants.
-
Fine-tuning supervisé (SFT) pur et distillation : DeepSeek améliore l’efficacité en entraînant des modèles plus petits. Bien que plus petits, ils affichent des performances relativement solides par rapport à DeepSeek-R1-Zero.
Réflexions sur DeepSeek R1
- DeepSeek-R1 est proposé en open source sous licence MIT, ce qui en fait une ressource utile pour les chercheurs. Comparé à o1 d’OpenAI, DeepSeek-R1 est plus efficace en temps de raisonnement. Cependant, le manque de détails sur o1 d’OpenAI rend une comparaison directe difficile.
Développer un modèle de raisonnement avec un budget limité
- La distillation de modèle peut constituer une alternative économique. L’équipe DeepSeek l’a démontré avec les modèles R1-distilled, bien plus petits que DeepSeek-R1, tout en montrant de solides performances en raisonnement.
1 commentaires
Commentaires sur Hacker News
Les modèles de raisonnement des LLM ont tendance à être sur-optimisés pour les problèmes de code et de mathématiques
Il faut davantage de recherche sur l’entraînement des LLM avec des langages formels restreints plutôt qu’avec le langage naturel
Le fait que les modèles de raisonnement "réfléchissent trop" pourrait être le prochain grand problème
L’article sur R1 se lit facilement, et les résultats parlent d’eux-mêmes
La question de savoir si les LLM "pensent" réellement relève d’un débat distinct
Il existe des cas réels où l’IA sur-identifie des éléments dans l’imagerie médicale
Il faut comprendre que les LLM ne peuvent pas raisonner
L’affirmation d’un "aha moment" dans le rapport technique de DeepSeek-R1 paraît douteuse
Il y a quelques mois, une méthode de raffinage pour améliorer les LLM avait été proposée sur HN, et cela est aujourd’hui décrit comme du "raisonnement"