6 points par GN⁺ 2025-02-08 | 1 commentaires | Partager sur WhatsApp

Comprendre : les modèles de raisonnement

  • Définition des modèles de raisonnement : les modèles de raisonnement répondent à des questions qui nécessitent une génération en plusieurs étapes, avec des étapes intermédiaires, afin de résoudre des problèmes complexes. Par exemple, une question comme « si un train roule à 60 miles par heure pendant 3 heures, quelle distance parcourt-il ? » nécessite un raisonnement, contrairement à une simple question fondée sur des faits.

  • Pourquoi les modèles de raisonnement sont nécessaires : ils conviennent aux tâches complexes comme les puzzles, les problèmes de mathématiques avancées et les problèmes de code complexes. En revanche, ils ne sont pas nécessaires pour des tâches simples comme le résumé, la traduction ou les réponses à des questions fondées sur des connaissances. Les modèles de raisonnement sont coûteux et peuvent parfois produire des erreurs à cause d’une réflexion excessive.

Pipeline d’entraînement de DeepSeek R1

  • DeepSeek-R1-Zero : modèle basé sur DeepSeek-V3, préentraîné à 671B, et entraîné uniquement par apprentissage par renforcement (RL). Cette approche est appelée entraînement « cold start » et, contrairement au RLHF classique, ne comporte pas d’étape de fine-tuning supervisé (SFT).

  • DeepSeek-R1 : modèle de raisonnement phare de DeepSeek, amélioré à partir de DeepSeek-R1-Zero grâce à des étapes SFT supplémentaires et à un entraînement RL.

  • DeepSeek-R1-Distill : améliore les capacités de raisonnement en affinant des modèles Qwen et Llama à l’aide des données SFT générées lors de l’étape précédente.

Quatre approches clés pour construire et améliorer des modèles de raisonnement

  1. Mise à l’échelle au moment de l’inférence : méthode consistant à augmenter les ressources de calcul pendant l’inférence pour améliorer la qualité de sortie. Par exemple, inclure dans le prompt des expressions comme « réfléchir étape par étape » afin d’inciter le modèle à générer des étapes intermédiaires de raisonnement.

  2. Apprentissage par renforcement pur (RL) : DeepSeek-R1-Zero montre que le raisonnement peut émerger comme un comportement via du RL pur. Des récompenses de précision et de format sont utilisées pour amener le modèle à développer des compétences de raisonnement de base.

  3. Fine-tuning supervisé (SFT) et apprentissage par renforcement (RL) : DeepSeek-R1 combine SFT et RL pour améliorer les performances de raisonnement. Il s’agit d’une approche importante pour construire des modèles de raisonnement très performants.

  4. Fine-tuning supervisé (SFT) pur et distillation : DeepSeek améliore l’efficacité en entraînant des modèles plus petits. Bien que plus petits, ils affichent des performances relativement solides par rapport à DeepSeek-R1-Zero.

Réflexions sur DeepSeek R1

  • DeepSeek-R1 est proposé en open source sous licence MIT, ce qui en fait une ressource utile pour les chercheurs. Comparé à o1 d’OpenAI, DeepSeek-R1 est plus efficace en temps de raisonnement. Cependant, le manque de détails sur o1 d’OpenAI rend une comparaison directe difficile.

Développer un modèle de raisonnement avec un budget limité

  • La distillation de modèle peut constituer une alternative économique. L’équipe DeepSeek l’a démontré avec les modèles R1-distilled, bien plus petits que DeepSeek-R1, tout en montrant de solides performances en raisonnement.

1 commentaires

 
GN⁺ 2025-02-08
Commentaires sur Hacker News
  • Les modèles de raisonnement des LLM ont tendance à être sur-optimisés pour les problèmes de code et de mathématiques

    • Les problèmes mal définis demandent davantage de raisonnement, ce qui doit aller au-delà de la simple ambiguïté du génie logiciel
    • Les LLM sont tellement ajustés aux problèmes de mathématiques qu’ils ont tendance à ne pas assez réfléchir dans d’autres domaines
    • Ils apprécient l’auto-apprentissage et ont besoin d’un interlocuteur capable de comprendre des sujets complexes et d’identifier les malentendus
    • Les LLM peuvent bien résoudre des problèmes de programmation, mais ils sont trop calibrés sur les puzzles de code et de mathématiques
  • Il faut davantage de recherche sur l’entraînement des LLM avec des langages formels restreints plutôt qu’avec le langage naturel

    • Il existe un travail d’intégration entre Lean et ChatGPT, mais ce n’est pas une approche pilotée par des LLM entraînés en langage naturel
    • On peut imaginer un système capable de multiplier créativement les essais et d’éviter les mauvaises pistes
  • Le fait que les modèles de raisonnement "réfléchissent trop" pourrait être le prochain grand problème

    • Réfléchir plus profondément n’est pas toujours une bonne chose
  • L’article sur R1 se lit facilement, et les résultats parlent d’eux-mêmes

    • Il est recommandé de lire les articles sur R1, V3 et DeepSeekMath
  • La question de savoir si les LLM "pensent" réellement relève d’un débat distinct

    • La question de savoir si les ordinateurs peuvent penser a été tranchée depuis longtemps
  • Il existe des cas réels où l’IA sur-identifie des éléments dans l’imagerie médicale

    • Les données d’entraînement l’amènent à reconnaître certains éléments comme des indicateurs de cancer
  • Il faut comprendre que les LLM ne peuvent pas raisonner

  • L’affirmation d’un "aha moment" dans le rapport technique de DeepSeek-R1 paraît douteuse

    • Le modèle DeepSeek V3 sert de base, et il souffre de sur-réflexion ainsi que de problèmes de format
    • La communauté s’efforce actuellement de réimplémenter le pipeline
  • Il y a quelques mois, une méthode de raffinage pour améliorer les LLM avait été proposée sur HN, et cela est aujourd’hui décrit comme du "raisonnement"

    • On ne s’attendait pas à ce que DeepSeek domine le marché avec une méthode aussi simple
    • Il faut prendre l’intuition au sérieux