Publication du modèle DeepSeek-R1

(github.com/deepseek-ai)

8 points par GN⁺ 2025-01-21 | 5 commentaires | Partager sur WhatsApp

DeepSeek a dévoilé ses modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1
DeepSeek-R1-Zero a été entraîné uniquement avec de l’apprentissage par renforcement (RL) à grande échelle, et a acquis par lui-même diverses capacités de raisonnement
Cependant, des problèmes de répétition, de lisibilité et de mélange de langues étant apparus, DeepSeek propose DeepSeek-R1, qui ajoute une étape de SFT pour corriger ces points et améliorer les performances
DeepSeek-R1 atteint un niveau de performance comparable à OpenAI-o1 sur les tâches de mathématiques, de code et de raisonnement
Pour soutenir la communauté de recherche, DeepSeek publie DeepSeek-R1-Zero, DeepSeek-R1, ainsi que des modèles de distillation créés en transférant les schémas de raisonnement de ces modèles
En particulier, le modèle DeepSeek-R1-Distill-Qwen-32B a obtenu des performances supérieures à OpenAI-o1-mini

Résumé des modèles

Post-Training : apprentissage par renforcement à grande échelle sur le modèle de base
- DeepSeek-R1-Zero est un modèle de première génération auquel seul le RL a été appliqué, sans SFT
- Au cours du processus RL, il a acquis divers schémas de raisonnement comme l’exploration de chaînes de pensée (Chain-of-thought), l’auto-vérification et la réflexion (reflection)
- Cela montre qu’« même sans SFT, un grand modèle peut acquérir de fortes capacités de raisonnement uniquement grâce au RL »
- DeepSeek-R1 s’appuie sur ce processus et renforce encore ses capacités de raisonnement et son usage général du langage en ajoutant une étape SFT intermédiaire
Distillation : les petits modèles peuvent aussi être puissants
- DeepSeek a montré qu’il est possible de transférer à de petits modèles les schémas de raisonnement appris par un grand modèle
- En utilisant les données générées par DeepSeek-R1, un fine-tuning a été effectué sur les séries Qwen et Llama, entre autres, et même de petits modèles denses (dense) ont montré d’excellentes performances
- Des modèles distillés de tailles variées, notamment 1.5B, 7B, 8B, 14B, 32B et 70B, sont publiés

Téléchargement des modèles

DeepSeek-R1 Models

DeepSeek-R1-Zero / DeepSeek-R1
- Paramètres : 671B au total (dont 37B de paramètres effectivement actifs)
- Longueur de contexte : 128K
- Téléchargeables sur HuggingFace, ils ont été entraînés avec une approche RL sur la base du modèle DeepSeek-V3-Base

DeepSeek-R1-Distill Models

Distillation à partir des séries Qwen2.5 et Llama3
Différentes tailles de paramètres disponibles, de 1.5B à 70B
Fine-tunés à partir de données de raisonnement de haute qualité générées par DeepSeek-R1
Certains réglages (tokenizer, config) ayant été modifiés, il faut utiliser la configuration recommandée

Résultats d’évaluation

DeepSeek-R1-Evaluation

DeepSeek-R1 a obtenu des scores élevés en anglais (MMLU, DROP, etc.), en code (Codeforces, LiveCodeBench, etc.), en mathématiques (AIME, MATH-500, etc.) et en chinois (C-Eval, etc.)
Il se distingue particulièrement par des scores pass@1 élevés en mathématiques, notamment sur AIME et MATH-500
Comparé à OpenAI-o1-mini, Claude et GPT-4, il montre des performances compétitives sur plusieurs critères

Distilled Model Evaluation

Les modèles distillés affichent eux aussi d’excellents résultats sur des benchmarks de mathématiques (AIME, MATH, etc.) et de code (Codeforces, etc.)
DeepSeek-R1-Distill-Qwen-32B et DeepSeek-R1-Distill-Llama-70B, entre autres, montrent des scores pass@1 élevés et de bonnes performances en résolution de code, ce qui suggère le potentiel d’usage des petits modèles

Site de chat & API platform

Il est possible d’essayer DeepSeek-R1 en conversation sur chat.deepseek.com
Une API platform compatible OpenAI est également proposée sur platform.deepseek.com

Exécution en local

DeepSeek-R1 Models

Il est possible de les exécuter en se référant au dépôt DeepSeek-V3 pour vérifier les détails comme le réglage de longueur maximale à 128K tokens

DeepSeek-R1-Distill Models

Ils peuvent être utilisés de la même manière que les modèles Qwen et Llama
Par exemple, ils peuvent être servis rapidement avec vLLM, SGLang, etc.
Il est recommandé de régler la température (temperature) autour de 0.5 à 0.7

Licence

La série DeepSeek-R1 est distribuée sous licence MIT
Attention toutefois : les modèles basés sur Qwen relèvent de la licence Apache 2.0, et les modèles basés sur Llama de la licence llama3.x
La politique de licence est flexible, avec autorisation d’usage commercial et possibilité de modifier et créer des modèles dérivés

5 commentaires

xguru 2025-01-21

Deepseek - le géant discret qui mène la concurrence chinoise dans l’IA
Deepseek V3 a montré de mauvaises performances sur des benchmarks testant un éventuel surapprentissage
Notes sur DeepSeek v3 - « Est-il vraiment meilleur que GPT-4o ou 3.5 Sonnet ? »

crawler 2025-01-21

Certaines personnes ajoutent joliment des liens dans les commentaires ou citent le texte de l’article ; existe-t-il par hasard un récapitulatif des syntaxes que l’on peut utiliser dans les commentaires ?
Après avoir parcouru le site pendant quelques jours, je le trouve de mieux en mieux, et ça me donne envie de laisser des commentaires moi aussi.

savvykang 2025-01-21

https://news.hada.io/guidelines

> Prise en charge de Markdown
> Elle est disponible à la fois dans le corps du texte et dans les commentaires.
> Elle suit par défaut la spécification CommonMark.
> Les images ne sont pas prises en charge.

crawler 2025-01-21

Merci. J’ai essayé d’utiliser une citation dans un autre commentaire, mais comme je ne pouvais pas modifier, je ne l’ai pas fait par prudence ; donc le Markdown était correct.
Je vais l’utiliser avec plaisir haha

GN⁺ 2025-01-21

Avis sur Hacker News

Des expériences sont en cours avec une version quantifiée de Llama 3. Le modèle est exécuté et journalisé avec Ollama et le plugin llm-ollama. Après avoir chargé le modèle, il est possible de tester diverses invites avec uvx. Les résultats des expériences ont été publiés sur un blog.
DeepSeek-R1-Zero rencontrait des problèmes de répétition, de lisibilité et de mélange de langues. Pour y remédier, DeepSeek-R1 a été introduit. Lors d’expériences avec OpenAI o1 et QwQ-32B-Preview, QwQ avait tendance à tomber dans des boucles de répétition. DeepSeek-R1 résout ces problèmes. Il est proposé sous licence MIT, ce qui permet à davantage de personnes de l’évaluer.
À propos de la question demandant combien de "r" il y a dans « strawberry », le modèle montre le processus par lequel il débat avec lui-même pour trouver la bonne réponse. Ce processus est mentionné comme amusant.
Une comparaison entre ChatGPT o1, DeepSeek DeepThink et Gemini 2.0 Flash Thinking Experimental a montré que ChatGPT o1 était le meilleur, et que DeepSeek était le plus faible. Les tests de DeepSeek-R1 ont montré de meilleures performances qu’auparavant. Dans des cas d’usage personnels, les LLM ont semblé plus utiles.
Des benchmarks indiquent que le modèle Llama 8B est plus puissant que Claude 3.5 Sonnet. Une surprise est exprimée face aux solides performances d’un si petit modèle.
Il est souligné qu’il est étonnant qu’une petite entreprise fondée il y a un an puisse rivaliser avec OpenAI. Il est estimé que la Chine devance les États-Unis dans le domaine de l’IA et que, parce que le modèle est proposé en open source, l’entreprise serait une véritable société « Open AI ».
Il y avait des attentes initiales autour de DS3, mais des problèmes ont été constatés, notamment sur l’appel de fonctions, la baisse de qualité des réponses et le manque de support. Toutefois, cela a réduit le trafic vers d’autres API, ce qui a amélioré la latence.
Une confusion est exprimée au sujet de la différence entre les versions 7b et 8b. Il est indiqué qu’une version Qwen 7B a été téléversée sur Ollama.

Publication du modèle DeepSeek-R1

Résumé des modèles

Téléchargement des modèles

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

Résultats d’évaluation

DeepSeek-R1-Evaluation

Distilled Model Evaluation

Site de chat & API platform

Exécution en local

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

Licence

À lire aussi

5 commentaires

Avis sur Hacker News