Publication du modèle DeepSeek-R1
(github.com/deepseek-ai)- DeepSeek a dévoilé ses modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1
- DeepSeek-R1-Zero a été entraîné uniquement avec de l’apprentissage par renforcement (RL) à grande échelle, et a acquis par lui-même diverses capacités de raisonnement
- Cependant, des problèmes de répétition, de lisibilité et de mélange de langues étant apparus, DeepSeek propose DeepSeek-R1, qui ajoute une étape de SFT pour corriger ces points et améliorer les performances
- DeepSeek-R1 atteint un niveau de performance comparable à OpenAI-o1 sur les tâches de mathématiques, de code et de raisonnement
- Pour soutenir la communauté de recherche, DeepSeek publie DeepSeek-R1-Zero, DeepSeek-R1, ainsi que des modèles de distillation créés en transférant les schémas de raisonnement de ces modèles
- En particulier, le modèle DeepSeek-R1-Distill-Qwen-32B a obtenu des performances supérieures à OpenAI-o1-mini
Résumé des modèles
-
Post-Training : apprentissage par renforcement à grande échelle sur le modèle de base
- DeepSeek-R1-Zero est un modèle de première génération auquel seul le RL a été appliqué, sans SFT
- Au cours du processus RL, il a acquis divers schémas de raisonnement comme l’exploration de chaînes de pensée (Chain-of-thought), l’auto-vérification et la réflexion (reflection)
- Cela montre qu’« même sans SFT, un grand modèle peut acquérir de fortes capacités de raisonnement uniquement grâce au RL »
- DeepSeek-R1 s’appuie sur ce processus et renforce encore ses capacités de raisonnement et son usage général du langage en ajoutant une étape SFT intermédiaire
-
Distillation : les petits modèles peuvent aussi être puissants
- DeepSeek a montré qu’il est possible de transférer à de petits modèles les schémas de raisonnement appris par un grand modèle
- En utilisant les données générées par DeepSeek-R1, un fine-tuning a été effectué sur les séries Qwen et Llama, entre autres, et même de petits modèles denses (dense) ont montré d’excellentes performances
- Des modèles distillés de tailles variées, notamment 1.5B, 7B, 8B, 14B, 32B et 70B, sont publiés
Téléchargement des modèles
DeepSeek-R1 Models
- DeepSeek-R1-Zero / DeepSeek-R1
- Paramètres : 671B au total (dont 37B de paramètres effectivement actifs)
- Longueur de contexte : 128K
- Téléchargeables sur HuggingFace, ils ont été entraînés avec une approche RL sur la base du modèle DeepSeek-V3-Base
DeepSeek-R1-Distill Models
- Distillation à partir des séries Qwen2.5 et Llama3
- Différentes tailles de paramètres disponibles, de 1.5B à 70B
- Fine-tunés à partir de données de raisonnement de haute qualité générées par DeepSeek-R1
- Certains réglages (
tokenizer,config) ayant été modifiés, il faut utiliser la configuration recommandée
Résultats d’évaluation
DeepSeek-R1-Evaluation
- DeepSeek-R1 a obtenu des scores élevés en anglais (MMLU, DROP, etc.), en code (Codeforces, LiveCodeBench, etc.), en mathématiques (AIME, MATH-500, etc.) et en chinois (C-Eval, etc.)
- Il se distingue particulièrement par des scores pass@1 élevés en mathématiques, notamment sur AIME et MATH-500
- Comparé à OpenAI-o1-mini, Claude et GPT-4, il montre des performances compétitives sur plusieurs critères
Distilled Model Evaluation
- Les modèles distillés affichent eux aussi d’excellents résultats sur des benchmarks de mathématiques (AIME, MATH, etc.) et de code (Codeforces, etc.)
- DeepSeek-R1-Distill-Qwen-32B et DeepSeek-R1-Distill-Llama-70B, entre autres, montrent des scores pass@1 élevés et de bonnes performances en résolution de code, ce qui suggère le potentiel d’usage des petits modèles
Site de chat & API platform
- Il est possible d’essayer DeepSeek-R1 en conversation sur chat.deepseek.com
- Une API platform compatible OpenAI est également proposée sur platform.deepseek.com
Exécution en local
DeepSeek-R1 Models
- Il est possible de les exécuter en se référant au dépôt DeepSeek-V3 pour vérifier les détails comme le réglage de longueur maximale à 128K tokens
DeepSeek-R1-Distill Models
- Ils peuvent être utilisés de la même manière que les modèles Qwen et Llama
- Par exemple, ils peuvent être servis rapidement avec vLLM, SGLang, etc.
- Il est recommandé de régler la température (temperature) autour de 0.5 à 0.7
Licence
- La série DeepSeek-R1 est distribuée sous licence MIT
- Attention toutefois : les modèles basés sur Qwen relèvent de la licence Apache 2.0, et les modèles basés sur Llama de la licence llama3.x
- La politique de licence est flexible, avec autorisation d’usage commercial et possibilité de modifier et créer des modèles dérivés
5 commentaires
Deepseek - le géant discret qui mène la concurrence chinoise dans l’IA
Deepseek V3 a montré de mauvaises performances sur des benchmarks testant un éventuel surapprentissage
Notes sur DeepSeek v3 - « Est-il vraiment meilleur que GPT-4o ou 3.5 Sonnet ? »
Certaines personnes ajoutent joliment des liens dans les commentaires ou citent le texte de l’article ; existe-t-il par hasard un récapitulatif des syntaxes que l’on peut utiliser dans les commentaires ?
Après avoir parcouru le site pendant quelques jours, je le trouve de mieux en mieux, et ça me donne envie de laisser des commentaires moi aussi.
https://news.hada.io/guidelines
> Prise en charge de Markdown
> Elle est disponible à la fois dans le corps du texte et dans les commentaires.
> Elle suit par défaut la spécification CommonMark.
> Les images ne sont pas prises en charge.
Merci. J’ai essayé d’utiliser une citation dans un autre commentaire, mais comme je ne pouvais pas modifier, je ne l’ai pas fait par prudence ; donc le Markdown était correct.
Je vais l’utiliser avec plaisir haha
Avis sur Hacker News
Des expériences sont en cours avec une version quantifiée de Llama 3. Le modèle est exécuté et journalisé avec Ollama et le plugin llm-ollama. Après avoir chargé le modèle, il est possible de tester diverses invites avec uvx. Les résultats des expériences ont été publiés sur un blog.
DeepSeek-R1-Zero rencontrait des problèmes de répétition, de lisibilité et de mélange de langues. Pour y remédier, DeepSeek-R1 a été introduit. Lors d’expériences avec OpenAI o1 et QwQ-32B-Preview, QwQ avait tendance à tomber dans des boucles de répétition. DeepSeek-R1 résout ces problèmes. Il est proposé sous licence MIT, ce qui permet à davantage de personnes de l’évaluer.
À propos de la question demandant combien de "r" il y a dans « strawberry », le modèle montre le processus par lequel il débat avec lui-même pour trouver la bonne réponse. Ce processus est mentionné comme amusant.
Une comparaison entre ChatGPT o1, DeepSeek DeepThink et Gemini 2.0 Flash Thinking Experimental a montré que ChatGPT o1 était le meilleur, et que DeepSeek était le plus faible. Les tests de DeepSeek-R1 ont montré de meilleures performances qu’auparavant. Dans des cas d’usage personnels, les LLM ont semblé plus utiles.
Des benchmarks indiquent que le modèle Llama 8B est plus puissant que Claude 3.5 Sonnet. Une surprise est exprimée face aux solides performances d’un si petit modèle.
Il est souligné qu’il est étonnant qu’une petite entreprise fondée il y a un an puisse rivaliser avec OpenAI. Il est estimé que la Chine devance les États-Unis dans le domaine de l’IA et que, parce que le modèle est proposé en open source, l’entreprise serait une véritable société « Open AI ».
Il y avait des attentes initiales autour de DS3, mais des problèmes ont été constatés, notamment sur l’appel de fonctions, la baisse de qualité des réponses et le manque de support. Toutefois, cela a réduit le trafic vers d’autres API, ce qui a amélioré la latence.
Une confusion est exprimée au sujet de la différence entre les versions 7b et 8b. Il est indiqué qu’une version Qwen 7B a été téléversée sur Ollama.