- Deepseek R1-0528 est présenté comme un LLM de dernière génération
- Ce modèle est proposé en open source, ce qui améliore son accessibilité et ses possibilités d’usage
- Il affiche de solides performances sur diverses tâches de traitement et de génération du langage naturel
- Son architecture plus rapide et plus efficace offre des avantages pour la recherche comme pour les usages en production
- Il s’impose comme une option supplémentaire compétitive dans le domaine de l’IA
Présentation du modèle Deepseek R1-0528
- Deepseek R1-0528 est un grand modèle de langage (LLM) de dernière génération, utilisable pour la compréhension et la génération du langage naturel
- Le modèle est publié en open source via Hugging Face, ce qui permet à tout chercheur ou développeur de l’utiliser librement
- Développé par DeepSeek-AI, le modèle R1-0528 a été entraîné sur de vastes jeux de données et peut être appliqué à diverses tâches de traitement et de génération du langage naturel, notamment le résumé de texte, la traduction, les questions-réponses et la génération de code
- Par rapport aux autres modèles open source déjà publiés, il se distingue par une vitesse d’inférence supérieure et une architecture réseau optimisée
- Grâce à ces atouts, il apparaît comme un choix apprécié des développeurs qui recherchent des résultats rapides et précis en recherche comme en environnement industriel réel
Particularités et avantages du modèle
- Deepseek R1-0528 se distingue des autres LLM par sa scalabilité, son efficacité et sa rapidité
- Il adopte une architecture modulaire qui permet aux développeurs de le personnaliser facilement et de l’adapter à différentes langues ou à des domaines spécialisés
- Grâce à des algorithmes améliorés, la vitesse de traitement a été optimisée lors des phases d’entraînement et d’inférence
- Tous les utilisateurs peuvent charger et utiliser facilement le modèle via la bibliothèque Hugging Face
Usages et effets attendus
- Il peut être utilisé dans divers scénarios concrets, comme la recherche en IA, les chatbots, la génération automatique de documents ou les assistants de code
- Sa publication en open source peut faciliter l’application à des jeux de données réels et la validation des performances du modèle
- La sortie de DeepSeek R1-0528 favorise une concurrence saine et le progrès technologique au sein de la communauté mondiale de l’IA
1 commentaires
Avis Hacker News
J’ai d’abord découvert que DeepSeek R1 était devenu accessible via OpenRouter chez 7 fournisseurs
Lien
Il s’agit de la mise à jour originale de DeepSeek R1 du 28 mai, avec des performances comparables à OpenAI o1
En tant que modèle open source, les reasoning tokens sont également publiés
Le modèle compte 671B de paramètres au total, dont seulement 37B sont activés pendant l’inférence
C’est un modèle entièrement open source
Je me demande s’il existe un modèle téléchargeable
Je ne connais pas bien OpenRouter et je ne le trouve pas dans Ollama, donc j’aimerais creuser davantage
Rien n’a été révélé sur les données ayant servi à l’entraînement du modèle
Les poids téléchargeables ont bien été publiés, mais ce n’est pas vraiment de l’open source reproductible au sens strict
Il y avait un projet appelé "Open R1" qui publiait aussi directement les données d’entraînement,
et je me demande où en est son avancement actuel
Lien
Je ne suis pas d’accord avec l’affirmation selon laquelle DeepSeek R1 est open source
Le fait qu’un modèle soit téléchargeable ne signifie pas qu’il soit open source
Lien
Je trouve dommage qu’il n’y ait quasiment aucune information sur DeepSeek R1
Aucun benchmark non plus, et ça me rappelle l’époque où Mistral balançait juste un lien magnet torrent sur Twitter
J’ai l’impression que les benchmarks n’ont plus beaucoup de sens aujourd’hui
On se contente surtout d’optimiser les modèles pour des tests déjà publics,
au lieu de progresser sur le fond pour améliorer leur généralisation
Quand on regarde le leaderboard de Hugging Face, on voit plein de fine-tunings de modèles open source en haut du classement, mais ils ne sont pas vraiment largement utilisés en pratique
Lien
On voit bien les scores "Overall" et "Median" dans le tableau de benchmarks,
mais il n’y a pas d’information précise sur ce qui a réellement été testé
Globalement, le modèle semble au niveau des modèles récents, avec un léger avantage sur le coût
Son inconvénient, comme le R1 précédent, reste une vitesse d’inférence lente (il consomme beaucoup de tokens)
Lien vers le tableau
La manière dont DeepSeek publie ses modèles ressemble à l’ancien style de Mistral, et je me demande s’il ne s’agit pas d’un hommage assumé
DeepSeek a tendance à publier son papier le lendemain de la mise à disposition du modèle
En coordonnant un peu mieux ce calendrier, la communication serait sans doute plus propre ; là, les informations arrivent un peu dans tous les sens sur les réseaux
Le fait que DeepSeek fasse partie des rares LLM capables de tourner sur un iPod Touch avec une ancienne version d’iOS est assez singulier
J’aime bien la façon dont DeepSeek publie tranquillement de nouvelles mises à jour
Malgré les grosses améliorations, tout sort discrètement, sans campagne de communication particulière, et je préfère cette ambiance
Je me demande si l’amélioration est vraiment importante
J’aimerais savoir s’il existe des comparatifs officiels, comme des benchmarks
OpenAI, et bien sûr Anthropic aussi ces derniers temps, ont tendance à survendre leurs nouveaux modèles
en leur accolant des récits du genre « à quel point ce modèle est dangereux, comment il s’échappe, trompe les humains et pirate des serveurs critiques »,
pour créer une ambiance cauchemardesque, alors que DeepSeek adopte un style de publication beaucoup plus sobre, sans exagération
En pratique, il semble qu’une annonce officielle ait bien été faite sur WeChat
Cette manière discrète de publier est appréciable, mais ce serait quand même mieux d’avoir aussi des données chiffrées comme des benchmarks
Le timing de la publication, le jour même des résultats financiers de Nvidia, me paraît aussi être une coïncidence amusante
Je me demande quel matériel précis il faut pour qu’une personne ordinaire puisse utiliser un LLM de cette taille, même lentement
J’aimerais aussi savoir s’il existe un moyen simple pour le grand public de réduire les réglages ou la taille du modèle afin de l’utiliser plus facilement
Quelqu’un a réussi à faire tourner DeepSeek R1 en local avec offloading et une quantization 1.58bit
Infos associées : Lien
Le travail sur une nouvelle version est aussi en cours
Une version quantized en 4bit peut tourner sur un M3 Ultra 512GB
Le prix reste cependant très élevé
Une autre possibilité consiste à utiliser un système avec un CPU haut de gamme et 500GB de RAM DDR5
Ce n’est pas bon marché non plus, et c’est plus lent qu’un M3 Ultra
Une autre option encore consiste à additionner 500GB de VRAM avec plusieurs GPU Nvidia
C’est l’option la plus coûteuse, mais aussi la plus rapide
Il faut une carte mère serveur dual socket avec 768GB de RAM DDR5, plus un GPU d’au moins 16GB pour le traitement du prompt
Il faut compter plusieurs milliers d’euros pour atteindre une vitesse de 8 à 10 tokens/s
Une machine dual socket Xeon d’occasion à 2 000 dollars avec 768GB de DDR4 permet de faire tourner la version quantized en 4bit
à environ 1,5 token/s
Il est possible de l’utiliser sur Amazon pour environ 1 centime par 10 000 tokens
Il existe aussi un guide de configuration manuelle sur EC2
Exemple : instance
g6e.48xlarge(192 vCPU, 1536GB de RAM, 8 GPU L40S Tensor Core avec 48GB de VRAM chacun)Le coût mensuel est d’environ 22 000 dollars
Guide Bedrock DeepSeek
Guide de déploiement manuel
Les attentes sont élevées pour cette dernière release de R1
On parle d’un modèle de 685B de paramètres, mais sans model card, release notes, détails sur les changements ni informations sur la fenêtre de contexte
La qualité de sortie du R1 original était impressionnante, même si sa consommation de tokens était un point faible
J’attends plus d’informations
Il est aussi intéressant de voir qu’il coûte environ deux fois moins cher que o4 mini high, sans grand écart de performances
J’ai aussi vu que la plupart des fournisseurs proposent des versions quantized
Pour obtenir des performances comparables à DeepSeek, il faut au minimum 8 GPU H100 80GB
Si l’on consomme beaucoup de tokens, cela peut revenir bien moins cher qu’OpenAI
J’ai hâte de pouvoir essayer DeepSeek rapidement sur Groq
À l’heure actuelle, seul DeepSeek-r1-distill-llama-70b est disponible, et il s’agit d’un modèle distillé à partir de Llama 70b
Guide des modèles Groq