Sortie de Deepseek R1-0528

(huggingface.co)

1 points par GN⁺ 2025-05-29 | 1 commentaires | Partager sur WhatsApp

Deepseek R1-0528 est présenté comme un LLM de dernière génération
Ce modèle est proposé en open source, ce qui améliore son accessibilité et ses possibilités d’usage
Il affiche de solides performances sur diverses tâches de traitement et de génération du langage naturel
Son architecture plus rapide et plus efficace offre des avantages pour la recherche comme pour les usages en production
Il s’impose comme une option supplémentaire compétitive dans le domaine de l’IA

Présentation du modèle Deepseek R1-0528

Deepseek R1-0528 est un grand modèle de langage (LLM) de dernière génération, utilisable pour la compréhension et la génération du langage naturel
Le modèle est publié en open source via Hugging Face, ce qui permet à tout chercheur ou développeur de l’utiliser librement
Développé par DeepSeek-AI, le modèle R1-0528 a été entraîné sur de vastes jeux de données et peut être appliqué à diverses tâches de traitement et de génération du langage naturel, notamment le résumé de texte, la traduction, les questions-réponses et la génération de code
Par rapport aux autres modèles open source déjà publiés, il se distingue par une vitesse d’inférence supérieure et une architecture réseau optimisée
Grâce à ces atouts, il apparaît comme un choix apprécié des développeurs qui recherchent des résultats rapides et précis en recherche comme en environnement industriel réel

Particularités et avantages du modèle

Deepseek R1-0528 se distingue des autres LLM par sa scalabilité, son efficacité et sa rapidité
Il adopte une architecture modulaire qui permet aux développeurs de le personnaliser facilement et de l’adapter à différentes langues ou à des domaines spécialisés
Grâce à des algorithmes améliorés, la vitesse de traitement a été optimisée lors des phases d’entraînement et d’inférence
Tous les utilisateurs peuvent charger et utiliser facilement le modèle via la bibliothèque Hugging Face

Usages et effets attendus

Il peut être utilisé dans divers scénarios concrets, comme la recherche en IA, les chatbots, la génération automatique de documents ou les assistants de code
Sa publication en open source peut faciliter l’application à des jeux de données réels et la validation des performances du modèle
La sortie de DeepSeek R1-0528 favorise une concurrence saine et le progrès technologique au sein de la communauté mondiale de l’IA

1 commentaires

GN⁺ 2025-05-29

Avis Hacker News

J’ai d’abord découvert que DeepSeek R1 était devenu accessible via OpenRouter chez 7 fournisseurs
Lien
Il s’agit de la mise à jour originale de DeepSeek R1 du 28 mai, avec des performances comparables à OpenAI o1
En tant que modèle open source, les reasoning tokens sont également publiés
Le modèle compte 671B de paramètres au total, dont seulement 37B sont activés pendant l’inférence
C’est un modèle entièrement open source
- Je me demande s’il existe un modèle téléchargeable
  Je ne connais pas bien OpenRouter et je ne le trouve pas dans Ollama, donc j’aimerais creuser davantage
- Rien n’a été révélé sur les données ayant servi à l’entraînement du modèle
  Les poids téléchargeables ont bien été publiés, mais ce n’est pas vraiment de l’open source reproductible au sens strict
  Il y avait un projet appelé "Open R1" qui publiait aussi directement les données d’entraînement,
  et je me demande où en est son avancement actuel
  Lien
- Je ne suis pas d’accord avec l’affirmation selon laquelle DeepSeek R1 est open source
  Le fait qu’un modèle soit téléchargeable ne signifie pas qu’il soit open source
  Lien
Je trouve dommage qu’il n’y ait quasiment aucune information sur DeepSeek R1
Aucun benchmark non plus, et ça me rappelle l’époque où Mistral balançait juste un lien magnet torrent sur Twitter
- J’ai l’impression que les benchmarks n’ont plus beaucoup de sens aujourd’hui
  On se contente surtout d’optimiser les modèles pour des tests déjà publics,
  au lieu de progresser sur le fond pour améliorer leur généralisation
  Quand on regarde le leaderboard de Hugging Face, on voit plein de fine-tunings de modèles open source en haut du classement, mais ils ne sont pas vraiment largement utilisés en pratique
  Lien
- On voit bien les scores "Overall" et "Median" dans le tableau de benchmarks,
  mais il n’y a pas d’information précise sur ce qui a réellement été testé
  Globalement, le modèle semble au niveau des modèles récents, avec un léger avantage sur le coût
  Son inconvénient, comme le R1 précédent, reste une vitesse d’inférence lente (il consomme beaucoup de tokens)
  Lien vers le tableau
- La manière dont DeepSeek publie ses modèles ressemble à l’ancien style de Mistral, et je me demande s’il ne s’agit pas d’un hommage assumé
- DeepSeek a tendance à publier son papier le lendemain de la mise à disposition du modèle
  En coordonnant un peu mieux ce calendrier, la communication serait sans doute plus propre ; là, les informations arrivent un peu dans tous les sens sur les réseaux
Le fait que DeepSeek fasse partie des rares LLM capables de tourner sur un iPod Touch avec une ancienne version d’iOS est assez singulier
J’aime bien la façon dont DeepSeek publie tranquillement de nouvelles mises à jour
Malgré les grosses améliorations, tout sort discrètement, sans campagne de communication particulière, et je préfère cette ambiance
- Je me demande si l’amélioration est vraiment importante
  J’aimerais savoir s’il existe des comparatifs officiels, comme des benchmarks
- OpenAI, et bien sûr Anthropic aussi ces derniers temps, ont tendance à survendre leurs nouveaux modèles
  en leur accolant des récits du genre « à quel point ce modèle est dangereux, comment il s’échappe, trompe les humains et pirate des serveurs critiques »,
  pour créer une ambiance cauchemardesque, alors que DeepSeek adopte un style de publication beaucoup plus sobre, sans exagération
- En pratique, il semble qu’une annonce officielle ait bien été faite sur WeChat
- Cette manière discrète de publier est appréciable, mais ce serait quand même mieux d’avoir aussi des données chiffrées comme des benchmarks
- Le timing de la publication, le jour même des résultats financiers de Nvidia, me paraît aussi être une coïncidence amusante
Je me demande quel matériel précis il faut pour qu’une personne ordinaire puisse utiliser un LLM de cette taille, même lentement
J’aimerais aussi savoir s’il existe un moyen simple pour le grand public de réduire les réglages ou la taille du modèle afin de l’utiliser plus facilement
- Quelqu’un a réussi à faire tourner DeepSeek R1 en local avec offloading et une quantization 1.58bit
  Infos associées : Lien
  Le travail sur une nouvelle version est aussi en cours
- Une version quantized en 4bit peut tourner sur un M3 Ultra 512GB
  Le prix reste cependant très élevé
  Une autre possibilité consiste à utiliser un système avec un CPU haut de gamme et 500GB de RAM DDR5
  Ce n’est pas bon marché non plus, et c’est plus lent qu’un M3 Ultra
  Une autre option encore consiste à additionner 500GB de VRAM avec plusieurs GPU Nvidia
  C’est l’option la plus coûteuse, mais aussi la plus rapide
- Il faut une carte mère serveur dual socket avec 768GB de RAM DDR5, plus un GPU d’au moins 16GB pour le traitement du prompt
  Il faut compter plusieurs milliers d’euros pour atteindre une vitesse de 8 à 10 tokens/s
- Une machine dual socket Xeon d’occasion à 2 000 dollars avec 768GB de DDR4 permet de faire tourner la version quantized en 4bit
  à environ 1,5 token/s
- Il est possible de l’utiliser sur Amazon pour environ 1 centime par 10 000 tokens
  Il existe aussi un guide de configuration manuelle sur EC2
  Exemple : instance g6e.48xlarge (192 vCPU, 1536GB de RAM, 8 GPU L40S Tensor Core avec 48GB de VRAM chacun)
  Le coût mensuel est d’environ 22 000 dollars
  Guide Bedrock DeepSeek
  Guide de déploiement manuel
Les attentes sont élevées pour cette dernière release de R1
On parle d’un modèle de 685B de paramètres, mais sans model card, release notes, détails sur les changements ni informations sur la fenêtre de contexte
La qualité de sortie du R1 original était impressionnante, même si sa consommation de tokens était un point faible
J’attends plus d’informations
Il est aussi intéressant de voir qu’il coûte environ deux fois moins cher que o4 mini high, sans grand écart de performances
J’ai aussi vu que la plupart des fournisseurs proposent des versions quantized
Pour obtenir des performances comparables à DeepSeek, il faut au minimum 8 GPU H100 80GB
- Il faut probablement compter environ 16 à 24 dollars par heure
  Si l’on consomme beaucoup de tokens, cela peut revenir bien moins cher qu’OpenAI
J’ai hâte de pouvoir essayer DeepSeek rapidement sur Groq
- Groq ne prend pas en charge le vrai modèle DeepSeek
  À l’heure actuelle, seul DeepSeek-r1-distill-llama-70b est disponible, et il s’agit d’un modèle distillé à partir de Llama 70b
  Guide des modèles Groq

Sortie de Deepseek R1-0528

Présentation du modèle Deepseek R1-0528

Particularités et avantages du modèle

Usages et effets attendus

À lire aussi

1 commentaires

Avis Hacker News