1 points par GN⁺ 2025-05-29 | 1 commentaires | Partager sur WhatsApp
  • Deepseek R1-0528 est présenté comme un LLM de dernière génération
  • Ce modèle est proposé en open source, ce qui améliore son accessibilité et ses possibilités d’usage
  • Il affiche de solides performances sur diverses tâches de traitement et de génération du langage naturel
  • Son architecture plus rapide et plus efficace offre des avantages pour la recherche comme pour les usages en production
  • Il s’impose comme une option supplémentaire compétitive dans le domaine de l’IA

Présentation du modèle Deepseek R1-0528

  • Deepseek R1-0528 est un grand modèle de langage (LLM) de dernière génération, utilisable pour la compréhension et la génération du langage naturel
  • Le modèle est publié en open source via Hugging Face, ce qui permet à tout chercheur ou développeur de l’utiliser librement
  • Développé par DeepSeek-AI, le modèle R1-0528 a été entraîné sur de vastes jeux de données et peut être appliqué à diverses tâches de traitement et de génération du langage naturel, notamment le résumé de texte, la traduction, les questions-réponses et la génération de code
  • Par rapport aux autres modèles open source déjà publiés, il se distingue par une vitesse d’inférence supérieure et une architecture réseau optimisée
  • Grâce à ces atouts, il apparaît comme un choix apprécié des développeurs qui recherchent des résultats rapides et précis en recherche comme en environnement industriel réel

Particularités et avantages du modèle

  • Deepseek R1-0528 se distingue des autres LLM par sa scalabilité, son efficacité et sa rapidité
  • Il adopte une architecture modulaire qui permet aux développeurs de le personnaliser facilement et de l’adapter à différentes langues ou à des domaines spécialisés
  • Grâce à des algorithmes améliorés, la vitesse de traitement a été optimisée lors des phases d’entraînement et d’inférence
  • Tous les utilisateurs peuvent charger et utiliser facilement le modèle via la bibliothèque Hugging Face

Usages et effets attendus

  • Il peut être utilisé dans divers scénarios concrets, comme la recherche en IA, les chatbots, la génération automatique de documents ou les assistants de code
  • Sa publication en open source peut faciliter l’application à des jeux de données réels et la validation des performances du modèle
  • La sortie de DeepSeek R1-0528 favorise une concurrence saine et le progrès technologique au sein de la communauté mondiale de l’IA

1 commentaires

 
GN⁺ 2025-05-29
Avis Hacker News
  • J’ai d’abord découvert que DeepSeek R1 était devenu accessible via OpenRouter chez 7 fournisseurs
    Lien
    Il s’agit de la mise à jour originale de DeepSeek R1 du 28 mai, avec des performances comparables à OpenAI o1
    En tant que modèle open source, les reasoning tokens sont également publiés
    Le modèle compte 671B de paramètres au total, dont seulement 37B sont activés pendant l’inférence
    C’est un modèle entièrement open source

    • Je me demande s’il existe un modèle téléchargeable
      Je ne connais pas bien OpenRouter et je ne le trouve pas dans Ollama, donc j’aimerais creuser davantage

    • Rien n’a été révélé sur les données ayant servi à l’entraînement du modèle
      Les poids téléchargeables ont bien été publiés, mais ce n’est pas vraiment de l’open source reproductible au sens strict
      Il y avait un projet appelé "Open R1" qui publiait aussi directement les données d’entraînement,
      et je me demande où en est son avancement actuel
      Lien

    • Je ne suis pas d’accord avec l’affirmation selon laquelle DeepSeek R1 est open source
      Le fait qu’un modèle soit téléchargeable ne signifie pas qu’il soit open source
      Lien

  • Je trouve dommage qu’il n’y ait quasiment aucune information sur DeepSeek R1
    Aucun benchmark non plus, et ça me rappelle l’époque où Mistral balançait juste un lien magnet torrent sur Twitter

    • J’ai l’impression que les benchmarks n’ont plus beaucoup de sens aujourd’hui
      On se contente surtout d’optimiser les modèles pour des tests déjà publics,
      au lieu de progresser sur le fond pour améliorer leur généralisation
      Quand on regarde le leaderboard de Hugging Face, on voit plein de fine-tunings de modèles open source en haut du classement, mais ils ne sont pas vraiment largement utilisés en pratique
      Lien

    • On voit bien les scores "Overall" et "Median" dans le tableau de benchmarks,
      mais il n’y a pas d’information précise sur ce qui a réellement été testé
      Globalement, le modèle semble au niveau des modèles récents, avec un léger avantage sur le coût
      Son inconvénient, comme le R1 précédent, reste une vitesse d’inférence lente (il consomme beaucoup de tokens)
      Lien vers le tableau

    • La manière dont DeepSeek publie ses modèles ressemble à l’ancien style de Mistral, et je me demande s’il ne s’agit pas d’un hommage assumé

    • DeepSeek a tendance à publier son papier le lendemain de la mise à disposition du modèle
      En coordonnant un peu mieux ce calendrier, la communication serait sans doute plus propre ; là, les informations arrivent un peu dans tous les sens sur les réseaux

  • Le fait que DeepSeek fasse partie des rares LLM capables de tourner sur un iPod Touch avec une ancienne version d’iOS est assez singulier

  • J’aime bien la façon dont DeepSeek publie tranquillement de nouvelles mises à jour
    Malgré les grosses améliorations, tout sort discrètement, sans campagne de communication particulière, et je préfère cette ambiance

    • Je me demande si l’amélioration est vraiment importante
      J’aimerais savoir s’il existe des comparatifs officiels, comme des benchmarks

    • OpenAI, et bien sûr Anthropic aussi ces derniers temps, ont tendance à survendre leurs nouveaux modèles
      en leur accolant des récits du genre « à quel point ce modèle est dangereux, comment il s’échappe, trompe les humains et pirate des serveurs critiques »,
      pour créer une ambiance cauchemardesque, alors que DeepSeek adopte un style de publication beaucoup plus sobre, sans exagération

    • En pratique, il semble qu’une annonce officielle ait bien été faite sur WeChat

    • Cette manière discrète de publier est appréciable, mais ce serait quand même mieux d’avoir aussi des données chiffrées comme des benchmarks

    • Le timing de la publication, le jour même des résultats financiers de Nvidia, me paraît aussi être une coïncidence amusante

  • Je me demande quel matériel précis il faut pour qu’une personne ordinaire puisse utiliser un LLM de cette taille, même lentement
    J’aimerais aussi savoir s’il existe un moyen simple pour le grand public de réduire les réglages ou la taille du modèle afin de l’utiliser plus facilement

    • Quelqu’un a réussi à faire tourner DeepSeek R1 en local avec offloading et une quantization 1.58bit
      Infos associées : Lien
      Le travail sur une nouvelle version est aussi en cours

    • Une version quantized en 4bit peut tourner sur un M3 Ultra 512GB
      Le prix reste cependant très élevé
      Une autre possibilité consiste à utiliser un système avec un CPU haut de gamme et 500GB de RAM DDR5
      Ce n’est pas bon marché non plus, et c’est plus lent qu’un M3 Ultra
      Une autre option encore consiste à additionner 500GB de VRAM avec plusieurs GPU Nvidia
      C’est l’option la plus coûteuse, mais aussi la plus rapide

    • Il faut une carte mère serveur dual socket avec 768GB de RAM DDR5, plus un GPU d’au moins 16GB pour le traitement du prompt
      Il faut compter plusieurs milliers d’euros pour atteindre une vitesse de 8 à 10 tokens/s

    • Une machine dual socket Xeon d’occasion à 2 000 dollars avec 768GB de DDR4 permet de faire tourner la version quantized en 4bit
      à environ 1,5 token/s

    • Il est possible de l’utiliser sur Amazon pour environ 1 centime par 10 000 tokens
      Il existe aussi un guide de configuration manuelle sur EC2
      Exemple : instance g6e.48xlarge (192 vCPU, 1536GB de RAM, 8 GPU L40S Tensor Core avec 48GB de VRAM chacun)
      Le coût mensuel est d’environ 22 000 dollars
      Guide Bedrock DeepSeek
      Guide de déploiement manuel

  • Les attentes sont élevées pour cette dernière release de R1
    On parle d’un modèle de 685B de paramètres, mais sans model card, release notes, détails sur les changements ni informations sur la fenêtre de contexte
    La qualité de sortie du R1 original était impressionnante, même si sa consommation de tokens était un point faible
    J’attends plus d’informations

  • Il est aussi intéressant de voir qu’il coûte environ deux fois moins cher que o4 mini high, sans grand écart de performances
    J’ai aussi vu que la plupart des fournisseurs proposent des versions quantized

  • Pour obtenir des performances comparables à DeepSeek, il faut au minimum 8 GPU H100 80GB

    • Il faut probablement compter environ 16 à 24 dollars par heure
      Si l’on consomme beaucoup de tokens, cela peut revenir bien moins cher qu’OpenAI
  • J’ai hâte de pouvoir essayer DeepSeek rapidement sur Groq

    • Groq ne prend pas en charge le vrai modèle DeepSeek
      À l’heure actuelle, seul DeepSeek-r1-distill-llama-70b est disponible, et il s’agit d’un modèle distillé à partir de Llama 70b
      Guide des modèles Groq