Le parcours de DeepSeek vers l’open source pour son moteur d’inférence

(github.com/deepseek-ai)

8 points par GN⁺ 2025-04-15 | 1 commentaires | Partager sur WhatsApp

L’équipe DeepSeek a dévoilé son plan pour rendre à l’open source son moteur d’inférence interne (DeepSeek Inference Engine)
Le moteur d’inférence existant est basé sur vLLM, et son partage est envisagé face à la hausse de la demande de déploiement des modèles DeepSeek-V3 et R1
Une publication complète est difficile en raison du code existant, des dépendances à l’infrastructure et de la charge de maintenance ; l’orientation évolue donc vers une contribution modulaire et par fonctionnalités
À l’avenir, l’équipe prévoit de collaborer étroitement avec la communauté open source pour partager les optimisations de performances et les fonctionnalités réutilisables
DeepSeek compte s’impliquer activement dans l’optimisation de l’inférence et l’alignement du support Day-0 avec la communauté lors des sorties de modèles

Le parcours de DeepSeek vers l’open source pour son moteur d’inférence

Réactions à l’Open Source Week et contributions de suivi

Lors de la récente Open Source Week, plusieurs bibliothèques ont été publiées en open source
Dans un contexte de réaction positive de la communauté, la collaboration, les discussions et les corrections de bugs ont été particulièrement actives
Cela a conduit DeepSeek à décider de partager en open source son moteur d’inférence interne

Technologies de base

Le framework d’entraînement de DeepSeek est basé sur PyTorch
Le moteur d’inférence a été développé à partir d’un fork ancien du projet vLLM, avec de nombreuses personnalisations spécifiques aux modèles DeepSeek

Contraintes concrètes d’une publication intégrale en open source

Différences de codebase : le projet a démarré à partir d’un fork de vLLM vieux de plus d’un an ; la structure reste similaire, mais de nombreux changements ont été apportés
Dépendance à l’infrastructure interne : le moteur est fortement couplé à l’infrastructure propre à DeepSeek, comme les outils de gestion de cluster, ce qui complique son utilisation externe
Manque de ressources de maintenance : en tant que petite équipe de recherche, DeepSeek n’a pas la capacité de gérer en continu un projet open source de grande ampleur

Alternative : collaboration avec des projets open source existants

À l’avenir, les contributions suivront les directions suivantes :

Extraction de fonctionnalités modulaires : séparer les composants réutilisables en bibliothèques indépendantes afin d’y contribuer
Partage des optimisations de performances : répercuter dans les projets open source existants les améliorations de performance et les idées de conception issues de l’implémentation interne

Remerciements à la communauté et vision

Sans l’existence de la communauté open source, les progrès dans le développement de l’AGI auraient été impossibles
Les systèmes d’exploitation, les langages, les frameworks de ML et les moteurs d’inférence constituent le socle de l’innovation en IA grâce à l’écosystème open source
En coopération avec la communauté, DeepSeek continuera à œuvrer pour que les bénéfices de l’AGI profitent à l’ensemble de l’humanité

> [!NOTE]
> Ce texte présente la stratégie d’open source de la codebase de DeepSeek Inference Engine.
> Concernant les futures publications de modèles, DeepSeek prévoit d’élargir encore sa collaboration avec la communauté open source et ses partenaires hardware.
> En particulier, avant la sortie des modèles, l’entreprise entend partager et aligner en amont les technologies liées à l’inférence afin de coordonner l’écosystème pour permettre un support SOTA dès le Day-0 sur divers environnements matériels.

1 commentaires

GN⁺ 2025-04-15

Avis sur Hacker News

En mars, vLLM a appliqué les améliorations issues du papier de DeepSeek, ce qui a permis d’améliorer de plus de 3x les performances de DeepSeek dans vLLM v0.7.3
- Il reste encore beaucoup de marge d’amélioration
- Benchmark réalisé avec vLLM à 5K tokens/s sur le jeu de données sharegpt, et à 12K tokens/s avec random 2000/100
- Selon l’aperçu du système d’inférence DeepSeek-V3/R1, chaque nœud H800 fournit en moyenne 73,7k tokens/s en entrée lors du prefilling (cache hit inclus), ou 14,8k tokens/s en sortie lors du décodage
- DeepSeek déploie une architecture d’inférence différente, mais cela montre qu’il reste beaucoup de place pour progresser
- J’espère voir davantage d’open source
Je comprends bien le point de bascule d’une codebase
- Partir d’un fork initial de vLLM puis le personnaliser pour les modèles DeepSeek rend l’ensemble difficile à faire évoluer
- Séparer une sous-bibliothèque maintenable et adopter une approche de partage direct des informations est une bonne manière de collaborer avec la communauté
- Il y a des obstacles, mais ils ne choisissent pas la voie facile qui consiste à ne rien contribuer
- Il serait peut-être préférable de ne partager que des informations sur la technique, mais cela reste malgré tout du partage de connaissances
- J’ai l’impression qu’il leur serait plus facile de ne rien faire de tout cela
- Je les salue pour cela
Les motivations des entreprises d’IA commerciales à partager leurs résultats de recherche et leur savoir-faire
- Pourquoi Google a rendu publique l’architecture Transformer
- Elles peuvent vouloir faire quelque chose de bénéfique pour l’humanité et favoriser le progrès
- Je me demande comment les dirigeants d’entreprise peuvent adopter des comportements allant à l’encontre de l’intérêt commercial
- Je me demande s’il existe une logique commerciale qui favorise le partage d’informations et de propriété intellectuelle
« Il y a quelque chose d’intéressant pour la communauté open source, mais pour l’exécuter en dehors de l’entreprise, il faut beaucoup de nettoyage, et nous n’avons pas les effectifs pour le maintenir correctement après sa sortie »
- Beaucoup d’entreprises se trouvent dans cette situation
- J’aimerais qu’elles l’ouvrent en open source avec une note du type : « Nous n’allons pas le maintenir, mais n’hésitez pas à le forker »
J’ai vu du très bon travail d’ingénierie chez DeepSeek
- J’espère que cela va continuer
Je me demande si la Chine adopte une stratégie consistant à publier massivement des outils, modèles, etc. d’IA open source pour répondre à la domination américaine
- Je pense que c’est une bonne chose pour le marché
tl;dr « Le fork de vLLM est devenu impossible à maintenir, et ils vont maintenant le reconstruire publiquement »
J’ai l’impression que c’est aussi une manière de mettre en œuvre la censure

Le parcours de DeepSeek vers l’open source pour son moteur d’inférence