- DeepSeek est une startup chinoise de l’IA, dont le modèle R1 récemment annoncé dépasse le modèle o1 d’OpenAI sur plusieurs benchmarks de raisonnement
- Bien que peu connue du grand public, elle s’est imposée comme un laboratoire d’IA à suivre
Contexte et stratégie de DeepSeek
- Son CEO, Liang Wenfeng, est le fondateur de High-Flyer, autrefois l’un des quatre plus grands hedge funds de Chine, et DeepSeek bénéficie du soutien massif de cette entreprise
- L’entreprise met l’accent sur le développement de technologies fondamentales plutôt que sur les applications commerciales, et adopte une stratégie consistant à publier tous ses modèles en open source
- Elle a accès au cluster de calcul de High-Flyer et disposerait de plus de 50 000 GPU Hopper
- Elle se concentre sur le développement de l’AGI (intelligence artificielle générale). Les recherches portent sur des innovations structurelles et algorithmiques susceptibles de changer la donne
Principales innovations techniques
- Améliorations de l’architecture des modèles
- MLA (Multi-head Latent Attention) : réduit l’utilisation mémoire à 5 à 13 % du niveau précédent
- DeepSeekMoE (Sparse Mixture of Experts) : réduit fortement les coûts de calcul
- Déclenchement d’une guerre des prix
- Le modèle DeepSeek V2 a proposé un coût d’inférence de 1 RMB par million de tokens, déclenchant une vaste guerre des prix parmi les grands groupes technologiques chinois
- Reconnaissance internationale
- Les articles de DeepSeek ont été salués comme « l’un des meilleurs papiers de l’année » et ont reçu les éloges de la Silicon Valley comme de la communauté internationale de l’IA
Philosophie de recherche et culture organisationnelle de DeepSeek
- Idéalisme technologique : DeepSeek revendique un idéalisme technologique, faisant passer le « bien et le mal » avant les « profits et pertes ». Une voix rare dans l’univers technologique chinois
- Importance de l’innovation : DeepSeek estime que la Chine ne doit pas se contenter de suivre, mais participer au mouvement mondial de l’innovation technologique
- Culture organisationnelle autonome : plutôt qu’une gestion top-down, l’entreprise vise une atmosphère autonome et créative. Les chercheurs peuvent collaborer librement selon leurs idées et mobiliser les ressources nécessaires
- Recrutement des talents : plus que les critères traditionnels, DeepSeek valorise la curiosité et la passion ; la plupart des membres de l’équipe sont de jeunes chercheurs et diplômés d’universités locales
Vision de l’AGI
- Axes de recherche : DeepSeek explore la faisabilité de l’AGI autour des mathématiques, de la génération de code, de la multimodalité et de la compréhension du langage naturel
- Perspectives :
- La concrétisation de l’AGI serait possible dans un horizon de 2 à 10 ans, et les mathématiques ainsi que le code sont considérés comme des terrains de test idéaux pour l’AGI
- Le jeu final des grands modèles verrait des entreprises spécialisées dans les modèles de base et les services se répartir largement la spécialisation à chaque nœud de la chaîne de valeur
Position sur l’open source et l’innovation
- Valeur de l’open source : DeepSeek ne cherche pas son avantage technologique dans le closed source, mais dans la construction et le développement d’un écosystème technologique
- Vision de l’écosystème IA chinois : l’entreprise veut contribuer à faire passer la Chine au-delà de l’innovation d’application, vers une innovation technologique de 0 à 1
Conclusion
- DeepSeek suit une trajectoire différente de celle des startups chinoises traditionnelles de l’IA
- L’entreprise se concentre sur l’innovation technologique et la réalisation de l’AGI plutôt que sur les applications commerciales, avec l’ambition de prendre part au mouvement mondial de l’innovation technologique
- Cette approche pourrait avoir une influence majeure sur l’orientation future de l’IA en Chine
2 commentaires
Deepseek V3 a affiché de mauvaises performances sur des benchmarks testant la présence de surapprentissage
Avis sur Hacker News
Les restrictions sur les GPU ont créé un environnement qui pousse les développeurs chinois à être plus innovants et à faire plus avec moins de ressources
L’engouement autour de Deepseek est intéressant
La Chine devrait devenir un contributeur à mesure que son économie se développe
Deepseek est un nom qui se démarque dans la communauté open source des LLM depuis l’an dernier
Il est surprenant qu’il n’y ait aucune mention de la combinaison de l’ancienne IA symbolique avec les versions modernes du ML
La Chine a de fortes incitations à mener de la recherche pure pour briser sa dépendance aux GPU
L’une des raisons pour lesquelles l’API est bon marché est qu’il est explicitement indiqué que les données de l’API sont utilisées pour l’entraînement
J’espère que la concurrence entre les entreprises d’IA restera saine
Il est impressionnant que DeepSeek ait obtenu des performances équivalentes à celles de o1 et Claude avec 10 fois moins de ressources
Usage intéressant (et impropre) du mot "catfish"