Deepseek - le géant discret qui mène la compétition de l’IA en Chine

(chinatalk.media)

6 points par GN⁺ 2025-01-01 | 2 commentaires | Partager sur WhatsApp

DeepSeek est une startup chinoise de l’IA, dont le modèle R1 récemment annoncé dépasse le modèle o1 d’OpenAI sur plusieurs benchmarks de raisonnement
Bien que peu connue du grand public, elle s’est imposée comme un laboratoire d’IA à suivre

Contexte et stratégie de DeepSeek

Son CEO, Liang Wenfeng, est le fondateur de High-Flyer, autrefois l’un des quatre plus grands hedge funds de Chine, et DeepSeek bénéficie du soutien massif de cette entreprise
L’entreprise met l’accent sur le développement de technologies fondamentales plutôt que sur les applications commerciales, et adopte une stratégie consistant à publier tous ses modèles en open source
Elle a accès au cluster de calcul de High-Flyer et disposerait de plus de 50 000 GPU Hopper
Elle se concentre sur le développement de l’AGI (intelligence artificielle générale). Les recherches portent sur des innovations structurelles et algorithmiques susceptibles de changer la donne

Principales innovations techniques

Améliorations de l’architecture des modèles
- MLA (Multi-head Latent Attention) : réduit l’utilisation mémoire à 5 à 13 % du niveau précédent
- DeepSeekMoE (Sparse Mixture of Experts) : réduit fortement les coûts de calcul
Déclenchement d’une guerre des prix
- Le modèle DeepSeek V2 a proposé un coût d’inférence de 1 RMB par million de tokens, déclenchant une vaste guerre des prix parmi les grands groupes technologiques chinois
Reconnaissance internationale
- Les articles de DeepSeek ont été salués comme « l’un des meilleurs papiers de l’année » et ont reçu les éloges de la Silicon Valley comme de la communauté internationale de l’IA

Philosophie de recherche et culture organisationnelle de DeepSeek

Idéalisme technologique : DeepSeek revendique un idéalisme technologique, faisant passer le « bien et le mal » avant les « profits et pertes ». Une voix rare dans l’univers technologique chinois
Importance de l’innovation : DeepSeek estime que la Chine ne doit pas se contenter de suivre, mais participer au mouvement mondial de l’innovation technologique
Culture organisationnelle autonome : plutôt qu’une gestion top-down, l’entreprise vise une atmosphère autonome et créative. Les chercheurs peuvent collaborer librement selon leurs idées et mobiliser les ressources nécessaires
Recrutement des talents : plus que les critères traditionnels, DeepSeek valorise la curiosité et la passion ; la plupart des membres de l’équipe sont de jeunes chercheurs et diplômés d’universités locales

Vision de l’AGI

Axes de recherche : DeepSeek explore la faisabilité de l’AGI autour des mathématiques, de la génération de code, de la multimodalité et de la compréhension du langage naturel
Perspectives :
- La concrétisation de l’AGI serait possible dans un horizon de 2 à 10 ans, et les mathématiques ainsi que le code sont considérés comme des terrains de test idéaux pour l’AGI
- Le jeu final des grands modèles verrait des entreprises spécialisées dans les modèles de base et les services se répartir largement la spécialisation à chaque nœud de la chaîne de valeur

Position sur l’open source et l’innovation

Valeur de l’open source : DeepSeek ne cherche pas son avantage technologique dans le closed source, mais dans la construction et le développement d’un écosystème technologique
Vision de l’écosystème IA chinois : l’entreprise veut contribuer à faire passer la Chine au-delà de l’innovation d’application, vers une innovation technologique de 0 à 1

Conclusion

DeepSeek suit une trajectoire différente de celle des startups chinoises traditionnelles de l’IA
L’entreprise se concentre sur l’innovation technologique et la réalisation de l’AGI plutôt que sur les applications commerciales, avec l’ambition de prendre part au mouvement mondial de l’innovation technologique
Cette approche pourrait avoir une influence majeure sur l’orientation future de l’IA en Chine

2 commentaires

xguru 2025-01-03

Deepseek V3 a affiché de mauvaises performances sur des benchmarks testant la présence de surapprentissage

GN⁺ 2025-01-01

Avis sur Hacker News

Les restrictions sur les GPU ont créé un environnement qui pousse les développeurs chinois à être plus innovants et à faire plus avec moins de ressources
- Éloges à l’équipe de Deepseek
L’engouement autour de Deepseek est intéressant
- Il existe des raisons structurelles et fondamentales pour lesquelles Deepseek ne peut pas largement surpasser les autres modèles
  - La guerre commerciale entre les États-Unis et la Chine pourrait désavantager Deepseek en matière de disponibilité de calcul
  - La censure chinoise impose dans une certaine mesure des limites à la collecte de données et aux sorties de Deepseek
  - Comme Deepseek est open source, les autres modèles peuvent facilement le copier
- J’utilise régulièrement Gemini, ChatGPT, Deepseek et Claudie, et Deepseek n’est ni particulièrement meilleur ni particulièrement pire que les autres modèles
- J’aimerais savoir pourquoi certains pensent que Deepseek va complètement dominer le domaine des LLM
La Chine devrait devenir un contributeur à mesure que son économie se développe
- Au cours des 30 dernières années, elle n’a pas vraiment participé à l’innovation IT
- Elle a abordé les lois d’échelle en s’appuyant sur la loi de Moore, en attendant simplement un meilleur matériel et de meilleurs logiciels
Deepseek est un nom qui se démarque dans la communauté open source des LLM depuis l’an dernier
- Ses dépenses marketing sont plus faibles que celles des autres acteurs chinois des LLM
Il est surprenant qu’il n’y ait aucune mention de la combinaison de l’ancienne IA symbolique avec les versions modernes du ML
La Chine a de fortes incitations à mener de la recherche pure pour briser sa dépendance aux GPU
- Espérons qu’on n’en vienne pas à attaquer les mathématiciens des uns et des autres au nom de la science
L’une des raisons pour lesquelles l’API est bon marché est qu’il est explicitement indiqué que les données de l’API sont utilisées pour l’entraînement
- OpenAI et Claude disent qu’ils n’utiliseront pas les données à des fins d’entraînement si l’on passe par leur API
J’espère que la concurrence entre les entreprises d’IA restera saine
- J’espère qu’elles continueront à partager leurs technologies et leurs articles afin que l’ensemble du secteur progresse
Il est impressionnant que DeepSeek ait obtenu des performances équivalentes à celles de o1 et Claude avec 10 fois moins de ressources
- De meilleurs algorithmes et de meilleures approches sont nécessaires pour la prochaine étape du ML
Usage intéressant (et impropre) du mot "catfish"
- Différent de son sens habituel

Deepseek - le géant discret qui mène la compétition de l’IA en Chine

Contexte et stratégie de DeepSeek

Principales innovations techniques

Philosophie de recherche et culture organisationnelle de DeepSeek

Vision de l’AGI

Position sur l’open source et l’innovation

Conclusion

À lire aussi

2 commentaires

Avis sur Hacker News