6 points par GN⁺ 2025-01-01 | 2 commentaires | Partager sur WhatsApp
  • DeepSeek est une startup chinoise de l’IA, dont le modèle R1 récemment annoncé dépasse le modèle o1 d’OpenAI sur plusieurs benchmarks de raisonnement
  • Bien que peu connue du grand public, elle s’est imposée comme un laboratoire d’IA à suivre

Contexte et stratégie de DeepSeek

  • Son CEO, Liang Wenfeng, est le fondateur de High-Flyer, autrefois l’un des quatre plus grands hedge funds de Chine, et DeepSeek bénéficie du soutien massif de cette entreprise
  • L’entreprise met l’accent sur le développement de technologies fondamentales plutôt que sur les applications commerciales, et adopte une stratégie consistant à publier tous ses modèles en open source
  • Elle a accès au cluster de calcul de High-Flyer et disposerait de plus de 50 000 GPU Hopper
  • Elle se concentre sur le développement de l’AGI (intelligence artificielle générale). Les recherches portent sur des innovations structurelles et algorithmiques susceptibles de changer la donne

Principales innovations techniques

  • Améliorations de l’architecture des modèles
    • MLA (Multi-head Latent Attention) : réduit l’utilisation mémoire à 5 à 13 % du niveau précédent
    • DeepSeekMoE (Sparse Mixture of Experts) : réduit fortement les coûts de calcul
  • Déclenchement d’une guerre des prix
    • Le modèle DeepSeek V2 a proposé un coût d’inférence de 1 RMB par million de tokens, déclenchant une vaste guerre des prix parmi les grands groupes technologiques chinois
  • Reconnaissance internationale
    • Les articles de DeepSeek ont été salués comme « l’un des meilleurs papiers de l’année » et ont reçu les éloges de la Silicon Valley comme de la communauté internationale de l’IA

Philosophie de recherche et culture organisationnelle de DeepSeek

  • Idéalisme technologique : DeepSeek revendique un idéalisme technologique, faisant passer le « bien et le mal » avant les « profits et pertes ». Une voix rare dans l’univers technologique chinois
  • Importance de l’innovation : DeepSeek estime que la Chine ne doit pas se contenter de suivre, mais participer au mouvement mondial de l’innovation technologique
  • Culture organisationnelle autonome : plutôt qu’une gestion top-down, l’entreprise vise une atmosphère autonome et créative. Les chercheurs peuvent collaborer librement selon leurs idées et mobiliser les ressources nécessaires
  • Recrutement des talents : plus que les critères traditionnels, DeepSeek valorise la curiosité et la passion ; la plupart des membres de l’équipe sont de jeunes chercheurs et diplômés d’universités locales

Vision de l’AGI

  • Axes de recherche : DeepSeek explore la faisabilité de l’AGI autour des mathématiques, de la génération de code, de la multimodalité et de la compréhension du langage naturel
  • Perspectives :
    • La concrétisation de l’AGI serait possible dans un horizon de 2 à 10 ans, et les mathématiques ainsi que le code sont considérés comme des terrains de test idéaux pour l’AGI
    • Le jeu final des grands modèles verrait des entreprises spécialisées dans les modèles de base et les services se répartir largement la spécialisation à chaque nœud de la chaîne de valeur

Position sur l’open source et l’innovation

  • Valeur de l’open source : DeepSeek ne cherche pas son avantage technologique dans le closed source, mais dans la construction et le développement d’un écosystème technologique
  • Vision de l’écosystème IA chinois : l’entreprise veut contribuer à faire passer la Chine au-delà de l’innovation d’application, vers une innovation technologique de 0 à 1

Conclusion

  • DeepSeek suit une trajectoire différente de celle des startups chinoises traditionnelles de l’IA
  • L’entreprise se concentre sur l’innovation technologique et la réalisation de l’AGI plutôt que sur les applications commerciales, avec l’ambition de prendre part au mouvement mondial de l’innovation technologique
  • Cette approche pourrait avoir une influence majeure sur l’orientation future de l’IA en Chine

2 commentaires

 
GN⁺ 2025-01-01
Avis sur Hacker News
  • Les restrictions sur les GPU ont créé un environnement qui pousse les développeurs chinois à être plus innovants et à faire plus avec moins de ressources

    • Éloges à l’équipe de Deepseek
  • L’engouement autour de Deepseek est intéressant

    • Il existe des raisons structurelles et fondamentales pour lesquelles Deepseek ne peut pas largement surpasser les autres modèles
      • La guerre commerciale entre les États-Unis et la Chine pourrait désavantager Deepseek en matière de disponibilité de calcul
      • La censure chinoise impose dans une certaine mesure des limites à la collecte de données et aux sorties de Deepseek
      • Comme Deepseek est open source, les autres modèles peuvent facilement le copier
    • J’utilise régulièrement Gemini, ChatGPT, Deepseek et Claudie, et Deepseek n’est ni particulièrement meilleur ni particulièrement pire que les autres modèles
    • J’aimerais savoir pourquoi certains pensent que Deepseek va complètement dominer le domaine des LLM
  • La Chine devrait devenir un contributeur à mesure que son économie se développe

    • Au cours des 30 dernières années, elle n’a pas vraiment participé à l’innovation IT
    • Elle a abordé les lois d’échelle en s’appuyant sur la loi de Moore, en attendant simplement un meilleur matériel et de meilleurs logiciels
  • Deepseek est un nom qui se démarque dans la communauté open source des LLM depuis l’an dernier

    • Ses dépenses marketing sont plus faibles que celles des autres acteurs chinois des LLM
  • Il est surprenant qu’il n’y ait aucune mention de la combinaison de l’ancienne IA symbolique avec les versions modernes du ML

  • La Chine a de fortes incitations à mener de la recherche pure pour briser sa dépendance aux GPU

    • Espérons qu’on n’en vienne pas à attaquer les mathématiciens des uns et des autres au nom de la science
  • L’une des raisons pour lesquelles l’API est bon marché est qu’il est explicitement indiqué que les données de l’API sont utilisées pour l’entraînement

    • OpenAI et Claude disent qu’ils n’utiliseront pas les données à des fins d’entraînement si l’on passe par leur API
  • J’espère que la concurrence entre les entreprises d’IA restera saine

    • J’espère qu’elles continueront à partager leurs technologies et leurs articles afin que l’ensemble du secteur progresse
  • Il est impressionnant que DeepSeek ait obtenu des performances équivalentes à celles de o1 et Claude avec 10 fois moins de ressources

    • De meilleurs algorithmes et de meilleures approches sont nécessaires pour la prochaine étape du ML
  • Usage intéressant (et impropre) du mot "catfish"

    • Différent de son sens habituel