41 points par xguru 2025-01-25 | 5 commentaires | Partager sur WhatsApp
  • À cause de DeepSeek V3, qui a déjà dépassé Llama 4 sur les benchmarks
  • En plus, le choc est encore plus grand parce qu’« une entreprise chinoise peu connue n’aurait dépensé que 5,5 M pour l’entraînement »
  • Les ingénieurs s’activent comme des fous pour disséquer DeepSeek et imiter tout ce qui peut l’être
  • La direction s’inquiète de la manière de justifier les coûts énormes de l’organisation IA générative
  • Un seul des « leaders » de l’organisation IA générative est payé davantage que le coût total d’entraînement de DeepSeek v3, et il y a des dizaines de leaders de ce genre
  • DeepSeek r1 fait encore plus peur. Les informations confidentielles ne peuvent pas être révélées, mais cela sera bientôt rendu public
  • L’ingénierie aurait dû rester une petite organisation, mais beaucoup de gens voulaient participer à cette ruée vers l’impact, et le gonflement artificiel des recrutements dans l’organisation a fini par nuire à tout le monde

Commentaires

  • Employé Google 1 : Ce que fait DeepSeek est vraiment impressionnant. Cela met la pression non seulement sur Meta, mais aussi sur OpenAI, Google et Anthropic. Le bon côté, c’est qu’on peut voir en temps réel à quel point la concurrence ouverte est efficace pour stimuler l’innovation.
  • Employé Apple 1 : C’est pour ça que je détiens des actions Meta. Analyser les concurrents, les imiter et gagner, c’est dans votre ADN. Continuez comme ça !
  • Employé Meta 1 : Beaucoup de dirigeants ne comprennent littéralement rien à la technologie de base (et n’ont même pas beaucoup de connaissances en ingénierie), tout en répétant aux autres dirigeants que « plus de GPU = victoire ». La situation est encore aggravée par des idées stupides, comme générer du contenu IA sur Instagram pour encourager la participation (même si cela semble un peu en retrait en ce moment).
  • Employé Meta 2 : Achetez simplement DeepSeek
  • Employé Samsung 1 : Sam Altman est un escroc. LIANG Wenfeng, le CEO de DeepSeek, c’est Ilya Sutskever, DeepSeek est l’ancien OpenAI, et OpenAI est devenu ClosedAI.
  • Employé Google 2 : DeepSeek a publié un article décrivant tous les composants de son nouveau modèle fondé sur le RL, ce qui permet à des entreprises comme Meta de copier directement puis de vérifier
  • Employé Meta 3 : Comment une organisation comme Meta, avec le « plus grand cluster de GPU au monde », peut-elle ne même pas entrer dans le top 10 des benchmarks ? Grok dépassera bientôt DeepSeek
  • Employé Meta 4 : DeepSeek est contrôlé par la Chine, ne partage pas de données réelles et est fortement censuré par le Parti communiste chinois. Si vous lui demandez : « Le Parti communiste chinois limite-t-il la liberté des gens ? », vous aurez la réponse. Peu importe la question, il répète seulement des choses comme « à quel point la Chine est formidable ». Il ne donne que des affirmations sans information.
  • Employé de Chime : Et le mieux, c’est qu’ils font tout cela avec des GPU H800, loin des performances des H100. C’est vraiment impressionnant. Tout mon respect et mes applaudissements à toutes les équipes de DeepSeek. L’article sur les Residual Networks venu de Chine était une publication révolutionnaire qui a complètement transformé les réseaux neuronaux et nous a appris qu’on pouvait utiliser des milliards de paramètres. Je respecte les Chinois qui ont résolu un problème extrêmement difficile !
  • Employé de Blizzard : Cela me donne de l’espoir : à l’ère de l’IA, il n’y a pas de véritable moat, et de meilleurs modèles open source sortiront, sinon au niveau des modèles closed source, du moins très proches. Plus la concurrence devient intense dans ce domaine, mieux c’est aussi pour nous.

5 commentaires

 
jhj0517 2025-01-25

J’ai l’impression que la concurrence, c’est une bonne chose 👏

 
mammal 2025-01-25

Si l’on met de côté, pour l’instant, les questions d’idéologie et de censure, le niveau d’ingénierie des modèles DeepSeek cette fois-ci est vraiment impressionnant.

Je trouvais déjà que le MLA utilisé dans l’architecture V2.5 relevait d’une idée géniale, mais cette fois ils ont même démontré le potentiel du MTP, réussi à reproduire parfaitement le modèle O1 avec R1, et le fait qu’ils aient réussi à faire émerger de telles techniques d’entraînement malgré des contraintes matérielles dues aux restrictions à l’exportation est tout simplement remarquable.

Si vous vous intéressez au ML, lisez absolument les DeepSeek Technical Report V2.5, V3 et R1. On ne peut qu’être admiratif. Je n’arrive toujours pas à comprendre qu’ils aient publié tout cela sous licence MIT.

 
mammal 2025-01-25

Dans le cas de LLaMA, j’avais déjà fortement l’impression qu’entre LLaMA 2 et 3, il n’y avait presque pas eu d’innovation architecturale et qu’on s’était surtout contenté d’augmenter l’échelle de l’entraînement ; je pense que c’en était le signe avant-coureur.

 
play1204dev 2025-01-25

Même avec tous ces efforts pour contenir la Chine et jusqu’aux restrictions à l’exportation des GPU, voir un tel résultat est à la fois impressionnant et inquiétant ; de façon plus positive, j’y vois un rôle d’aiguillon tout à fait suffisant. Au final, personne ne peut nier qu’OpenAI est en tête.