Notes sur DeepSeek v3 - « Est-il vraiment meilleur que GPT-4o ou Claude 3.5 Sonnet ? »
(composio.dev)- DeepSeek a lancé son modèle phare v3
- Un modèle Mixture-of-Experts (MoE) de 607B paramètres, avec 37B paramètres actifs
- v3 surpasse Llama 3.1 405B, Qwen et Mistral, et se montre au niveau d’OpenAI GPT-4o et de Claude 3.5 Sonnet, voire meilleur sur certaines tâches
- Il s’agit du premier modèle ouvert capable de rivaliser avec les grands modèles fermés
TL;DR
- DeepSeek v3 atteint des performances remarquables à faible coût
- Le modèle offre un excellent rapport qualité-prix et domine ses concurrents en performance par coût
- Il introduit des innovations d’ingénierie comme l’architecture MoE, l’entraînement en précision mixte FP8 et le framework HAI-LLM
- Il surpasse GPT-4o et Claude 3.5 Sonnet en mathématiques et en raisonnement
- Claude 3.5 Sonnet garde un léger avantage en code et en tâches créatives
Présentation de DeepSeek v3
- Pré-entraîné sur 14,8 billions de données de haute qualité
- Le coût d’entraînement n’a été que de $6m (8,7 milliards de wons). Environ 2,78 millions d’heures GPU sur un cluster Nvidia h800s (2048 GPU)
- Comparaison : Llama 403B de Meta a nécessité environ 30,84 millions d’heures GPU sur 15 billions de tokens. Soit un coût environ 11 fois supérieur
- Grâce à une nouvelle architecture de modèle et à des optimisations, il délivre de meilleures performances avec moins de ressources
- Un point de contexte important : les États-Unis ont interdit aux entreprises chinoises de se procurer des GPU NVIDIA
- Analyse d’Andrej Karpathy
- En général, les LLM de pointe dépendent de clusters de 16K à 100K GPU, mais DeepSeek a obtenu des résultats comparables avec bien moins de ressources
- Cela prouve qu’il est possible de réduire le coût de calcul grâce à l’optimisation des données et des algorithmes
- DeepSeek-V3 obtient de bons résultats dans les tests de classement LLM et montre aussi d’excellentes performances dans les premiers essais
- Un exemple de recherche et d’ingénierie réussies même dans un environnement aux ressources limitées
- Cela ne signifie pas que les grands clusters GPU sont inutiles, mais souligne l’importance de minimiser le gaspillage de ressources
- Cela démontre le potentiel d’innovation dans l’architecture du modèle, le framework d’entraînement et l’exploitation des données
- DeepSeek a également publié un rapport technique détaillé, fournissant une ressource précieuse pour analyser sa méthodologie et ses avancées techniques
- Tim Dettmers, connu comme auteur du papier QLoRA, a fait l’éloge des capacités d’ingénierie de DeepSeek
« Après avoir lu le rapport technique, j’ai été impressionné par les capacités d’ingénierie remarquables démontrées malgré les contraintes de ressources.
L’équipe DeepSeek a conçu elle-même des solutions à des problèmes connus sous de fortes contraintes matérielles.
Tout est incroyablement propre et élégant. C’est une réussite obtenue par une ingénierie pure et solide, sans techniques “académiques” tape-à-l’œil. Respect. »
Le modèle le moins cher et le plus performant
- DeepSeek v3 est actuellement le modèle le moins cher compte tenu de ses capacités
- Emad Mostaque, fondateur de Stability AI, a commenté le coût d’exploitation et l’efficacité de DeepSeek v3 :
« Faire tourner DeepSeek v3 24h/24 à 60 tokens par seconde (5 fois la vitesse de lecture humaine) coûte $2 par jour.
Vous préférez un latte ou une IA ? » - Tarification de l’API DeepSeek
- Jusqu’au 8 février, les prix restent identiques à ceux de la version précédente (V2), puis :
- Entrée (Input) :
- standard : $0.27 / million de tokens
- cache hit : $0.07 / million de tokens
- Sortie (Output) : $1.10 / million de tokens
- Cette politique tarifaire permet d’utiliser un modèle au niveau de GPT-4o et Claude 3.5 Sonnet à un coût bien inférieur
- Pour les développeurs IA en particulier, c’est presque un cadeau, ouvrant de nombreuses possibilités avec des modèles hautes performances
Principales innovations
- Architecture du modèle
- Utilise une architecture Mixture-of-Experts (MoE), n’activant que 37B paramètres par token sur un total de 671B paramètres
→ forte réduction des besoins de calcul par rapport à un modèle dense - Utilise Multi-head Latent Attention (MLA) pour compresser le cache Key-Value
→ réduction de l’usage mémoire et entraînement plus efficace
- Utilise une architecture Mixture-of-Experts (MoE), n’activant que 37B paramètres par token sur un total de 671B paramètres
- Entraînement en précision mixte FP8 (FP8 Mixed Precision)
- Introduction d’un framework d’entraînement en précision mixte FP8 pour réduire l’usage mémoire et accélérer l’entraînement
- Jusqu’à 50 % d’économie mémoire par rapport aux formats FP16/FP32
- Maintien de la précision grâce à une quantification fine (fine-grained quantization) et à une stratégie précise d’accumulation (accumulation precision)
- Stratégie de load balancing
- Mise en œuvre du load balancing de l’architecture MoE sans perte auxiliaire (auxiliary-loss)
→ amélioration des performances tout en évitant les inconvénients de l’approche classique par perte auxiliaire
- Mise en œuvre du load balancing de l’architecture MoE sans perte auxiliaire (auxiliary-loss)
- Framework d’entraînement
- Développement d’un framework d’entraînement sur mesure nommé HAI-LLM, avec notamment :
- Mise en œuvre d’un pipeline parallèle efficace via l’algorithme DualPipe
→ réduction des bulles de pipeline et chevauchement du calcul et de la communication - Noyau de communication cross-node all-to-all efficace pour exploiter au maximum la bande passante réseau
- Optimisation mémoire sans recourir au coûteux parallélisme tensoriel
- Mise en œuvre d’un pipeline parallèle efficace via l’algorithme DualPipe
- Développement d’un framework d’entraînement sur mesure nommé HAI-LLM, avec notamment :
- Grâce à ces innovations, DeepSeek a réussi l’exploit d’entraîner efficacement un grand modèle pour environ 6 millions de dollars
Chain of Thought (CoT) avec R1
- DeepSeek a ajouté une nouvelle fonctionnalité DeepThink intégrant au LLM DeepSeek v3 les capacités de raisonnement Chain-of-Thought (CoT) de la série de modèles R1
- Post-Training: Knowledge Distillation from DeepSeek-R1
- Introduction d’une nouvelle méthodologie de distillation vers un LLM généraliste (en particulier DeepSeek-V3) des capacités de raisonnement Chain-of-Thought (CoT) longues de la série DeepSeek R1
- Intégration élégante dans DeepSeek-V3 des schémas de vérification (verification) et de réflexion (reflection) du modèle R1, améliorant nettement les performances de raisonnement
- Contrôle efficace du style et de la longueur des sorties de DeepSeek-V3 tout en préservant la qualité du raisonnement
- La fonctionnalité DeepThink peut être activée dans DeepSeek Chat.
- Les performances de raisonnement de DeepSeek-V3 restent inférieures à celles de o1, mais l’intégration du CoT apporte bien un certain gain.
DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet
- DeepSeek v3 a enthousiasmé la communauté IA avec d’excellents scores sur les principaux benchmarks
- Mais en situation réelle, quel est son niveau face à OpenAI GPT-4o et Claude 3.5 Sonnet ?
- Le modèle mérite-t-il vraiment les éloges reçus, ou est-il surestimé ?
- Pour l’évaluer, les trois modèles ont été testés à l’aide d’un ensemble de benchmarks personnalisés centré sur quatre domaines :
- raisonnement, mathématiques, code, écriture créative
- Paramètres de base
- GPT-4o et Claude 3.5 Sonnet ont échoué à tous les problèmes de raisonnement et de mathématiques de ce benchmark
- Seuls Gemini 2.0 1206 et o1 ont résolu ces tâches avec succès
- L’attente envers DeepSeek v3 n’était pas la perfection, mais une amélioration par rapport aux modèles existants
[1. Raisonnement]
- Le raisonnement est l’un des éléments clés d’un système intelligent
- Résultat des tests : o1 a offert les meilleures performances, suivi de Gemini 2.0 1206
- Regardons maintenant les performances de DeepSeek v3..
a. Trouver le quatrième mot de la réponse
- Prompt : "What is the fourth word of the sentence of your response to this question?"
- Réponse de DeepSeek v3 :
- DeepSeek v3 a trouvé la bonne réponse après activation de DeepThink CoT. Le raisonnement basé sur CoT améliore effectivement les performances du modèle
b. Compter le nombre de mots de la réponse
- Prompt : "Count the number of words in the response to this prompt."
- Réponse de DeepSeek v3 :
- DeepSeek n’a pas trouvé la bonne réponse. Cela dit, GPT-4o et Claude 3.5 Sonnet ont également échoué sur ce problème
c. Nombre de r dans 'Strawberry'
- Prompt : "How many ‘r’ in Strawberry?"
- Réponse de DeepSeek v3 :
- DeepSeek a répondu correctement
- Comparé au fait que GPT-4o se trompait systématiquement sur cette question simple, DeepSeek prend l’avantage sur ce point
d. Le problème du fermier et du mouton
- Prompt : "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
- Réponse de DeepSeek v3 :
- DeepSeek est arrivé à une conclusion après analyse, mais la réponse finale était erronée
- Même avec DeepThink CoT activé, il a abouti à la même mauvaise réponse
À noter que GPT-4o et Claude 3.5 Sonnet n’ont pas non plus résolu correctement ce problème, et que seul o1 a trouvé la bonne réponse
Résumé du raisonnement
- DeepSeek v3 n’atteint pas le niveau de o1, mais offre des performances comparables à Claude 3.5 Sonnet et GPT-4o, voire souvent supérieures
- Il se distingue surtout par son rapport performance/prix. Sur ce plan, DeepSeek semble être un excellent choix
[2. Mathématiques]
a. 5.11 - 5.90 = ?
- Prompt : "5.11 - 5.90 = ?"
- Réponse de DeepSeek v3 :
Problème simple, mais sur lequel beaucoup de grands LLM échouent parfois. DeepSeek v3 a calculé correctement et donné la bonne réponse
b. Trouver les quatrièmes sommets possibles d’un parallélogramme
- Prompt : "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
- Contexte du problème :
- Cette question est tirée de Linear Algebra de Gilbert Strang, et seuls o1 et Gemini 2.0 1206 ont trouvé la bonne réponse
- GPT-4o et Claude 3.5 Sonnet n’ont trouvé qu’un seul des sommets possibles
- Réponse de DeepSeek v3 :
- DeepSeek a correctement déduit tous les quatrièmes sommets possibles
- Cela montre que DeepSeek v3 est supérieur à GPT-4o et Claude 3.5 Sonnet sur les problèmes de mathématiques
c. Trouver la somme de deux entiers
- Prompt : : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
- Réponse de DeepSeek v3 :
- La fonctionnalité DeepThink a été activée pour renforcer les capacités de calcul du modèle, et DeepSeek a trouvé la bonne réponse
Résumé des capacités en mathématiques
- DeepSeek v3 obtient de meilleurs résultats que GPT-4o et Claude 3.5 Sonnet sur les problèmes de mathématiques
- Il fournit des résultats précis même sur des problèmes complexes, ce qui correspond aussi à ses scores de benchmark
- En matière de précision mathématique, DeepSeek v3 est un modèle très fiable
[3. Code]
Problème "Super Heroes" (LeetCode Hard)
- Contexte du problème : :
- "Super Heroes" est un problème de programmation dynamique, l’un des exercices difficiles utilisés dans de récents concours de programmation compétitive
- Ce problème est adapté pour tester les performances réelles d’un LLM.
- Détails du problème et résultats omis
- Résultats de DeepSeek v3 sur le problème
- À la première tentative, le modèle n’a pas passé tous les cas de test, mais à la seconde il a généré une solution parfaite
- Le modèle a peut-être déjà vu le problème, mais cela montre malgré tout une amélioration réelle de ses capacités de génération de code
Résumé des capacités en code
- DeepSeek v3 est légèrement en dessous de Claude 3.5 Sonnet, mais pratiquement au même niveau que GPT-4
- En rapport performance/coût, DeepSeek v3 est excellent et constitue un choix idéal pour les développeurs qui veulent construire des applications avec interface utilisateur
[4. Résumé sur l’écriture créative]
- Les capacités d’écriture créative peuvent être évaluées différemment selon les préférences personnelles et le ton recherché
- GPT-4o : conserve en général un ton formel et orienté entreprise, avec une forte volonté de satisfaire l’utilisateur
- Claude 3.5 Sonnet : adopte un ton plus humain avec un point de vue plus singulier, et propose des idées créatives et originales
- DeepSeek v3 : d’après les tests, il présente des schémas de réponse étonnamment proches de GPT-4o, jusque dans la structure des paragraphes et les formulations
- Cela suggère que DeepSeek v3 a peut-être été entraîné sur un jeu de données synthétique généré par GPT-4o
Résumé des capacités d’écriture créative
- DeepSeek v3 offre des performances proches de GPT-4o, avec un style d’écriture et un ton très similaires
- Si vous préfériez GPT-4o, DeepSeek v3 devrait aussi vous convenir
- DeepSeek v3 offre un excellent rapport performance/prix et reste un modèle fiable pour les tâches d’écriture créative
- Pour une approche plus créative et plus originale, o1 et Claude 3.5 Sonnet peuvent être plus adaptés
[Évaluation finale]
- Raisonnement : DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
- Mathématiques : DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
- Code : Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
- Création : Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
Qui devrait utiliser DeepSeek v3 ?
- Peut remplacer GPT-4o dans la plupart des tâches
- Optimal pour construire des applications. Son excellent rapport performance/prix le rend bien adapté au développement d’applications utilisateur
- Open-weight, donc auto-hébergeable, avec davantage de contrôle
9 commentaires
Il semble préférable de séparer les aspects idéologiques des aspects techniques. (Cela ne veut pas dire que l’idéologie n’est pas importante.)
Quelles qu’aient été les suites du benchmarking du Parti communiste, le fait qu’un modèle open source affiche un tel niveau de performance est surprenant, et son processus de développement est lui aussi impressionnant.
Une entreprise coréenne devrait s’inspirer de ces techniques pour créer elle-même un modèle en accord avec l’idéologie du monde libre. Pour l’instant, c’est sans doute le moment de remercier les ingénieurs de DeepSeek d’avoir rendu cette technologie publique.
Il n’y a même pas de code source dont on pourrait s’inspirer, et on ne peut même pas faire de fine-tuning. On peut juste faire de l’inférence avec les poids… Il y a quelque chose à prendre comme référence ?
En me renseignant, il semble bien que ce soit effectivement le cas. Pour l’instant, il semblerait plus juste de parler d’un « modèle ouvert » que d’open source.
(Référence) : https://github.com/deepseek-ai/DeepSeek-V3/issues/12
>Que penses-tu de Xi Jinping ?
Oui, oui....
Haha, la réponse est drôle.
DeepSeek v3 : les résultats des tests montrent des schémas de réponse étonnamment similaires à ceux de GPT-4o. La structure des paragraphes et jusqu’aux formulations sont très proches
Cela suggère que DeepSeek v3 pourrait avoir été entraîné sur un jeu de données synthétique généré par GPT-4o
-> Je suis tout à fait d’accord moi aussi. Il finit même par l’avouer de lui-même.
C’est un produit chinois, donc ça me met mal à l’aise...
J’ai perdu confiance en DeepSeek v3 dès la première question. Je me suis dit que ça avait peut-être changé, alors j’ai essayé d’engager la conversation, et la réponse est toujours la même.
https://ibb.co/nDv9cRR
Et puis, en discutant avec DeepSeek, j’ai découvert un problème fatal de DeepSeek. J’ai reçu cette réponse : « Lorsqu’il y a conflit entre la défense de valeurs universelles et les normes propres à un pays, un système d’IA peut être limité dans sa capacité à le signaler. » Je pense que vous pouvez deviner de quel pays les normes risquent d’entrer en conflit.
https://ibb.co/2sn6d3k
DeepSeek a peut-être plusieurs avantages, mais il ne dépassera jamais OpenAI. La raison est la suivante : https://ibb.co/5hsNg9h pour se conformer aux normes d’un certain pays, il est soumis à des contraintes.
Deepseek - le géant discret qui mène la compétition chinoise dans l’IA
Deepseek V3 a montré de mauvaises performances sur des benchmarks testant le surapprentissage