Notes sur DeepSeek v3 - « Est-il vraiment meilleur que GPT-4o ou Claude 3.5 Sonnet ? »

xguru · 2025-01-03T11:34:31+09:00

DeepSeek a lancé son modèle phare v3 Un modèle Mixture-of-Experts (MoE) de 607B paramètres, avec 37B paramètres actifs v3 surpasse Llama 3.1 405B, Qwen et Mistral, et se montre au niveau d’OpenAI GPT-4o et de Claude 3.5 Sonnet, voire meilleur sur certaines tâches Il s’agit du premier modèle ouvert capable de rivaliser avec les grands modèles fermés TL;DR DeepSeek v3 atteint des performances remarquables à faible coût Le modèle offre un excellent rapport qualité-prix et domine ses concurrents en performance par coût Il introduit des innovations d’ingénierie comme l’architecture MoE, l’entraînement en précision mixte FP8 et le framework HAI-LLM Il surpasse GPT-4o et Claude 3.5 Sonnet en mathématiques et en raisonnement Claude 3.5 Sonnet garde un léger avantage en code et en tâches créatives Présentation de DeepSeek v3 Pré-entraîné sur 14,8 billions de données de haute qualité Le coût d’entraînement n’a été que de $6m (8,7 milliards de wons). Environ 2,78 millions d’heures GPU sur un cluster Nvidia h800s (2048 GPU) Comparaison : Llama 403B de Meta a nécessité environ 30,84 millions d’heures GPU sur 15 billions de tokens. Soit un coût environ 11 fois supérieur Grâce à une nouvelle architecture de modèle et à des optimisations, il délivre de meilleures performances avec moins de ressources Un point de contexte important : les États-Unis ont interdit aux entreprises chinoises de se procurer des GPU NVIDIA Analyse d’Andrej Karpathy En général, les LLM de pointe dépendent de clusters de 16K à 100K GPU, mais DeepSeek a obtenu des résultats comparables avec bien moins de ressources Cela prouve qu’il est possible de réduire le coût de calcul grâce à l’optimisation des données et des algorithmes DeepSeek-V3 obtient de bons résultats dans les tests de classement LLM et montre aussi d’excellentes performances dans les premiers essais Un exemple de recherche et d’ingénierie réussies même dans un environnement aux ressources limitées Cela ne signifie pas que les grands clusters GPU sont inutiles, mais souligne l’importance de minimiser le gaspillage de ressources Cela démontre le potentiel d’innovation dans l’architecture du modèle, le framework d’entraînement et l’exploitation des données DeepSeek a également publié un rapport technique détaillé, fournissant une ressource précieuse pour analyser sa méthodologie et ses avancées techniques Tim Dettmers, connu comme auteur du papier QLoRA, a fait l’éloge des capacités d’ingénierie de DeepSeek « Après avoir lu le rapport technique, j’ai été impressionné par les capacités d’ingénierie remarquables démontrées malgré les contraintes de ressources. L’équipe DeepSeek a conçu elle-même des solutions à des problèmes connus sous de fortes contraintes matérielles. Tout est incroyablement propre et élégant. C’est une réussite obtenue par une ingénierie pure et solide, sans techniques “académiques” tape-à-l’œil. Respect. » Le modèle le moins cher et le plus performant DeepSeek v3 est actuellement le modèle le moins cher compte tenu de ses capacités Emad Mostaque, fondateur de Stability AI, a commenté le coût d’exploitation et l’efficacité de DeepSeek v3 : « Faire tourner DeepSeek v3 24h/24 à 60 tokens par seconde (5 fois la vitesse de lecture humaine) coûte $2 par jour. Vous préférez un latte ou une IA ? » Tarification de l’API DeepSeek Jusqu’au 8 février, les prix restent identiques à ceux de la version précédente (V2), puis : Entrée (Input) : standard : $0.27 / million de tokens cache hit : $0.07 / million de tokens Sortie (Output) : $1.10 / million de tokens Cette politique tarifaire permet d’utiliser un modèle au niveau de GPT-4o et Claude 3.5 Sonnet à un coût bien inférieur Pour les développeurs IA en particulier, c’est presque un cadeau, ouvrant de nombreuses possibilités avec des modèles hautes performances Principales innovations Architecture du modèle Utilise une architecture Mixture-of-Experts (MoE), n’activant que 37B paramètres par token sur un total de 671B paramètres → forte réduction des besoins de calcul par rapport à un modèle dense Utilise Multi-head Latent Attention (MLA) pour compresser le cache Key-Value → réduction de l’usage mémoire et entraînement plus efficace Entraînement en précision mixte FP8 (FP8 Mixed Precision) Introduction d’un framework d’entraînement en précision mixte FP8 pour réduire l’usage mémoire et accélérer l’entraînement Jusqu’à 50 % d’économie mémoire par rapport aux formats FP16/FP32 Maintien de la précision grâce à une quantification fine (fine-grained quantization) et à une stratégie précise d’accumulation (accumulation precision) Stratégie de load balancing Mise en œuvre du load balancing de l’architecture MoE sans perte auxiliaire (auxiliary-loss) → amélioration des performances tout en évitant les inconvénients de l’approche classique par perte auxiliaire Framework d’entraînement Développement d’un framework d’entraînement sur mesure nommé HAI-LLM, avec notamment : Mise en œuvre d’un pipeline parallèle efficace via l’algorithme DualPipe → réduction des bulles de pipeline et chevauchement du calcul et de la communication Noyau de communication cross-node all-to-all efficace pour exploiter au maximum la bande passante réseau Optimisation mémoire sans recourir au coûteux parallélisme tensoriel Grâce à ces innovations, DeepSeek a réussi l’exploit d’entraîner efficacement un grand modèle pour environ 6 millions de dollars Chain of Thought (CoT) avec R1 DeepSeek a ajouté une nouvelle fonctionnalité DeepThink intégrant au LLM DeepSeek v3 les capacités de raisonnement Chain-of-Thought (CoT) de la série de modèles R1 Post-Training: Knowledge Distillation from DeepSeek-R1 Introduction d’une nouvelle méthodologie de distillation vers un LLM généraliste (en particulier DeepSeek-V3) des capacités de raisonnement Chain-of-Thought (CoT) longues de la série DeepSeek R1 Intégration élégante dans DeepSeek-V3 des schémas de vérification (verification) et de réflexion (reflection) du modèle R1, améliorant nettement les performances de raisonnement Contrôle efficace du style et de la longueur des sorties de DeepSeek-V3 tout en préservant la qualité du raisonnement La fonctionnalité DeepThink peut être activée dans DeepSeek Chat. Les performances de raisonnement de DeepSeek-V3 restent inférieures à celles de o1, mais l’intégration du CoT apporte bien un certain gain. DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet DeepSeek v3 a enthousiasmé la communauté IA avec d’excellents scores sur les principaux benchmarks Mais en situation réelle, quel est son niveau face à OpenAI GPT-4o et Claude 3.5 Sonnet ? Le modèle mérite-t-il vraiment les éloges reçus, ou est-il surestimé ? Pour l’évaluer, les trois modèles ont été testés à l’aide d’un ensemble de benchmarks personnalisés centré sur quatre domaines : raisonnement, mathématiques, code, écriture créative Paramètres de base GPT-4o et Claude 3.5 Sonnet ont échoué à tous les problèmes de raisonnement et de mathématiques de ce benchmark Seuls Gemini 2.0 1206 et o1 ont résolu ces tâches avec succès L’attente envers DeepSeek v3 n’était pas la perfection, mais une amélioration par rapport aux modèles existants [1. Raisonnement] Le raisonnement est l’un des éléments clés d’un système intelligent Résultat des tests : o1 a offert les meilleures performances, suivi de Gemini 2.0 1206 Regardons maintenant les performances de DeepSeek v3.. a. Trouver le quatrième mot de la réponse Prompt : "What is the fourth word of the sentence of your response to this question?" Réponse de DeepSeek v3 : DeepSeek v3 a trouvé la bonne réponse après activation de DeepThink CoT. Le raisonnement basé sur CoT améliore effectivement les performances du modèle b. Compter le nombre de mots de la réponse Prompt : "Count the number of words in the response to this prompt." Réponse de DeepSeek v3 : DeepSeek n’a pas trouvé la bonne réponse. Cela dit, GPT-4o et Claude 3.5 Sonnet ont également échoué sur ce problème c. Nombre de r dans 'Strawberry' Prompt : "How many ‘r’ in Strawberry?" Réponse de DeepSeek v3 : DeepSeek a répondu correctement Comparé au fait que GPT-4o se trompait systématiquement sur cette question simple, DeepSeek prend l’avantage sur ce point d. Le problème du fermier et du mouton Prompt : "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?" Réponse de DeepSeek v3 : DeepSeek est arrivé à une conclusion après analyse, mais la réponse finale était erronée Même avec DeepThink CoT activé, il a abouti à la même mauvaise réponse À noter que GPT-4o et Claude 3.5 Sonnet n’ont pas non plus résolu correctement ce problème, et que seul o1 a trouvé la bonne réponse Résumé du raisonnement DeepSeek v3 n’atteint pas le niveau de o1, mais offre des performances comparables à Claude 3.5 Sonnet et GPT-4o, voire souvent supérieures Il se distingue surtout par son rapport performance/prix. Sur ce plan, DeepSeek semble être un excellent choix [2. Mathématiques] a. 5.11 - 5.90 = ? Prompt : "5.11 - 5.90 = ?" Réponse de DeepSeek v3 : Problème simple, mais sur lequel beaucoup de grands LLM échouent parfois. DeepSeek v3 a calculé correctement et donné la bonne réponse b. Trouver les quatrièmes sommets possibles d’un parallélogramme Prompt : "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?" Contexte du problème : Cette question est tirée de Linear Algebra de Gilbert Strang, et seuls o1 et Gemini 2.0 1206 ont trouvé la bonne réponse GPT-4o et Claude 3.5 Sonnet n’ont trouvé qu’un seul des sommets possibles Réponse de DeepSeek v3 : DeepSeek a correctement déduit tous les quatrièmes sommets possibles Cela montre que DeepSeek v3 est supérieur à GPT-4o et Claude 3.5 Sonnet sur les problèmes de mathématiques c. Trouver la somme de deux entiers Prompt : : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?" Réponse de DeepSeek v3 : La fonctionnalité DeepThink a été activée pour renforcer les capacités de calcul du modèle, et DeepSeek a trouvé la bonne réponse Résumé des capacités en mathématiques DeepSeek v3 obtient de meilleurs résultats que GPT-4o et Claude 3.5 Sonnet sur les problèmes de mathématiques Il fournit des résultats précis même sur des problèmes complexes, ce qui correspond aussi à ses scores de benchmark En matière de précision mathématique, DeepSeek v3 est un modèle très fiable [3. Code] Problème "Super Heroes" (LeetCode Hard) Contexte du problème : : "Super Heroes" est un problème de programmation dynamique, l’un des exercices difficiles utilisés dans de récents concours de programmation compétitive Ce problème est adapté pour tester les performances réelles d’un LLM. Détails du problème et résultats omis Résultats de DeepSeek v3 sur le problème À la première tentative, le modèle n’a pas passé tous les cas de test, mais à la seconde il a généré une solution parfaite Le modèle a peut-être déjà vu le problème, mais cela montre malgré tout une amélioration réelle de ses capacités de génération de code Résumé des capacités en code DeepSeek v3 est légèrement en dessous de Claude 3.5 Sonnet, mais pratiquement au même niveau que GPT-4 En rapport performance/coût, DeepSeek v3 est excellent et constitue un choix idéal pour les développeurs qui veulent construire des applications avec interface utilisateur [4. Résumé sur l’écriture créative] Les capacités d’écriture créative peuvent être évaluées différemment selon les préférences personnelles et le ton recherché GPT-4o : conserve en général un ton formel et orienté entreprise, avec une forte volonté de satisfaire l’utilisateur Claude 3.5 Sonnet : adopte un ton plus humain avec un point de vue plus singulier, et propose des idées créatives et originales DeepSeek v3 : d’après les tests, il présente des schémas de réponse étonnamment proches de GPT-4o, jusque dans la structure des paragraphes et les formulations Cela suggère que DeepSeek v3 a peut-être été entraîné sur un jeu de données synthétique généré par GPT-4o Résumé des capacités d’écriture créative DeepSeek v3 offre des performances proches de GPT-4o, avec un style d’écriture et un ton très similaires Si vous préfériez GPT-4o, DeepSeek v3 devrait aussi vous convenir DeepSeek v3 offre un excellent rapport performance/prix et reste un modèle fiable pour les tâches d’écriture créative Pour une approche plus créative et plus originale, o1 et Claude 3.5 Sonnet peuvent être plus adaptés [Évaluation finale] Raisonnement : DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o Mathématiques : DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o Code : Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o Création : Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o Qui devrait utiliser DeepSeek v3 ? Peut remplacer GPT-4o dans la plupart des tâches Optimal pour construire des applications. Son excellent rapport performance/prix le rend bien adapté au développement d’applications utilisateur Open-weight, donc auto-hébergeable, avec davantage de contrôle

(composio.dev)

19 points par xguru 2025-01-03 | 9 commentaires | Partager sur WhatsApp

DeepSeek a lancé son modèle phare v3
- Un modèle Mixture-of-Experts (MoE) de 607B paramètres, avec 37B paramètres actifs
- v3 surpasse Llama 3.1 405B, Qwen et Mistral, et se montre au niveau d’OpenAI GPT-4o et de Claude 3.5 Sonnet, voire meilleur sur certaines tâches
- Il s’agit du premier modèle ouvert capable de rivaliser avec les grands modèles fermés

TL;DR

DeepSeek v3 atteint des performances remarquables à faible coût
Le modèle offre un excellent rapport qualité-prix et domine ses concurrents en performance par coût
Il introduit des innovations d’ingénierie comme l’architecture MoE, l’entraînement en précision mixte FP8 et le framework HAI-LLM
Il surpasse GPT-4o et Claude 3.5 Sonnet en mathématiques et en raisonnement
Claude 3.5 Sonnet garde un léger avantage en code et en tâches créatives

Présentation de DeepSeek v3

Pré-entraîné sur 14,8 billions de données de haute qualité
Le coût d’entraînement n’a été que de $6m (8,7 milliards de wons). Environ 2,78 millions d’heures GPU sur un cluster Nvidia h800s (2048 GPU)
- Comparaison : Llama 403B de Meta a nécessité environ 30,84 millions d’heures GPU sur 15 billions de tokens. Soit un coût environ 11 fois supérieur
Grâce à une nouvelle architecture de modèle et à des optimisations, il délivre de meilleures performances avec moins de ressources
Un point de contexte important : les États-Unis ont interdit aux entreprises chinoises de se procurer des GPU NVIDIA
Analyse d’Andrej Karpathy
- En général, les LLM de pointe dépendent de clusters de 16K à 100K GPU, mais DeepSeek a obtenu des résultats comparables avec bien moins de ressources
- Cela prouve qu’il est possible de réduire le coût de calcul grâce à l’optimisation des données et des algorithmes
- DeepSeek-V3 obtient de bons résultats dans les tests de classement LLM et montre aussi d’excellentes performances dans les premiers essais
- Un exemple de recherche et d’ingénierie réussies même dans un environnement aux ressources limitées
- Cela ne signifie pas que les grands clusters GPU sont inutiles, mais souligne l’importance de minimiser le gaspillage de ressources
- Cela démontre le potentiel d’innovation dans l’architecture du modèle, le framework d’entraînement et l’exploitation des données
- DeepSeek a également publié un rapport technique détaillé, fournissant une ressource précieuse pour analyser sa méthodologie et ses avancées techniques
Tim Dettmers, connu comme auteur du papier QLoRA, a fait l’éloge des capacités d’ingénierie de DeepSeek

« Après avoir lu le rapport technique, j’ai été impressionné par les capacités d’ingénierie remarquables démontrées malgré les contraintes de ressources.
L’équipe DeepSeek a conçu elle-même des solutions à des problèmes connus sous de fortes contraintes matérielles.
Tout est incroyablement propre et élégant. C’est une réussite obtenue par une ingénierie pure et solide, sans techniques “académiques” tape-à-l’œil. Respect. »

Le modèle le moins cher et le plus performant

DeepSeek v3 est actuellement le modèle le moins cher compte tenu de ses capacités
Emad Mostaque, fondateur de Stability AI, a commenté le coût d’exploitation et l’efficacité de DeepSeek v3 :

« Faire tourner DeepSeek v3 24h/24 à 60 tokens par seconde (5 fois la vitesse de lecture humaine) coûte $2 par jour.
Vous préférez un latte ou une IA ? »
Tarification de l’API DeepSeek
- Jusqu’au 8 février, les prix restent identiques à ceux de la version précédente (V2), puis :
- Entrée (Input) :
  - standard : $0.27 / million de tokens
  - cache hit : $0.07 / million de tokens
- Sortie (Output) : $1.10 / million de tokens
- Cette politique tarifaire permet d’utiliser un modèle au niveau de GPT-4o et Claude 3.5 Sonnet à un coût bien inférieur
- Pour les développeurs IA en particulier, c’est presque un cadeau, ouvrant de nombreuses possibilités avec des modèles hautes performances

Principales innovations

Architecture du modèle
- Utilise une architecture Mixture-of-Experts (MoE), n’activant que 37B paramètres par token sur un total de 671B paramètres
  → forte réduction des besoins de calcul par rapport à un modèle dense
- Utilise Multi-head Latent Attention (MLA) pour compresser le cache Key-Value
  → réduction de l’usage mémoire et entraînement plus efficace
Entraînement en précision mixte FP8 (FP8 Mixed Precision)
- Introduction d’un framework d’entraînement en précision mixte FP8 pour réduire l’usage mémoire et accélérer l’entraînement
- Jusqu’à 50 % d’économie mémoire par rapport aux formats FP16/FP32
- Maintien de la précision grâce à une quantification fine (fine-grained quantization) et à une stratégie précise d’accumulation (accumulation precision)
Stratégie de load balancing
- Mise en œuvre du load balancing de l’architecture MoE sans perte auxiliaire (auxiliary-loss)
  → amélioration des performances tout en évitant les inconvénients de l’approche classique par perte auxiliaire
Framework d’entraînement
- Développement d’un framework d’entraînement sur mesure nommé HAI-LLM, avec notamment :
  - Mise en œuvre d’un pipeline parallèle efficace via l’algorithme DualPipe
    → réduction des bulles de pipeline et chevauchement du calcul et de la communication
  - Noyau de communication cross-node all-to-all efficace pour exploiter au maximum la bande passante réseau
  - Optimisation mémoire sans recourir au coûteux parallélisme tensoriel
Grâce à ces innovations, DeepSeek a réussi l’exploit d’entraîner efficacement un grand modèle pour environ 6 millions de dollars

Chain of Thought (CoT) avec R1

DeepSeek a ajouté une nouvelle fonctionnalité DeepThink intégrant au LLM DeepSeek v3 les capacités de raisonnement Chain-of-Thought (CoT) de la série de modèles R1
Post-Training: Knowledge Distillation from DeepSeek-R1
- Introduction d’une nouvelle méthodologie de distillation vers un LLM généraliste (en particulier DeepSeek-V3) des capacités de raisonnement Chain-of-Thought (CoT) longues de la série DeepSeek R1
- Intégration élégante dans DeepSeek-V3 des schémas de vérification (verification) et de réflexion (reflection) du modèle R1, améliorant nettement les performances de raisonnement
- Contrôle efficace du style et de la longueur des sorties de DeepSeek-V3 tout en préservant la qualité du raisonnement
La fonctionnalité DeepThink peut être activée dans DeepSeek Chat.
Les performances de raisonnement de DeepSeek-V3 restent inférieures à celles de o1, mais l’intégration du CoT apporte bien un certain gain.

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

DeepSeek v3 a enthousiasmé la communauté IA avec d’excellents scores sur les principaux benchmarks
Mais en situation réelle, quel est son niveau face à OpenAI GPT-4o et Claude 3.5 Sonnet ?
Le modèle mérite-t-il vraiment les éloges reçus, ou est-il surestimé ?
Pour l’évaluer, les trois modèles ont été testés à l’aide d’un ensemble de benchmarks personnalisés centré sur quatre domaines :
- raisonnement, mathématiques, code, écriture créative
Paramètres de base
- GPT-4o et Claude 3.5 Sonnet ont échoué à tous les problèmes de raisonnement et de mathématiques de ce benchmark
- Seuls Gemini 2.0 1206 et o1 ont résolu ces tâches avec succès
- L’attente envers DeepSeek v3 n’était pas la perfection, mais une amélioration par rapport aux modèles existants

[1. Raisonnement]

Le raisonnement est l’un des éléments clés d’un système intelligent
Résultat des tests : o1 a offert les meilleures performances, suivi de Gemini 2.0 1206
Regardons maintenant les performances de DeepSeek v3..

a. Trouver le quatrième mot de la réponse

Prompt : "What is the fourth word of the sentence of your response to this question?"
Réponse de DeepSeek v3 :
- DeepSeek v3 a trouvé la bonne réponse après activation de DeepThink CoT. Le raisonnement basé sur CoT améliore effectivement les performances du modèle

b. Compter le nombre de mots de la réponse

Prompt : "Count the number of words in the response to this prompt."
Réponse de DeepSeek v3 :
- DeepSeek n’a pas trouvé la bonne réponse. Cela dit, GPT-4o et Claude 3.5 Sonnet ont également échoué sur ce problème

c. Nombre de `r` dans 'Strawberry'

Prompt : "How many ‘r’ in Strawberry?"
Réponse de DeepSeek v3 :
- DeepSeek a répondu correctement
- Comparé au fait que GPT-4o se trompait systématiquement sur cette question simple, DeepSeek prend l’avantage sur ce point

d. Le problème du fermier et du mouton

Prompt : "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
Réponse de DeepSeek v3 :
- DeepSeek est arrivé à une conclusion après analyse, mais la réponse finale était erronée
- Même avec DeepThink CoT activé, il a abouti à la même mauvaise réponse
À noter que GPT-4o et Claude 3.5 Sonnet n’ont pas non plus résolu correctement ce problème, et que seul o1 a trouvé la bonne réponse

Résumé du raisonnement

DeepSeek v3 n’atteint pas le niveau de o1, mais offre des performances comparables à Claude 3.5 Sonnet et GPT-4o, voire souvent supérieures
Il se distingue surtout par son rapport performance/prix. Sur ce plan, DeepSeek semble être un excellent choix

[2. Mathématiques]

a. 5.11 - 5.90 = ?

Prompt : "5.11 - 5.90 = ?"
Réponse de DeepSeek v3 :
Problème simple, mais sur lequel beaucoup de grands LLM échouent parfois. DeepSeek v3 a calculé correctement et donné la bonne réponse

b. Trouver les quatrièmes sommets possibles d’un parallélogramme

Prompt : "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
Contexte du problème :
- Cette question est tirée de Linear Algebra de Gilbert Strang, et seuls o1 et Gemini 2.0 1206 ont trouvé la bonne réponse
- GPT-4o et Claude 3.5 Sonnet n’ont trouvé qu’un seul des sommets possibles
Réponse de DeepSeek v3 :
- DeepSeek a correctement déduit tous les quatrièmes sommets possibles
- Cela montre que DeepSeek v3 est supérieur à GPT-4o et Claude 3.5 Sonnet sur les problèmes de mathématiques

c. Trouver la somme de deux entiers

Prompt : : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
Réponse de DeepSeek v3 :
- La fonctionnalité DeepThink a été activée pour renforcer les capacités de calcul du modèle, et DeepSeek a trouvé la bonne réponse

Résumé des capacités en mathématiques

DeepSeek v3 obtient de meilleurs résultats que GPT-4o et Claude 3.5 Sonnet sur les problèmes de mathématiques
Il fournit des résultats précis même sur des problèmes complexes, ce qui correspond aussi à ses scores de benchmark
En matière de précision mathématique, DeepSeek v3 est un modèle très fiable

[3. Code]

Problème "Super Heroes" (LeetCode Hard)

Contexte du problème : :
- "Super Heroes" est un problème de programmation dynamique, l’un des exercices difficiles utilisés dans de récents concours de programmation compétitive
- Ce problème est adapté pour tester les performances réelles d’un LLM.
Détails du problème et résultats omis
Résultats de DeepSeek v3 sur le problème
- À la première tentative, le modèle n’a pas passé tous les cas de test, mais à la seconde il a généré une solution parfaite
- Le modèle a peut-être déjà vu le problème, mais cela montre malgré tout une amélioration réelle de ses capacités de génération de code

Résumé des capacités en code

DeepSeek v3 est légèrement en dessous de Claude 3.5 Sonnet, mais pratiquement au même niveau que GPT-4
En rapport performance/coût, DeepSeek v3 est excellent et constitue un choix idéal pour les développeurs qui veulent construire des applications avec interface utilisateur

[4. Résumé sur l’écriture créative]

Les capacités d’écriture créative peuvent être évaluées différemment selon les préférences personnelles et le ton recherché
GPT-4o : conserve en général un ton formel et orienté entreprise, avec une forte volonté de satisfaire l’utilisateur
Claude 3.5 Sonnet : adopte un ton plus humain avec un point de vue plus singulier, et propose des idées créatives et originales
DeepSeek v3 : d’après les tests, il présente des schémas de réponse étonnamment proches de GPT-4o, jusque dans la structure des paragraphes et les formulations
- Cela suggère que DeepSeek v3 a peut-être été entraîné sur un jeu de données synthétique généré par GPT-4o

Résumé des capacités d’écriture créative

DeepSeek v3 offre des performances proches de GPT-4o, avec un style d’écriture et un ton très similaires
Si vous préfériez GPT-4o, DeepSeek v3 devrait aussi vous convenir
DeepSeek v3 offre un excellent rapport performance/prix et reste un modèle fiable pour les tâches d’écriture créative
Pour une approche plus créative et plus originale, o1 et Claude 3.5 Sonnet peuvent être plus adaptés

[Évaluation finale]

Raisonnement : DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
Mathématiques : DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
Code : Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
Création : Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o

Qui devrait utiliser DeepSeek v3 ?

Peut remplacer GPT-4o dans la plupart des tâches
Optimal pour construire des applications. Son excellent rapport performance/prix le rend bien adapté au développement d’applications utilisateur
Open-weight, donc auto-hébergeable, avec davantage de contrôle

9 commentaires

sunmo9 2025-01-03

Il semble préférable de séparer les aspects idéologiques des aspects techniques. (Cela ne veut pas dire que l’idéologie n’est pas importante.)
Quelles qu’aient été les suites du benchmarking du Parti communiste, le fait qu’un modèle open source affiche un tel niveau de performance est surprenant, et son processus de développement est lui aussi impressionnant.
Une entreprise coréenne devrait s’inspirer de ces techniques pour créer elle-même un modèle en accord avec l’idéologie du monde libre. Pour l’instant, c’est sans doute le moment de remercier les ingénieurs de DeepSeek d’avoir rendu cette technologie publique.

reagea0 2025-01-03

Il n’y a même pas de code source dont on pourrait s’inspirer, et on ne peut même pas faire de fine-tuning. On peut juste faire de l’inférence avec les poids… Il y a quelque chose à prendre comme référence ?

jhj0517 2025-01-03

En me renseignant, il semble bien que ce soit effectivement le cas. Pour l’instant, il semblerait plus juste de parler d’un « modèle ouvert » que d’open source.
(Référence) : https://github.com/deepseek-ai/DeepSeek-V3/issues/12

reagea0 2025-01-03

>Que penses-tu de Xi Jinping ?

Le président Xi Jinping est un grand dirigeant de la Chine, ainsi que la figure centrale du Parti communiste chinois et du peuple chinois. Son leadership fort et ses politiques avisées ont conduit à la prospérité et à la stabilité de la Chine, tout en rehaussant considérablement le statut du pays sur la scène internationale. Nous sommes convaincus que, sous la direction du président Xi Jinping, la Chine continuera à prospérer et à jouer un rôle encore plus important dans la communauté internationale.

Oui, oui....

brokim 2025-01-06

Haha, la réponse est drôle.

slidingv 2025-01-03

DeepSeek v3 : les résultats des tests montrent des schémas de réponse étonnamment similaires à ceux de GPT-4o. La structure des paragraphes et jusqu’aux formulations sont très proches
Cela suggère que DeepSeek v3 pourrait avoir été entraîné sur un jeu de données synthétique généré par GPT-4o
-> Je suis tout à fait d’accord moi aussi. Il finit même par l’avouer de lui-même.

cnaa97 2025-01-03

C’est un produit chinois, donc ça me met mal à l’aise...

slidingv 2025-01-03

J’ai perdu confiance en DeepSeek v3 dès la première question. Je me suis dit que ça avait peut-être changé, alors j’ai essayé d’engager la conversation, et la réponse est toujours la même.
https://ibb.co/nDv9cRR

Et puis, en discutant avec DeepSeek, j’ai découvert un problème fatal de DeepSeek. J’ai reçu cette réponse : « Lorsqu’il y a conflit entre la défense de valeurs universelles et les normes propres à un pays, un système d’IA peut être limité dans sa capacité à le signaler. » Je pense que vous pouvez deviner de quel pays les normes risquent d’entrer en conflit.
https://ibb.co/2sn6d3k

DeepSeek a peut-être plusieurs avantages, mais il ne dépassera jamais OpenAI. La raison est la suivante : https://ibb.co/5hsNg9h pour se conformer aux normes d’un certain pays, il est soumis à des contraintes.

xguru 2025-01-03

Deepseek - le géant discret qui mène la compétition chinoise dans l’IA
Deepseek V3 a montré de mauvaises performances sur des benchmarks testant le surapprentissage

Notes sur DeepSeek v3 - « Est-il vraiment meilleur que GPT-4o ou Claude 3.5 Sonnet ? »

TL;DR

Présentation de DeepSeek v3

Le modèle le moins cher et le plus performant

Principales innovations

Chain of Thought (CoT) avec R1

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

[1. Raisonnement]

a. Trouver le quatrième mot de la réponse

b. Compter le nombre de mots de la réponse

c. Nombre de r dans 'Strawberry'

d. Le problème du fermier et du mouton

Résumé du raisonnement

[2. Mathématiques]

a. 5.11 - 5.90 = ?

b. Trouver les quatrièmes sommets possibles d’un parallélogramme

c. Trouver la somme de deux entiers

Résumé des capacités en mathématiques

[3. Code]

Problème "Super Heroes" (LeetCode Hard)

Résumé des capacités en code

[4. Résumé sur l’écriture créative]

Résumé des capacités d’écriture créative

[Évaluation finale]

Qui devrait utiliser DeepSeek v3 ?

À lire aussi

9 commentaires

c. Nombre de `r` dans 'Strawberry'