2 points par GN⁺ 2025-10-07 | 1 commentaires | Partager sur WhatsApp
  • Le rapport d’évaluation des modèles d’IA DeepSeek publié par le NIST en septembre 2025 est un document à visée politique plutôt qu’une évaluation technique neutre, avec l’intention de freiner l’IA open source chinoise sans apporter de preuves de menaces de sécurité réelles
  • Le rapport ne présente absolument aucune preuve de porte dérobée, de spyware ou de fuite de données dans les modèles DeepSeek, et se contente de souligner qu’ils sont moins alignés sur la sécurité, donc plus faciles à jailbreaker, et qu’ils reflètent parfois le point de vue du gouvernement chinois
  • DeepSeek a entièrement publié les poids du modèle, l’architecture et la méthodologie d’entraînement sous licence Apache 2.0, contribuant fortement à la recherche ouverte en IA, mais le gouvernement américain le qualifie malgré cela d’« IA hostile »
  • Le NIST mélange délibérément l’exécution locale et l’usage via API, et utilise une méthodologie biaisée en omettant les comparaisons avec d’autres modèles open source ou les tests de biais des modèles américains
  • Ce rapport s’inscrit dans une politique industrielle visant à freiner DeepSeek, qui a démontré la compétitivité de l’IA open source, afin de protéger la position monopolistique des entreprises américaines de l’IA, en donnant la priorité aux intérêts commerciaux et stratégiques plutôt qu’à la neutralité scientifique

La véritable nature du rapport d’évaluation de DeepSeek par le NIST

  • Le rapport du NIST sur DeepSeek daté du 30 septembre 2025 est un document d’attaque politique, pas une évaluation technique neutre
    • Il n’apporte absolument aucune preuve de porte dérobée, de spyware ou de fuite de données
    • Il s’agit d’une tentative du gouvernement américain d’utiliser la peur et la désinformation pour entraver l’open science, l’open research et l’open source
    • Une contribution à l’humanité est attaquée par la politique et le mensonge afin de protéger le pouvoir des entreprises et le maintien du contrôle
  • Après la publication du rapport, la panique s’est répandue en ligne
    • Certains ont affirmé que les poids de DeepSeek étaient compromis
    • D’autres ont affirmé que la Chine espionnait via le modèle
    • D’autres encore ont prétendu que le simple téléchargement constituait un risque de sécurité
    • Toutes ces affirmations sont fausses

Les véritables accomplissements de DeepSeek

  • Développement de modèles d’IA compétitifs
    • Des performances de niveau frontier obtenues avec un budget bien inférieur à celui d’OpenAI ou Anthropic
    • Ce n’est pas parfait, mais c’est impressionnant au vu du budget
  • Publication complète sous licence Apache 2.0
    • Poids du modèle
    • Architecture
    • Méthodologie d’entraînement
    • Articles de recherche
  • Permet à quiconque de reproduire le travail et d’exécuter localement des modèles à l’échelle frontier
    • En donnant les moyens de tout recréer depuis le début
    • L’une des plus grandes contributions à la recherche ouverte en IA de ces dernières années
  • Réaction du gouvernement américain : le stigmatiser comme une « IA hostile » et suggérer des activités d’espionnage

La stratégie centrale de tromperie du NIST

  • Confusion délibérée entre trois scénarios
    • Scénario A : lors de l’utilisation de l’application/API DeepSeek, les prompts sont envoyés à des serveurs chinois (véritable question de souveraineté des données)
    • Scénario B : lors du téléchargement des poids ouverts et d’une exécution locale, les données ne quittent pas l’appareil
    • Scénario C : lorsqu’un hébergement est assuré par un service tiers de confiance comme OpenRouter, Fireworks ou Chutes, l’infrastructure et le contrôle de la confidentialité dépendent du fournisseur d’hébergement
  • Le NIST fusionne volontairement ces situations pourtant totalement différentes
    • Il comptabilise les téléchargements locaux tout en avertissant d’un « risque pour la sécurité nationale »
    • Toute personne disposant de connaissances techniques de base sait que c’est trompeur
  • Cette confusion sert de fondement au reste du cadrage trompeur du rapport

Ce que le NIST a réellement trouvé

  • Ce qu’il reste une fois le langage sensationnaliste retiré
    1. Les modèles DeepSeek sont plus faciles à jailbreaker que les modèles américains davantage alignés sur la sécurité
    2. Ils reflètent parfois le point de vue du gouvernement chinois
    3. Ils sont légèrement moins performants sur certains benchmarks
    4. Le rapport affirme que leur coût par token est plus élevé (sans fournir la méthodologie)
  • C’est tout
    • Aucune preuve de comportement malveillant
    • Aucune preuve de fuite de données
    • Aucune preuve que le modèle agit de manière malveillante autrement qu’en « répondant à des prompts d’une façon qui ne nous plaît pas »
  • Analyse de la découverte sur les jailbreaks
    • Cela vient du fait que DeepSeek a moins investi dans l’entraînement à la sécurité (question de ressources)
    • Le NIST n’a pas testé d’anciens modèles américains à titre de comparaison
    • Pendant ce temps, gpt-oss-120b d’OpenAI est très facile à jailbreaker
  • Analyse de la découverte sur le « narratif du Parti communiste chinois »
    • Il n’est pas surprenant qu’un modèle entraîné sur des données chinoises reflète un point de vue chinois
    • Il est soumis aux lois chinoises sur la censure
    • Ce n’est pas une vulnérabilité de sécurité

Les comparaisons que le NIST n’a pas faites

  • Pas de comparaison avec d’autres modèles ouverts
    • Où sont Llama, Mistral et Falcon ?
    • Une telle comparaison aurait montré qu’il ne s’agit pas d’un problème propre à DeepSeek, mais du fait que les modèles ouverts ont en général moins de couches de sécurité que les modèles fermés
  • Pas de comparaison avec les premiers modèles américains
    • À quel point GPT-3 en 2020 était-il vulnérable aux jailbreaks ?
    • Cette comparaison affaiblirait le récit, donc elle n’a pas été faite
  • Pas de test des biais américains dans les modèles américains
    • Seuls les biais chinois semblent être considérés comme un risque de sécurité
  • Usage de benchmarks privés
    • « Benchmarks privés construits par CAISI », impossibles à reproduire ou à vérifier
    • Ce n’est pas de la science, c’est de la recherche militante

Ce que ce rapport dit réellement

  • Quand on lit entre les lignes
    1. Les modèles DeepSeek sont moins peaufinés — ce qui est logique puisqu’ils ont bénéficié de moins d’investissement en développement
    2. Les modèles chinois sont suffisamment compétitifs pour inquiéter — si ce n’était pas une menace pour les parts de marché, ce rapport n’existerait pas
    3. Les États-Unis craignent de perdre leur domination sur l’IA — le rapport a été explicitement commandé dans le cadre du « AI Action Plan » de Trump. La déclaration du secrétaire au Commerce montre clairement qu’il s’agit d’une politique industrielle, pas d’une évaluation neutre

La vraie menace (indice : ce n’est pas vous)

  • Ce que DeepSeek a réellement menacé : le monopole
    • Le vrai crime de DeepSeek est d’avoir montré que l’open source fonctionne
    • Il a prouvé qu’on pouvait construire des modèles puissants sans capital-risque de plusieurs milliards de dollars ni API fermée
  • C’est cela qui terrifie les entreprises qui vendent l’accès à l’IA à prix premium
    • Quand DeepSeek dit « voici les poids, faites-le tourner vous-mêmes », il attaque les douves économiques sur lesquelles ces entreprises s’appuient
  • C’est pour cela que le rapport du NIST existe
    • Parce que DeepSeek a prouvé que l’ouverture pouvait rivaliser avec les systèmes fermés
    • Et que les acteurs en place doivent l’arrêter

L’hypocrisie

  • Les avertissements du NIST vs la réalité
    • NIST : avertit que les modèles DeepSeek pourraient répondre à des prompts malveillants dans un environnement simulé
    • Réalité : les modèles américains envoient réellement des données réelles vers des serveurs externes
  • Le cas OpenAI
    • Vous vous souvenez quand ChatGPT utilisait les conversations pour l’entraînement ?
    • Il a fallu attendre le backlash pour qu’une option d’opt-out soit ajoutée
  • Comparaison
    • Exécution locale des poids DeepSeek = zéro transfert de données
    • Utilisation de l’API OpenAI = transfert continu de données vers les serveurs
    • Lequel constitue un risque pour la vie privée ?
  • Le rapport met en garde contre « l’adoption d’IA étrangère » tout en ignorant que toute API cloud, américaine ou non, exige de faire confiance à l’infrastructure d’autrui
    • Les poids ouverts exécutés localement sont plus auditables et plus sûrs que n’importe quel service cloud
  • Mais ce n’est pas le message. Car il ne s’est jamais agi de sécurité. Il s’agit de contrôle du récit

Une trahison de l’open source et de l’open science

  • La communauté open source a construit les fondations de l’IA moderne
    • Linux, Python, PyTorch, Transformers
    • Des décennies de développement collaboratif, librement partagées
  • DeepSeek s’inscrit dans cette tradition
    • Il a pris des connaissances ouvertes, construit quelque chose d’impressionnant, puis l’a rendu à son tour
  • Réaction de l’institution américaine : appeler cela une menace
  • Imaginez si la Chine avait fait cela quand Meta a publié Llama
    • En publiant un rapport gouvernemental affirmant que les poids de Llama sont un outil de surveillance parce qu’ils sont « vulnérables aux jailbreaks »
    • Nous aurions appelé cela du protectionnisme. De la paranoïa technologique. Une attaque contre la recherche ouverte
  • Mais quand c’est nous ? « Sécurité nationale »
  • La recherche ouverte doit être universelle
    • On ne peut pas défendre l’open science seulement quand cela nous arrange

Un test que vous pouvez faire vous-même

  • Ne me croyez pas, ne croyez pas le NIST, vérifiez par vous-même
  • Téléchargez les poids DeepSeek
    • Utilisez huggingface transformers, vLLM, LM Studio ou llama.cpp pour les exécuter localement
    • Ouvrez un outil de monitoring réseau
  • Observez
    • Exactement zéro paquet n’est envoyé où que ce soit
    • Les prompts sont traités entièrement sur l’appareil
    • Cette terrible « menace de sécurité » ne fait rien d’autre que des multiplications de matrices, sans connexion à quoi que ce soit
  • Demandez-vous : pourquoi le gouvernement américain ment-il à ce sujet ?
  • La « menace de sécurité » n’est pas dans le modèle. Elle est dans la politique

Ce dont il faut réellement se préoccuper

  • Il existe des préoccupations légitimes
    • Utilisation de l’API DeepSeek : si vous envoyez des données sensibles au service hébergé de DeepSeek, elles transitent par une infrastructure chinoise. C’est un vrai problème de souveraineté des données, comme avec tout fournisseur cloud étranger
    • Vulnérabilité aux jailbreaks : si vous construisez une application en production, testez les vulnérabilités de n’importe quel modèle et mettez en place des garde-fous au niveau applicatif. Ne vous reposez pas uniquement sur les garde-fous du modèle. Utilisez aussi à l’inférence des guard models (LlamaGuard ou Qwen3Guard, par exemple) pour classifier et filtrer à la fois les prompts et les réponses
    • Biais et censure : tous les modèles reflètent leurs données d’entraînement. Soyez-en conscient, quel que soit le modèle utilisé
  • Ce sont des défis d’ingénierie
    • Pas des raisons d’éviter totalement les modèles open source (ou chinois)

Ce que cela implique pour l’avenir de l’IA

  • Il ne s’agit pas seulement de DeepSeek
    • Il s’agit de savoir si l’IA restera ouverte et auditable, ou si elle sera mise sous clôture par les gouvernements et les entreprises
  • Les questions
    • Allons-nous laisser « open source » être redéfini comme « ouvert uniquement s’il est américain » ?
    • Allons-nous exiger de vraies preuves pour les allégations de sécurité, ou accepter des insinuations vagues ?
    • L’IA restera-t-elle un projet humain partagé, ou deviendra-t-elle une arme géopolitique ?
  • DeepSeek a prouvé qu’une autre voie existait. Voilà pourquoi il a fallu le discréditer

Le point de vue de l’auteur

  • Le parcours de l’auteur
    • Exécute localement des modèles open source
    • Entraîne ses propres modèles
    • Croit en l’alignement composable et à la liberté de l’utilisateur
    • Estime que l’IA doit être un outil au service des utilisateurs, pas des entreprises ni des gouvernements
  • Évaluation du rapport du NIST
    • Ce n’est pas une évaluation technique neutre
    • C’est un document de politique conçu pour empêcher l’adoption de modèles d’IA chinois afin de protéger les intérêts commerciaux et stratégiques des États-Unis
  • Position sur la promotion industrielle par le gouvernement américain
    • Il n’y a rien d’intrinsèquement mauvais à ce que le gouvernement américain promeuve l’industrie américaine
    • Mais il faut appeler cela par son nom
    • Ne pas maquiller le protectionnisme en recherche sur la sécurité
    • Ne pas fabriquer artificiellement des menaces
    • Ne pas mentir au public sur ce que montrent réellement les preuves
  • La contribution de DeepSeek
    • Il nous a offert un cadeau précieux et utile
    • Les poids ne sont que des données safetensor
    • Ils restent sur un disque et fonctionnent comme commandé
    • Ils n’appellent pas la maison. Ils n’espionnent pas. Ils n’exfiltrent pas de données
  • Conclusion
    • Si cela vous inquiète, c’est que vous ne comprenez pas comment fonctionne l’inférence locale
    • Si vous croyez à la peur entretenue, c’est que vous avez été manipulé avec succès
    • Tout cela ne concerne pas la sécurité. Cela concerne le pouvoir — qui construit, partage et comprend les outils qui façonnent l’avenir

Conclusion

  • Le code et la recherche sont open source et auditables. Tout le reste est politique
  • Recommandation au lecteur
    • Lisez vous-même le rapport du NIST et le code
    • Cherchez des preuves réelles de code malveillant ou de fonctions de surveillance
    • Vous n’en trouverez pas. Parce qu’il n’y en a pas
  • Puis commencez à vous poser des questions
    • Pourquoi nous dit-on de craindre l’open source quand il fonctionne trop bien ?

1 commentaires

 
GN⁺ 2025-10-07
Avis Hacker News
  • Pas du tout surpris que des institutions américaines soient utilisées depuis longtemps à des fins politiques sur des sujets transfrontaliers ; j’ai toujours été sceptique aussi vis-à-vis de l’électronique chinoise. Je suis d’accord pour dire que ce rapport est mensonger et xénophobe, mais si la Chine obtenait un contrôle suffisant sur les LLM, je continuerais malgré tout à me demander si elle ne tenterait pas une forme de manipulation subtile, aujourd’hui ou à l’avenir. Et cela vaudrait non seulement pour la Chine, mais aussi pour les États-Unis ou n’importe quelle grande puissance si elle disposait d’un pouvoir suffisant. Au final, l’important est de garder une attitude consistant à remettre continuellement les modèles en question, à les benchmarker et à surveiller en permanence s’ils répondent à nos besoins plutôt qu’à ceux de leur fournisseur.
    • Tu as évoqué la possibilité d’une manipulation subtile de la part de la Chine via les LLM ; je serais curieux de savoir concrètement sous quelle forme.
    • L’influence gouvernementale ou politique intervient évidemment dans une certaine mesure ; la question n’est pas de savoir si elle existe, mais où et à quel point elle s’exerce. Il ne sert à rien de balayer ce rapport d’un revers de main en affirmant catégoriquement qu’il est « mensonger » ou « biaisé ». Nous devons filtrer et analyser l’information dans un monde complexe.
    • Propager de la désinformation sur les produits étrangers n’est pas la solution ; il vaudrait mieux reconnaître que les gens veulent des modèles open source, puis publier le meilleur modèle national possible afin qu’il soit largement utilisé.
    • Si je mets en ordre mes idées sur la démocratie américaine, les dirigeants américains cherchent une flexibilité maximale pour pouvoir décider à tout moment comme ils l’entendent. Comme il s’agit d’une démocratie, ils doivent maintenir l’illusion d’un soutien populaire ; le gouvernement crée donc un environnement où il peut obtenir un certain soutien à n’importe quelle décision en inculquant un point de vue donné et en prenant partiellement le contrôle de ce que pense le public. Si la politique change ou qu’un nouveau dirigeant arrive, on peut alors rejeter la faute sur le prédécesseur et procéder à une sorte de nouveau départ moral en disant : « c’était mauvais avant, mais maintenant cela a changé ». C’est quelque chose d’impossible dans un régime autoritaire. Par exemple, même si Poutine prenait conscience du coût de la guerre, il ne pourrait pas l’arrêter sans perdre sa légitimité politique. Si la Russie avait une démocratie de type américain, il aurait sans doute été possible d’élire rapidement un nouveau dirigeant, de retirer les troupes, d’infliger une sanction symbolique à Poutine, puis d’obtenir un effacement de responsabilité au sein de la communauté internationale.
    • Ces institutions sont aussi utilisées comme outils politiques à l’intérieur des frontières.
  • Je recommande à tout le monde de lire d’abord le rapport original, puis de lire cette analyse et de se faire sa propre opinion. Il est important de lire la source plutôt que de se laisser emporter par des résumés racoleurs.
    • Voici l’original : https://www.nist.gov/system/files/documents/2025/09/30/CAISI_Evaluation_of_DeepSeek_AI_Models.pdf
    • Beaucoup de gens semblent ne pas avoir lu le document d’origine. Rien qu’en regardant la manière dont le rapport traite l’« exfiltration » (fuite d’informations), on voit que l’essai et le rapport original du NIST ne disent pas la même chose. Si une page web clickbait attire plus d’attention qu’un rapport technique de 70 pages, c’est à cause de la capacité d’attention réduite des gens aujourd’hui.
  • En tant que personne qui héberge des LLM pour des chercheurs et du personnel dans une université européenne, c’est un sujet qui me parle énormément. Sans les modèles chinois, plusieurs des tâches que nous réalisons aujourd’hui seraient impossibles. À mes yeux, l’UE ou n’importe qui d’autre devrait remercier les instituts de recherche chinois de publier des modèles sous des licences aussi généreuses. Sans eux, les options auraient été médiocres. Si l’on veut un modèle américain puissant, on se voit conseiller de construire un datacenter NVIDIA coûtant des centaines de millions de dollars ; même les options européennes exigent des frais de licence, y compris lorsqu’on les héberge sur son propre matériel, tout en protégeant au passage leur expertise. À l’inverse, DeepSeek a publié sa « sauce secrète », ce qui a aidé des projets open source comme vLLM à héberger les modèles plus efficacement.
  • Après avoir effectivement lu le rapport, je trouve que sa description dans l’article ne correspond pas à son contenu.
    • Ce qui est intéressant, c’est que même les commentaires sous ce post ne correspondent pas forcément au contenu réel de l’article. L’auteur continue de présenter cela comme une attaque contre l’open source, alors que les commentaires semblent plutôt évoquer correctement les problèmes potentiels liés à l’influence chinoise.
    • Ce billet de blog est très trompeur. Les premiers paragraphes du texte soulignent que le rapport du NIST n’aurait trouvé « aucun malware, aucune porte dérobée, aucune trace d’exfiltration de données », mais ce n’est pas ce que le NIST affirme réellement. Si l’on ne lit que le billet de blog, on a l’impression que le NIST prétend, sans fondement, à l’existence de backdoors.
    • Pour ma part, j’ai trouvé que cela correspondait assez bien au contenu réel du rapport.
  • Même si les modèles chinois deviennent une cible de dénigrement, je compte continuer à utiliser des modèles performants et bon marché pour conserver un avantage concurrentiel.
    • Le dénigrement est au fond la première étape d’un processus pouvant aller jusqu’à la répression pénale.
    • Je n’ai trouvé aucune expression relevant du dénigrement dans l’article du NIST (le texte original). Pour moi, le « dénigrement » correspond à une propagande visant à diaboliser un ennemi ; si tu as une autre définition, j’aimerais que tu indiques précisément où cela se trouve dans le rapport, voir https://www.thefreedictionary.com/demonization.
    • Il est anormal de voir des gens défendre des modèles fermés qui sont moins performants, coûtent plusieurs fois plus cher et sont davantage censurés. Les entreprises chinoises, à la différence des entreprises occidentales, semblent moins obsédées par les benchmarks ; à l’usage réel, j’ai le sentiment que des modèles comme Kimi, GLM ou Deepseek, même avec de moins bons scores sur les benchmarks en anglais, offrent une qualité perçue bien supérieure. Kimi en particulier répond de façon bien plus détaillée et précise aux questions sur le hardware que Gemini ou Claude. Je pense que cela vient d’une meilleure exploitation des données d’entraînement en chinois.
  • L’auteur, Eric Hartford, a dit qu’il fallait « retirer le langage incendiaire », mais en lisant le rapport, je n’ai pas vu ce genre de langage. Le style est globalement sec et peut même sembler ennuyeux.
    • Au contraire, il y a énormément de langage incendiaire sans fondement dans le billet de blog.
    • En réalité, je pense que cet article ressemble davantage à une « propagande noire » dirigée contre le NIST ou les États-Unis. On y voit plus de langage incendiaire que dans le rapport lui-même.
  • Merci d’avoir partagé cette bonne analyse. Si quelqu’un a effectivement utilisé le modèle Dolphin uncensored créé par l’auteur, je serais intéressé par un retour d’expérience.
    • À mon avis, la meilleure méthode consiste à construire soi-même un cadre d’évaluation et à tester directement. La deuxième meilleure option est de chercher des évaluations externes menées par des personnes ayant des critères proches des siens. Mais sans avoir défini ses propres critères, il est impossible de savoir si l’évaluation d’autrui est suffisamment fiable. J’ai une opinion assez basse de la qualité des discussions sur HN en matière de ML ou d’IA : les participants sont rapides, cyniques et tribalistes, avec l’impression qu’ils ne cherchent pas vraiment la vérité. Malgré cela, j’ai envie de rester ici et de contribuer à la discussion. J’aimerais qu’on y trouve toujours plus de clarté, de logique et de profondeur. Parfois, cela me fait penser à https://xkcd.com/386/.
  • Étant donné que DeepSeek a même fait l’objet d’un article évalué par les pairs dans Nature, et que l’article reconnaît lui-même certains problèmes relevés par des chercheurs indépendants sur les modèles ouverts, je considère cette évaluation du NIST comme plus proche d’une attaque politique. Des affaires comme CryptoAG, où les agences de renseignement américaines ont exploité des avantages techniques à des fins de surveillance, ou la controverse Huawei, où aucune preuve majeure de malveillance n’a réellement émergé, nourrissent cette inquiétude. En fin de compte, il serait positif pour l’ensemble du secteur que divers modèles ouverts comme Kimi, Qwen et d’autres existent, que les coûts et les performances tendent à s’aligner, et que disparaisse la compétition où chaque pays cherche à faire de l’IA un « fossé géopolitique ».
  • Le rapport du NIST semble déjà avoir un train de retard, au moment même où la Chine a publié des modèles open source bien meilleurs après DeepSeek.
  • Je me demande pourquoi le NIST évalue les performances, le coût et le taux d’adoption. Il n’a comparé que des modèles américains récemment sortis (OpenAI GPT-5 series, Anthropic Opus 4, etc.) avec d’anciennes versions de DeepSeek (R1, R1-0528, V3.1), alors que le tout dernier DeepSeek 3.2 est très performant. Ce n’est pas parce qu’une voiture passe de 0 à 60 mph en 3 secondes que l’évaluation du gouvernement devient importante ; ce qui compte, c’est que je la conduise moi-même pour juger. Le « modèle le plus sécurisé » de DeepSeek est décrit avec un taux de refus de 6 % face aux requêtes malveillantes, mais en pratique, les modèles GPT américains peuvent eux aussi désormais être détournés sans réelle restriction. À mes yeux, ce rapport n’est pas un document du NIST sur la sécurité, mais simplement un support de propagande américaine.