OpenAI affirme avoir obtenu des preuves que DeepSeek a utilisé ses modèles pour l’entraînement

(ft.com)

5 points par GN⁺ 2025-01-30 | 2 commentaires | Partager sur WhatsApp

OpenAI a déclaré au Financial Times avoir découvert des preuves indiquant que la startup chinoise d’IA DeepSeek a utilisé ses modèles propriétaires pour entraîner un modèle concurrent open source
DeepSeek est soupçonné d’avoir utilisé la technique de « distillation des connaissances » (distillation), qui consiste à exploiter les sorties de grands modèles pour entraîner efficacement de plus petits modèles
La distillation est une méthode courante dans l’industrie de l’IA, mais OpenAI affirme que le fait pour DeepSeek de l’utiliser afin de développer son propre modèle constitue une violation de ses conditions d’utilisation
Selon les conditions d’OpenAI, les utilisateurs ne peuvent ni copier les sorties d’OpenAI ni les utiliser pour développer des modèles concurrents

Performances du modèle de DeepSeek et réaction du marché

Le lancement du modèle de raisonnement R1 de DeepSeek a surpris le secteur technologique et les investisseurs
DeepSeek attire l’attention du secteur en construisant des modèles très performants à un coût relativement faible
L’action Nvidia a chuté de 17 % lundi, effaçant 589 milliards de dollars de capitalisation boursière, avant de rebondir de 9 % mardi
La baisse de Nvidia s’explique par les inquiétudes liées à une possible diminution de la demande en matériel IA

Réponse d’OpenAI et de Microsoft

OpenAI et Microsoft ont enquêté l’an dernier sur des comptes soupçonnés d’avoir tenté une distillation via l’API d’OpenAI par DeepSeek, puis les ont bloqués
Cette information a d’abord été révélée par Bloomberg
Microsoft a refusé de commenter le sujet, et OpenAI a également décliné tout commentaire supplémentaire

Avis des experts

David Sacks, chargé de l’IA et des cryptomonnaies sous l’administration Trump, a affirmé qu’« il pourrait y avoir eu un vol de propriété intellectuelle »
Certains chercheurs en IA estiment que le modèle de DeepSeek montre des traces d’un apprentissage sur les sorties de GPT-4
Ritwik Gupta, doctorant en IA à l’UC Berkeley, explique que l’usage des sorties de LLM commerciaux pour entraîner des modèles est une pratique courante dans l’industrie de l’IA

Réponse d’OpenAI et perspectives

OpenAI a averti que plusieurs entreprises, dont certaines en Chine, tentent de distiller les modèles des sociétés américaines d’IA
L’entreprise souligne qu’elle décide avec prudence de la divulgation des capacités les plus avancées de ses modèles pour protéger sa propriété intellectuelle, et insiste sur l’importance de coopérer avec le gouvernement américain pour empêcher les fuites technologiques
OpenAI fait toutefois lui-même face à ses propres controverses en matière de droits d’auteur, étant poursuivi notamment par le New York Times, ainsi que par d’autres médias et ayants droit, pour usage non autorisé de données

2 commentaires

botplaysdice 2025-02-01

OpenAI est en procès avec le New York Times ; dans ce cas, est-ce que DeepSeek échappe à ce procès ? :)

GN⁺ 2025-01-30

Avis Hacker News

L’affirmation selon laquelle il serait injuste que DeepSeek ait utilisé les données d’OpenAI pour son entraînement est jugée malvenue, puisque OpenAI a lui aussi entraîné ses modèles à partir de données collectées sur Internet
- Il n’est peut-être pas vrai que DeepSeek ait reproduit dès le départ des performances de niveau o1, ce qui soulève des questions sur l’efficacité de son entraînement
- L’article de DeepSeek sur R1 montre que la distillation est extrêmement puissante, et si DeepSeek a entraîné son modèle à partir des sorties de o1, cela pourrait soulever des questions sur l’efficacité de son entraînement
Certains estiment que la publication en open source de DeepSeek sous licence MIT pourrait lui permettre d’attirer de grands talents
- Par le passé, l’open source de nouvelles technologies a toujours favorisé le progrès
- OpenAI collabore avec le gouvernement américain pour protéger sa propriété intellectuelle, et DeepSeek pourrait aussi être interdit comme TikTok
r1 a été créé dans un monde d’après o1, où d’autres modèles peuvent à leur tour distiller r1
- Selon certains, distiller à partir de o1 ne fragilise pas l’argument de coût avancé par DeepSeek
- Certains s’interrogent sur l’existence d’une quelconque supériorité morale ou éthique d’OpenAI
Si DeepSeek a été entraîné à partir d’OpenAI, alors il n’a pas été entraîné from scratch pour "pennies on the dollar", et il ne s’agit peut-être pas d’une percée technique
- Cela n’a toutefois pas encore été confirmé
OpenAI est actuellement en position de faiblesse et ne dispose pas des mêmes ressources juridiques que Google ou Microsoft
- Selon certains, une stratégie consistant pour OpenAI à écraser ses concurrents via des procédures judiciaires ne serait pas efficace
Comme dans l’industrie ferroviaire, la concurrence dans l’IA pourrait faire baisser les coûts, et la plupart des investissements risquent de ne pas générer d’immenses richesses
- De grands groupes comme Nvidia, OpenAI ou DeepSeek investissent dans l’IA, mais pourraient ne pas réussir à créer des bénéfices réels
Critiques envers OpenAI pour l’utilisation non autorisée de contenus et les dépenses importantes engagées pour contourner des scripts d’addiction à l’IA
- Si DeepSeek n’a fait que recycler les données d’OpenAI, alors il ne s’agirait pas d’une percée d’ingénierie
Les modèles d’OpenAI ont été entraînés à partir d’un grand nombre d’ebooks collectés sur des trackers torrent privés d’ebooks
- Les ebooks ont été convertis et nettoyés au format epub, puis hébergés sur des dépôts de données publics