3 points par GN⁺ 2025-01-26 | 1 commentaires | Partager sur WhatsApp
  • DeepSeek-R1 : renforcer les capacités de raisonnement des LLM

    • Présentation des modèles de raisonnement de première génération DeepSeek-R1-Zero et DeepSeek-R1
    • DeepSeek-R1-Zero a été entraîné via un apprentissage par renforcement à grande échelle et montre d’excellentes capacités de raisonnement, même sans ajustement fin supervisé
    • Il se heurte toutefois à des défis tels que des problèmes de lisibilité et le mélange de langues
    • Pour résoudre ces problèmes et améliorer les performances de raisonnement, DeepSeek-R1 est introduit avec un entraînement en plusieurs étapes et l’utilisation de données initiales avant l’apprentissage par renforcement
    • DeepSeek-R1 atteint des performances comparables à OpenAI-o1-1217
    • Afin de soutenir la communauté de recherche, DeepSeek-R1-Zero, DeepSeek-R1 ainsi que 6 modèles denses distillés basés sur Qwen et Llama (1.5B, 7B, 8B, 14B, 32B, 70B) sont proposés en open source
  • Sujet et citation

    • Sujet : calcul et langage (cs.CL) ; intelligence artificielle (cs.AI) ; apprentissage automatique (cs.LG)
    • Citation : arXiv:2501.12948 [cs.CL]
  • Historique de soumission

    • Soumis par : Wenfeng Liang
    • Date de soumission : 22 janvier 2025
  • Accès

    • L’article est accessible dans différents formats, notamment PDF, HTML et source TeX
  • Références et outils de citation

    • Diverses références et outils de citation sont fournis
  • Code, données, médias

    • Code et données associés fournis
  • Informations sur arXivLabs

    • Explications et informations de support concernant arXivLabs

1 commentaires

 
GN⁺ 2025-01-26
Avis Hacker News
  • L’article de DeepSeek V3 est considéré comme une lecture préalable indispensable

    • La combinaison R1 + Sonnet est supérieure aux autres combinaisons
    • Plusieurs études de reproduction indépendantes sont en cours dans différents endroits
    • La distillation de R1 est très facile, donc elle se produira souvent
    • DeepSeek-R1 provoque un fort retentissement dans la Silicon Valley
  • Après avoir essayé le modèle r1-14b d’Ollama, le fait de voir le modèle tester diverses approches en temps réel et choisir des alternatives rappelle le comportement humain

  • DeepSeek V3 est arrivé au bon moment, au moment où Claude Sonnet rencontrait des problèmes

    • Le prix de DeepSeek est très bas, ce qui constitue un grand avantage
    • Passage complet à DeepSeek dans Aider et Cursor
  • La fonction de chat de DeepSeek est plus facile à utiliser que ChatGPT Pro

    • On peut lire le processus de réflexion du modèle, ce qui facilite le débogage
  • Surprise de voir que le processus de réflexion du modèle GPT-O1 se déroule à l’intérieur même du modèle

    • Curiosité de savoir si OpenAI publiera le processus de réflexion de O1
  • Non seulement les performances de DeepSeek R1 sont impressionnantes, mais les petits modèles distillés le sont aussi

    • Le modèle distillé 7b basé sur Qwen est également excellent
    • Le modèle distillé 32b est utilisé comme modèle par défaut sur un serveur domestique
  • Larry Ellison et Masayoshi Son visent l’immortalité grâce à l’ASI

    • Ils engagent des investissements massifs pour développer l’ASI
  • Sur arXiv, plus de 100 auteurs publient un article sous un nom d’équipe

    • Cela contribue à renforcer le travail d’équipe et le moral