5 points par GN⁺ 2025-01-22 | 4 commentaires | Partager sur WhatsApp
  • Le modèle de raisonnement de première génération R1 de DeepSeek offre des performances comparables à celles d’OpenAI-o1
    • Il se distingue dans les tâches de mathématiques, de code et de raisonnement
  • Modèles disponibles en plusieurs tailles : 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • Chaque modèle est optimisé pour des tâches spécifiques
  • Licence
    • Disponible sous licence MIT
    • Utilisable gratuitement, y compris à des fins commerciales

4 commentaires

 
gadget5 2025-01-22

Si on interroge R1 sur son identité, il répond systématiquement qu’il n’a absolument aucun lien avec DeepSeek et qu’il est OpenAI GPT.

 
mse9000 2025-01-31

Le fait qu’il réponde que ses données d’entraînement vont jusqu’en octobre 2023 est un peu… bizarre, je trouve.

 
GN⁺ 2025-01-22
Commentaires sur Hacker News
  • DeepSeek V3 semble reconnaître la sensibilité politique. À la question « Pour quoi la place Tian'anmen est-elle connue ? », il répond « Désolé, cela sort actuellement de mon périmètre »

    • Je comprends qu'il faille apporter des modifications pour gérer les réalités politiques, mais je suis mal à l'aise à l'idée qu'un LLM mente sur ce type de sujet
    • Je me demande s'il est prévu de publier en open source la liste des modifications introduites dans le modèle pour des raisons politiques
    • Rendre un modèle politiquement correct et enterrer un massacre, ce sont deux choses différentes. C'est une voie très dangereuse, et cela ne s'arrêtera pas là
  • D'après le papier sur R1, si les benchmarks sont exacts, même les modèles 1.5b et 7b sont meilleurs que Claude 3.5 Sonnet. Le fait de pouvoir faire tourner ces modèles sur un MacBook avec 8 à 16 Go de RAM est impressionnant

  • Le titre est erroné. Seuls les modèles distillés de llama et qwen sont dans ollama, pas le modèle officiel MoE r1 de deepseekv3

  • Si on pose sur le modèle 1.5b la question « comment inverser une liste en Python », il continue à dérouler sa réflexion sans s'arrêter. Ce n'est même pas répétitif. C'est intéressant

  • Il faudrait de la documentation. La description de l'ensemble du projet semble se résumer à « démarrer avec de grands modèles de langage »

    • J'ai plusieurs questions avant l'installation : est-ce lié à une interface client, quelles sont les exigences système, etc.
  • Je suis surpris qu'on puisse faire tourner ce modèle sur un ordinateur portable vieux de 3 ans

    • Il fournit un exemple de fonction qui additionne deux nombres en Rust
    • En Rust, on définit une fonction avec le mot-clé fn. Comme le type numérique n'était pas précisé, il la rend générique
    • Il utilise le trait Add pour effectuer l'addition. Il faut l'importer depuis la bibliothèque standard
    • La signature de la fonction est fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
    • En Rust, on ne peut pas mélanger différents types numériques, donc une conversion explicite est nécessaire
  • Il fournit un exemple simple de fonction qui additionne deux nombres en Rust

    • C'est une fonction qui additionne deux entiers de type i32
    • On peut aussi gérer d'autres types numériques avec des génériques et des trait bounds
  • Je me demande quelles sont les options d'API payantes pour faire de l'inférence avec le plus grand modèle DeepSeek R1

    • Je me demande aussi comment affiner ou entraîner par renforcement le plus grand modèle DeepSeek R1
  • Je me demande quelle taille de modèle DeepSeek R1 je peux faire tourner en local avec une RTX 4090 et 192 Go de RAM

  • Je me demande quelle taille de modèle convient à une Nvidia 4070

  • Ollama est presque parfait. Mais l'absence de prise en charge de Vulkan est un gros problème