1 points par GN⁺ 2025-12-15 | 1 commentaires | Partager sur WhatsApp
  • Le modèle Kimi K2 1T a été exécuté sur deux puces M3 Ultra disposant chacune de 512 Go de mémoire
  • Une publication sur Twitter mentionne l’environnement d’exécution et la configuration matérielle du modèle
  • Le fait qu’un modèle à l’échelle du trillion ait été exécuté sur du matériel Mac grand public retient l’attention
  • Un exemple qui montre le potentiel de calcul IA haute performance sur Apple Silicon
  • Une tentative technique qui laisse entrevoir un élargissement des limites de l’exécution locale des grands modèles de langage

Contenu de la publication Twitter

  • La publication indique explicitement que le modèle Kimi K2 1T a été exécuté sur deux M3 Ultra (512 Go de mémoire chacun)
  • Aucune mesure de performance ni résultat supplémentaire n’est mentionné
  • En dehors de ce tweet, aucun contexte additionnel ni détail technique supplémentaire ne sont fournis

1 commentaires

 
GN⁺ 2025-12-15
Commentaires sur Hacker News
  • Kimi K2 est vraiment un modèle étrange
    Il n’est pas plus intelligent qu’Opus 4.5 ou 5.2-Pro, mais son style d’écriture est très particulier et il a un ton direct qui donne l’impression de parler à une personne
    Pour rédiger de courts textes comme des e-mails, c’est probablement ce qui se fait de mieux aujourd’hui, et il n’hésite pas à signaler les erreurs ou à corriger les absurdités pendant une conversation
    On a l’impression qu’il a été entraîné d’une manière totalement différente des autres modèles, donc il est bien plus utile pour l’édition que pour l’analyse de données
    C’est d’ailleurs pour ça que je paie réellement un abonnement Kimi pour l’utiliser
    • Je pense pareil. Pour les communications courtes, Kimi K2 est à part
      Son intelligence émotionnelle (emotional intelligence) est remarquable : il comprend bien les nuances et les intentions d’un message, et retravaille les phrases en tenant compte du contexte social
      Je ne sais pas comment Moonshot l’a entraîné, mais cet aspect mérite vraiment l’attention
      Il a pris la 1re place en évaluation d’intelligence émotionnelle sur EQ-bench, et cela correspond exactement à mon ressenti
    • C’est le seul modèle qui réussit régulièrement l’un de mes benchmarks IA préférés, le test Clocks
    • C’est le seul modèle qui me signale honnêtement quand j’ai tort
      Voir un chatbot dire quelque chose comme « fournissez un exemple reproductible » est une expérience assez surprenante
      À noter qu’on peut aussi utiliser Kimi K2 sur Kagi
    • Sonnet 4.5 a lui aussi tendance à contredire l’utilisateur, mais la plupart du temps c’est un malentendu dû à un manque de contexte
      Je me demande à quel point Kimi K2 est précis sur ce point
      Au fond, je me dis que l’essentiel pour un modèle, c’est surtout le suivi des instructions (instruction following)
    • Avec ce genre de caractéristiques, il est logique qu’il ait un score élevé sur EQ-bench
  • Kimi K2 est un modèle vraiment impressionnant
    Son absence d’attitude trop flatteuse le rend utile pour vérifier un raisonnement
    Les anciens modèles de ChatGPT complimentaient tout, mais Kimi, si on le lui demande, peut critiquer sans pitié au point de remettre en cause votre intelligence ou même vos ancêtres
    • Si on le demande, il passe vraiment en mode roast. Ça aide à rester concentré
    • Une fois, j’avais lancé Grok dans une Tesla, et la reconnaissance vocale a mal fonctionné, ce qui a créé un moment assez gênant
      Ce modèle avait lui aussi un caractère pas du tout flatteur, comme Kimi
  • Le modèle M3 Ultra 512GB coûte 9 499 $
    Lien officiel Apple
    • Les produits reconditionnés peuvent être achetés 8 070 $ via ce lien
      Il est aussi possible d’obtenir 10 % de réduction supplémentaire avec une carte-cadeau
  • Je me demande s’il existe une version Linux de cette configuration
    J’ai entendu parler du support RDNA, mais je ne sais pas si cela dépend du matériel (ConnectX ou Thunderbolt d’Apple nécessaires) ou si une simple carte réseau 10G suffit
    • Pour obtenir des performances de niveau production, il faut du matériel compatible RDNA
      Cela dit, vLLM prend aussi en charge les clusters multi-nœuds basés sur Ethernet standard
  • Comme toujours, les affirmations sur les performances prêtent à confusion quand elles ne précisent pas la longueur du contexte ni les conditions de prefill
    Avec un contexte long, il est possible d’attendre plusieurs minutes avant d’obtenir une réponse
  • J’aimerais acheter quelques machines comme celle-ci, mais en tenant compte de la dépréciation, j’ai l’impression que c’est encore trop tôt
    Cela devrait coûter bien moins cher dans quelques années
    • Avant d’acheter, il faut absolument vérifier les vrais benchmarks de vitesse
      Il ne faut pas se contenter de « ça fonctionne » : les débits de traitement en contexte long sont complètement différents
    • Personnellement, je ne pense pas que l’achat de ce type de matériel soit économiquement pertinent
      Pour le même montant, on peut obtenir bien plus de consommation cloud
      En plus, comme on ne les fait pas tourner 24/7, l’efficacité est faible
      Pour les modèles open source, il est beaucoup plus simple d’utiliser des services à très faible latence comme Groq ou Cerebras
    • Si on exécute des modèles en local, c’est pour la confidentialité, pas pour le coût ni pour la latence
    • J’espère que la prochaine mise à jour embarquera une puce dérivée du M5
    • Il vaudrait sans doute mieux attendre que le prix de la RAM se stabilise
  • Je me demande quels benchmarks sont vraiment pertinents en ce moment
    Je teste plusieurs modèles dans Cursor, mais Deepseek v3.2 ou Kimi K2 fonctionnent mal à cause de problèmes de format, et d’autres modèles manquent aussi
    Je suis surtout curieux de benchmarks hors web, notamment en C++ ou Rust
  • Il faut préciser qu’il s’agit d’une version quantifiée en 4 bits (quant) de ce modèle. Cela reste impressionnant
    • Kimi K2 a été conçu dès le départ avec pour objectif une optimisation 4 bits
    • Quand on parle d’un nombre de paramètres de l’ordre du trillion, j’estime que la quantification est déjà implicite
  • Je me demande aussi si l’accélération du token pre-fill d’Exo Labs peut fonctionner sur DGX Spark
    Je me demande si une combinaison de 2 Spark et 2 Mac Studio pourrait atteindre une vitesse d’inférence comparable à celle de 2 M5 Ultra
  • J’ai l’impression que c’est justement ce modèle qui a gagné récemment le concours de dessin d’horloges en temps réel