Le modèle Kimi K2 1T fonctionne sur deux M3 Ultra de 512 Go

(twitter.com/awnihannun)

1 points par GN⁺ 2025-12-15 | 1 commentaires | Partager sur WhatsApp

Le modèle Kimi K2 1T a été exécuté sur deux puces M3 Ultra disposant chacune de 512 Go de mémoire
Une publication sur Twitter mentionne l’environnement d’exécution et la configuration matérielle du modèle
Le fait qu’un modèle à l’échelle du trillion ait été exécuté sur du matériel Mac grand public retient l’attention
Un exemple qui montre le potentiel de calcul IA haute performance sur Apple Silicon
Une tentative technique qui laisse entrevoir un élargissement des limites de l’exécution locale des grands modèles de langage

Contenu de la publication Twitter

La publication indique explicitement que le modèle Kimi K2 1T a été exécuté sur deux M3 Ultra (512 Go de mémoire chacun)
Aucune mesure de performance ni résultat supplémentaire n’est mentionné
En dehors de ce tweet, aucun contexte additionnel ni détail technique supplémentaire ne sont fournis

1 commentaires

GN⁺ 2025-12-15

Commentaires sur Hacker News

Kimi K2 est vraiment un modèle étrange
Il n’est pas plus intelligent qu’Opus 4.5 ou 5.2-Pro, mais son style d’écriture est très particulier et il a un ton direct qui donne l’impression de parler à une personne
Pour rédiger de courts textes comme des e-mails, c’est probablement ce qui se fait de mieux aujourd’hui, et il n’hésite pas à signaler les erreurs ou à corriger les absurdités pendant une conversation
On a l’impression qu’il a été entraîné d’une manière totalement différente des autres modèles, donc il est bien plus utile pour l’édition que pour l’analyse de données
C’est d’ailleurs pour ça que je paie réellement un abonnement Kimi pour l’utiliser
- Je pense pareil. Pour les communications courtes, Kimi K2 est à part
  Son intelligence émotionnelle (emotional intelligence) est remarquable : il comprend bien les nuances et les intentions d’un message, et retravaille les phrases en tenant compte du contexte social
  Je ne sais pas comment Moonshot l’a entraîné, mais cet aspect mérite vraiment l’attention
  Il a pris la 1re place en évaluation d’intelligence émotionnelle sur EQ-bench, et cela correspond exactement à mon ressenti
- C’est le seul modèle qui réussit régulièrement l’un de mes benchmarks IA préférés, le test Clocks
- C’est le seul modèle qui me signale honnêtement quand j’ai tort
  Voir un chatbot dire quelque chose comme « fournissez un exemple reproductible » est une expérience assez surprenante
  À noter qu’on peut aussi utiliser Kimi K2 sur Kagi
- Sonnet 4.5 a lui aussi tendance à contredire l’utilisateur, mais la plupart du temps c’est un malentendu dû à un manque de contexte
  Je me demande à quel point Kimi K2 est précis sur ce point
  Au fond, je me dis que l’essentiel pour un modèle, c’est surtout le suivi des instructions (instruction following)
- Avec ce genre de caractéristiques, il est logique qu’il ait un score élevé sur EQ-bench
Kimi K2 est un modèle vraiment impressionnant
Son absence d’attitude trop flatteuse le rend utile pour vérifier un raisonnement
Les anciens modèles de ChatGPT complimentaient tout, mais Kimi, si on le lui demande, peut critiquer sans pitié au point de remettre en cause votre intelligence ou même vos ancêtres
- Si on le demande, il passe vraiment en mode roast. Ça aide à rester concentré
- Une fois, j’avais lancé Grok dans une Tesla, et la reconnaissance vocale a mal fonctionné, ce qui a créé un moment assez gênant
  Ce modèle avait lui aussi un caractère pas du tout flatteur, comme Kimi
Le modèle M3 Ultra 512GB coûte 9 499 $
Lien officiel Apple
- Les produits reconditionnés peuvent être achetés 8 070 $ via ce lien
  Il est aussi possible d’obtenir 10 % de réduction supplémentaire avec une carte-cadeau
Je me demande s’il existe une version Linux de cette configuration
J’ai entendu parler du support RDNA, mais je ne sais pas si cela dépend du matériel (ConnectX ou Thunderbolt d’Apple nécessaires) ou si une simple carte réseau 10G suffit
- Pour obtenir des performances de niveau production, il faut du matériel compatible RDNA
  Cela dit, vLLM prend aussi en charge les clusters multi-nœuds basés sur Ethernet standard
Comme toujours, les affirmations sur les performances prêtent à confusion quand elles ne précisent pas la longueur du contexte ni les conditions de prefill
Avec un contexte long, il est possible d’attendre plusieurs minutes avant d’obtenir une réponse
J’aimerais acheter quelques machines comme celle-ci, mais en tenant compte de la dépréciation, j’ai l’impression que c’est encore trop tôt
Cela devrait coûter bien moins cher dans quelques années
- Avant d’acheter, il faut absolument vérifier les vrais benchmarks de vitesse
  Il ne faut pas se contenter de « ça fonctionne » : les débits de traitement en contexte long sont complètement différents
- Personnellement, je ne pense pas que l’achat de ce type de matériel soit économiquement pertinent
  Pour le même montant, on peut obtenir bien plus de consommation cloud
  En plus, comme on ne les fait pas tourner 24/7, l’efficacité est faible
  Pour les modèles open source, il est beaucoup plus simple d’utiliser des services à très faible latence comme Groq ou Cerebras
- Si on exécute des modèles en local, c’est pour la confidentialité, pas pour le coût ni pour la latence
- J’espère que la prochaine mise à jour embarquera une puce dérivée du M5
- Il vaudrait sans doute mieux attendre que le prix de la RAM se stabilise
Je me demande quels benchmarks sont vraiment pertinents en ce moment
Je teste plusieurs modèles dans Cursor, mais Deepseek v3.2 ou Kimi K2 fonctionnent mal à cause de problèmes de format, et d’autres modèles manquent aussi
Je suis surtout curieux de benchmarks hors web, notamment en C++ ou Rust
Il faut préciser qu’il s’agit d’une version quantifiée en 4 bits (quant) de ce modèle. Cela reste impressionnant
- Kimi K2 a été conçu dès le départ avec pour objectif une optimisation 4 bits
- Quand on parle d’un nombre de paramètres de l’ordre du trillion, j’estime que la quantification est déjà implicite
Je me demande aussi si l’accélération du token pre-fill d’Exo Labs peut fonctionner sur DGX Spark
Je me demande si une combinaison de 2 Spark et 2 Mac Studio pourrait atteindre une vitesse d’inférence comparable à celle de 2 M5 Ultra
J’ai l’impression que c’est justement ce modèle qui a gagné récemment le concours de dessin d’horloges en temps réel

Le modèle Kimi K2 1T fonctionne sur deux M3 Ultra de 512 Go

Contenu de la publication Twitter

À lire aussi

1 commentaires

Commentaires sur Hacker News