Le modèle Kimi K2 1T fonctionne sur deux M3 Ultra de 512 Go
(twitter.com/awnihannun)- Le modèle Kimi K2 1T a été exécuté sur deux puces M3 Ultra disposant chacune de 512 Go de mémoire
- Une publication sur Twitter mentionne l’environnement d’exécution et la configuration matérielle du modèle
- Le fait qu’un modèle à l’échelle du trillion ait été exécuté sur du matériel Mac grand public retient l’attention
- Un exemple qui montre le potentiel de calcul IA haute performance sur Apple Silicon
- Une tentative technique qui laisse entrevoir un élargissement des limites de l’exécution locale des grands modèles de langage
Contenu de la publication Twitter
- La publication indique explicitement que le modèle Kimi K2 1T a été exécuté sur deux M3 Ultra (512 Go de mémoire chacun)
- Aucune mesure de performance ni résultat supplémentaire n’est mentionné
- En dehors de ce tweet, aucun contexte additionnel ni détail technique supplémentaire ne sont fournis
1 commentaires
Commentaires sur Hacker News
Il n’est pas plus intelligent qu’Opus 4.5 ou 5.2-Pro, mais son style d’écriture est très particulier et il a un ton direct qui donne l’impression de parler à une personne
Pour rédiger de courts textes comme des e-mails, c’est probablement ce qui se fait de mieux aujourd’hui, et il n’hésite pas à signaler les erreurs ou à corriger les absurdités pendant une conversation
On a l’impression qu’il a été entraîné d’une manière totalement différente des autres modèles, donc il est bien plus utile pour l’édition que pour l’analyse de données
C’est d’ailleurs pour ça que je paie réellement un abonnement Kimi pour l’utiliser
Son intelligence émotionnelle (emotional intelligence) est remarquable : il comprend bien les nuances et les intentions d’un message, et retravaille les phrases en tenant compte du contexte social
Je ne sais pas comment Moonshot l’a entraîné, mais cet aspect mérite vraiment l’attention
Il a pris la 1re place en évaluation d’intelligence émotionnelle sur EQ-bench, et cela correspond exactement à mon ressenti
Voir un chatbot dire quelque chose comme « fournissez un exemple reproductible » est une expérience assez surprenante
À noter qu’on peut aussi utiliser Kimi K2 sur Kagi
Je me demande à quel point Kimi K2 est précis sur ce point
Au fond, je me dis que l’essentiel pour un modèle, c’est surtout le suivi des instructions (instruction following)
Son absence d’attitude trop flatteuse le rend utile pour vérifier un raisonnement
Les anciens modèles de ChatGPT complimentaient tout, mais Kimi, si on le lui demande, peut critiquer sans pitié au point de remettre en cause votre intelligence ou même vos ancêtres
Ce modèle avait lui aussi un caractère pas du tout flatteur, comme Kimi
Lien officiel Apple
Il est aussi possible d’obtenir 10 % de réduction supplémentaire avec une carte-cadeau
J’ai entendu parler du support RDNA, mais je ne sais pas si cela dépend du matériel (ConnectX ou Thunderbolt d’Apple nécessaires) ou si une simple carte réseau 10G suffit
Cela dit, vLLM prend aussi en charge les clusters multi-nœuds basés sur Ethernet standard
Avec un contexte long, il est possible d’attendre plusieurs minutes avant d’obtenir une réponse
Cela devrait coûter bien moins cher dans quelques années
Il ne faut pas se contenter de « ça fonctionne » : les débits de traitement en contexte long sont complètement différents
Pour le même montant, on peut obtenir bien plus de consommation cloud
En plus, comme on ne les fait pas tourner 24/7, l’efficacité est faible
Pour les modèles open source, il est beaucoup plus simple d’utiliser des services à très faible latence comme Groq ou Cerebras
Je teste plusieurs modèles dans Cursor, mais Deepseek v3.2 ou Kimi K2 fonctionnent mal à cause de problèmes de format, et d’autres modèles manquent aussi
Je suis surtout curieux de benchmarks hors web, notamment en C++ ou Rust
Je me demande si une combinaison de 2 Spark et 2 Mac Studio pourrait atteindre une vitesse d’inférence comparable à celle de 2 M5 Ultra