- tinygrad est un framework de réseaux de neurones qui allie simplicité et performance, et permet d’implémenter des modèles complexes avec une structure d’opérations minimale
- Basé sur celui-ci, tinybox est un ordinateur d’IA hors ligne haute performance destiné à l’entraînement et à l’inférence en deep learning, proposé en trois modèles : red, green et exa
- Le modèle supérieur green v2 blackwell offre 3086 TFLOPS de performance avec 4 GPU RTX PRO 6000, et est disponible pour $65,000 en livraison immédiate
- Le très haut de gamme exabox vise environ 1 EXAFLOP de performance pour une sortie prévue en 2027, à un prix d’environ 10 millions de dollars
- Son fabricant, tiny corp, vise la commercialisation du petaflop et une IA accessible à tous
Présentation de tinygrad
- tinygrad est un framework de réseaux de neurones axé sur la simplicité et la performance, et c’est un projet en forte croissance
- Il construit des réseaux complexes avec seulement trois OpType : ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps effectue des opérations élément par élément sur 1 à 3 tenseurs, dont SQRT, LOG2, ADD, MUL, WHERE
- ReduceOps prend un tenseur en entrée et renvoie un tenseur plus petit, avec notamment SUM et MAX
- MovementOps est une opération virtuelle qui déplace les données sans copie, en utilisant ShapeTracker pour exécuter RESHAPE, PERMUTE, EXPAND, etc.
- L’implémentation des opérations CONV ou MATMUL peut être consultée directement dans le code
Gamme de produits tinybox
- tinybox est un ordinateur haute performance pour le deep learning, décliné en trois modèles : red, green et exa
- Les principales spécifications de chaque modèle sont les suivantes
-
red v2
- GPU : 4x 9070XT
- Performance FP16(FP32 acc) : 778 TFLOPS
- RAM GPU : 64GB, bande passante 2560 GB/s
- CPU : AMD EPYC 32 cœurs
- RAM système : 128GB, bande passante 204.8 GB/s
- Disque : 2TB NVMe, vitesse de lecture 7.3 GB/s
- Réseau : 2x 1GbE + OCP3.0
- Alimentation : 1600W
- Bruit : moins de 50dB
- Prix : $12,000, disponible en livraison immédiate
-
green v2 blackwell
- GPU : 4x RTX PRO 6000 Blackwell
- Performance FP16(FP32 acc) : 3086 TFLOPS
- RAM GPU : 384GB, bande passante 7168 GB/s
- CPU : AMD GENOA 32 cœurs
- RAM système : 192GB, bande passante 460.8 GB/s
- Disque : 4TB RAID + 1TB pour le démarrage, vitesse de lecture 59.3 GB/s
- Réseau : 2x 10GbE + OCP3.0
- Alimentation : 2x 1600W
- Bruit : 65dB (à 10m de distance)
- Prix : $65,000, disponible en livraison immédiate
-
exabox
- GPU : 720x RDNA5 AT0 XL
- Performance FP16(FP32 acc) : environ 1 EXAFLOP
- RAM GPU : 25,920GB, bande passante 1244 TB/s
- CPU : 120x AMD GENOA 32 cœurs
- RAM système : 23,040GB, bande passante 55.2 TB/s
- Disque : 480TB RAID, vitesse de lecture 7.1 TB/s
- Réseau : prise en charge de l’extension PCIe5 3.2 TB/s
- Alimentation : 600kW
- Dimensions : 20x8x8.5 ft, poids 20,000 lbs
- Sortie prévue : 2027, prix estimé à environ $10M
- Tous les modèles utilisent le système d’exploitation Ubuntu 24.04 et peuvent être installés en version autonome ou en rack
- Les mises à jour produits et stocks sont fournies via une mailing list
FAQ
-
Présentation de tinybox
-
Ordinateur haute performance pour le deep learning**,** avec un excellent rapport performance/prix
- Testé dans le benchmark MLPerf Training 4.0 face à des systèmes 10 fois plus chers
- Il peut faire non seulement de l’entraînement, mais aussi de l’inférence (inference)
-
Commande et livraison
- Commande possible sur le site web, avec expédition sous une semaine après paiement
- Prise en charge du retrait sur site à San Diego ou de la livraison dans le monde entier
-
Personnalisation et paiement
-
Pas de personnalisation afin de préserver les prix et la qualité
- Le paiement se fait uniquement par virement bancaire (wire transfer)
- Le formulaire W-9 est disponible via le lien de téléchargement
-
Usages de tinygrad
- Utilisé dans openpilot pour exécuter un modèle de conduite basé sur le GPU Snapdragon 845
- Remplace Qualcomm SNPE et offre de meilleures performances, le chargement ONNX, la prise en charge de l’entraînement et des fonctions d’attention
-
Fonctionnalités et performances
- Ce n’est pas réservé à l’inférence, et il prend en charge les passes forward/backward basées sur autodiff
- Il propose une API similaire à PyTorch, mais avec une structure plus simple
- C’est une version alpha dont la stabilité reste limitée, même si elle s’est récemment montrée relativement stable
- La sortie de l’alpha est prévue lorsqu’il deviendra possible de reproduire des articles 2 fois plus vite qu’avec PyTorch
- Facteurs d’amélioration des performances
- Compilation de kernels sur mesure pour chaque opération afin d’optimiser selon la forme
- Fusion agressive des opérations grâce à une structure de lazy tensor
- Backend concis permettant qu’une optimisation de kernel améliore les performances globales
-
Développement et communauté
- Le développement se poursuit sur GitHub et Discord
- Les contributions (PR) à tinygrad sont considérées comme une voie majeure vers le recrutement et la participation à l’investissement
- L’objectif de tiny corp est la commercialisation du petaflop et la concrétisation d’une IA pour tous
1 commentaires
Avis Hacker News
J’ai trouvé ironique que ce site donne fortement l’impression d’avoir été fait à la main par des humains plutôt que par de l’IA
Le design et le ton des textes sont très humains
Cela dit, l’idée est excellente, et je pense que ce type de modèle local entraînable pourrait représenter un futur où l’on dépend moins des modèles des grandes entreprises
Par contre, ce serait bien de pouvoir le brancher directement sur un circuit 240V. Devoir trouver deux circuits 120V est assez pénible
Je pense que c’est parce que les gens du secteur sont très sensibles à la distinction entre signal et bruit
Sans doute que le volume est assez faible pour qu’ils puissent simplement ignorer poliment les PR de mauvaise qualité, donc la manière dont elles sont produites n’a pas d’importance
Le modèle de base à 12 000 dollars est beaucoup trop cher
Moi, je fais tourner un modèle 120B paramètres sur un Apple M3 Max (128GB RAM) à 15 à 20 tokens par seconde pour 80W
Ce n’est pas parfait, mais j’ai l’impression que c’est mieux qu’une machine à 12 000 dollars
Avec ça, on peut faire tourner gpt-oss-120b Q8 à environ 30 tokens par seconde
Il est impossible que la red v2 puisse faire tourner correctement un modèle 120B
J’ai moi-même monté un homelab IA avec deux A100, avec 80GB de VRAM reliés par NVLink
Un modèle 120B est impossible sans quantification agressive, et à ce niveau le modèle devient instable
Il n’y a pas non plus assez de place pour le cache KV, donc on finit en OOM vers 4k de contexte
Même pour faire tourner des modèles 70B, c’est déjà tendu. Ma machine a 16GB de VRAM de plus que la red v2
Et en plus, je ne vois pas pourquoi c’est du 12U. Mon rig est en 4U
La green v2 a de meilleurs GPU, mais à 65 000 dollars, le CPU et la RAM devraient aussi être nettement meilleurs
Je suis content que ça existe, mais honnêtement je ne comprends pas la répartition de la configuration
Je fais tourner gpt-oss-120b Q4 sur une machine Epyc Milan en le répartissant entre RAM et GPU, et j’obtiens environ 30 à 50 tokens par seconde
Une configuration 64G VRAM / 128G RAM est inefficace. Même les modèles MoE n’ont besoin que d’environ 20B pour le routeur, le reste de la VRAM est gaspillé
La réponse doit être quelque chose comme : « Pour réduire les prix et maintenir la qualité, nous ne proposons pas de personnalisation de la taille des serveurs »
J’utilise un serveur 8 GPU (5 RTX 8000, 3 RTX 6000 Ada), et pour de l’inférence de base, les 8000 suffisent déjà
Le modèle green sera plus rapide, mais je ne vois pas comment justifier les 25 000 dollars supplémentaires
Quatre Blackwell 6000 coûtent entre 32 000 et 36 000 dollars, donc je ne vois pas où sont passés les 30 000 dollars restants
Certains frameworks d’IA locale prennent en charge une politique LRU qui n’utilise qu’une partie de la VRAM comme cache, donc l’overhead reste supportable
exabox est intéressant
Je me demande qui sont les clients. Après avoir vu la vidéo de lancement de Vera Rubin, j’ai du mal à imaginer qu’ils puissent concurrencer NVIDIA sur le marché hyperscale
Ils visent sans doute les startups ML attentives au rapport qualité-prix
En regardant les prix, Vera Rubin coûte en fait environ la moitié pour un niveau similaire de RAM GPU
Ce ne sera pas au niveau d’NV en matière d’interconnexion
Je ne sais pas qui achètera ça. NV expédie déjà
En visant cette niche, ils peuvent rivaliser. Avec moins de 0,01 % de part de marché, les grands groupes ne s’en soucieront probablement pas
Je me demande si ce n’est pas une nouvelle sorte de machine de minage crypto
Avant, on vendait du matériel pour miner, maintenant on a l’impression qu’on le vend pour l’IA
Tinybox est sympa, mais j’ai l’impression que le marché préférera des produits avec des garanties de performance explicites, du genre « peut faire tourner Kimi 2.5 à 50 tokens par seconde »
Ça fait penser au concept de Decoy effect
Je me demande comment ils gèrent le refroidissement sur cette machine
À propos de la condition de tinygrad selon laquelle il sortira de l’alpha « quand il sera 2x plus rapide que pytorch »
Il faudrait expliquer précisément sur quels workloads pytorch est plus de deux fois plus lent que le matériel ne le permet
La plupart des articles utilisent des composants standards, et pytorch extrait déjà plus de 50 % des performances GPU
Si les performances n’apparaissent que dans des cas particuliers où il faut écrire des kernels personnalisés, c’est alors un autre problème
Je ne vois pas pourquoi ils ont abandonné la configuration à 6 GPU
Une config 4 GPU (9070, RTX6000) a un design double slot, donc on peut la monter même sur une carte mère standard
Une config 6 GPU exige des risers, des retimers PCIe, une double alimentation et un boîtier sur mesure, donc c’est plus complexe
Mais malgré ça, je pense qu’elle offrait un meilleur rapport qualité-prix