Tinybox – une machine d’IA hors ligne prenant en charge 120B de paramètres

(tinygrad.org)

6 points par GN⁺ 2026-03-22 | 1 commentaires | Partager sur WhatsApp

tinygrad est un framework de réseaux de neurones qui allie simplicité et performance, et permet d’implémenter des modèles complexes avec une structure d’opérations minimale
Basé sur celui-ci, tinybox est un ordinateur d’IA hors ligne haute performance destiné à l’entraînement et à l’inférence en deep learning, proposé en trois modèles : red, green et exa
Le modèle supérieur green v2 blackwell offre 3086 TFLOPS de performance avec 4 GPU RTX PRO 6000, et est disponible pour $65,000 en livraison immédiate
Le très haut de gamme exabox vise environ 1 EXAFLOP de performance pour une sortie prévue en 2027, à un prix d’environ 10 millions de dollars
Son fabricant, tiny corp, vise la commercialisation du petaflop et une IA accessible à tous

Présentation de tinygrad

tinygrad est un framework de réseaux de neurones axé sur la simplicité et la performance, et c’est un projet en forte croissance
Il construit des réseaux complexes avec seulement trois OpType : ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps effectue des opérations élément par élément sur 1 à 3 tenseurs, dont SQRT, LOG2, ADD, MUL, WHERE
- ReduceOps prend un tenseur en entrée et renvoie un tenseur plus petit, avec notamment SUM et MAX
- MovementOps est une opération virtuelle qui déplace les données sans copie, en utilisant ShapeTracker pour exécuter RESHAPE, PERMUTE, EXPAND, etc.
L’implémentation des opérations CONV ou MATMUL peut être consultée directement dans le code

Gamme de produits tinybox

tinybox est un ordinateur haute performance pour le deep learning, décliné en trois modèles : red, green et exa
Les principales spécifications de chaque modèle sont les suivantes
- red v2
  - GPU : 4x 9070XT
  - Performance FP16(FP32 acc) : 778 TFLOPS
  - RAM GPU : 64GB, bande passante 2560 GB/s
  - CPU : AMD EPYC 32 cœurs
  - RAM système : 128GB, bande passante 204.8 GB/s
  - Disque : 2TB NVMe, vitesse de lecture 7.3 GB/s
  - Réseau : 2x 1GbE + OCP3.0
  - Alimentation : 1600W
  - Bruit : moins de 50dB
  - Prix : $12,000, disponible en livraison immédiate
- green v2 blackwell
  - GPU : 4x RTX PRO 6000 Blackwell
  - Performance FP16(FP32 acc) : 3086 TFLOPS
  - RAM GPU : 384GB, bande passante 7168 GB/s
  - CPU : AMD GENOA 32 cœurs
  - RAM système : 192GB, bande passante 460.8 GB/s
  - Disque : 4TB RAID + 1TB pour le démarrage, vitesse de lecture 59.3 GB/s
  - Réseau : 2x 10GbE + OCP3.0
  - Alimentation : 2x 1600W
  - Bruit : 65dB (à 10m de distance)
  - Prix : $65,000, disponible en livraison immédiate
- exabox
  - GPU : 720x RDNA5 AT0 XL
  - Performance FP16(FP32 acc) : environ 1 EXAFLOP
  - RAM GPU : 25,920GB, bande passante 1244 TB/s
  - CPU : 120x AMD GENOA 32 cœurs
  - RAM système : 23,040GB, bande passante 55.2 TB/s
  - Disque : 480TB RAID, vitesse de lecture 7.1 TB/s
  - Réseau : prise en charge de l’extension PCIe5 3.2 TB/s
  - Alimentation : 600kW
  - Dimensions : 20x8x8.5 ft, poids 20,000 lbs
  - Sortie prévue : 2027, prix estimé à environ $10M
  - Tous les modèles utilisent le système d’exploitation Ubuntu 24.04 et peuvent être installés en version autonome ou en rack
  - Les mises à jour produits et stocks sont fournies via une mailing list

FAQ

Présentation de tinybox
- Ordinateur haute performance pour le deep learning**,** avec un excellent rapport performance/prix
  - Testé dans le benchmark MLPerf Training 4.0 face à des systèmes 10 fois plus chers
  - Il peut faire non seulement de l’entraînement, mais aussi de l’inférence (inference)
Commande et livraison
- Commande possible sur le site web, avec expédition sous une semaine après paiement
- Prise en charge du retrait sur site à San Diego ou de la livraison dans le monde entier
Personnalisation et paiement
- Pas de personnalisation afin de préserver les prix et la qualité
  - Le paiement se fait uniquement par virement bancaire (wire transfer)
  - Le formulaire W-9 est disponible via le lien de téléchargement
Usages de tinygrad
- Utilisé dans openpilot pour exécuter un modèle de conduite basé sur le GPU Snapdragon 845
- Remplace Qualcomm SNPE et offre de meilleures performances, le chargement ONNX, la prise en charge de l’entraînement et des fonctions d’attention
Fonctionnalités et performances
- Ce n’est pas réservé à l’inférence, et il prend en charge les passes forward/backward basées sur autodiff
- Il propose une API similaire à PyTorch, mais avec une structure plus simple
- C’est une version alpha dont la stabilité reste limitée, même si elle s’est récemment montrée relativement stable
- La sortie de l’alpha est prévue lorsqu’il deviendra possible de reproduire des articles 2 fois plus vite qu’avec PyTorch
- Facteurs d’amélioration des performances
  - Compilation de kernels sur mesure pour chaque opération afin d’optimiser selon la forme
  - Fusion agressive des opérations grâce à une structure de lazy tensor
  - Backend concis permettant qu’une optimisation de kernel améliore les performances globales
Développement et communauté
- Le développement se poursuit sur GitHub et Discord
- Les contributions (PR) à tinygrad sont considérées comme une voie majeure vers le recrutement et la participation à l’investissement
- L’objectif de tiny corp est la commercialisation du petaflop et la concrétisation d’une IA pour tous

1 commentaires

GN⁺ 2026-03-22

Avis Hacker News

J’ai trouvé ironique que ce site donne fortement l’impression d’avoir été fait à la main par des humains plutôt que par de l’IA
Le design et le ton des textes sont très humains
Cela dit, l’idée est excellente, et je pense que ce type de modèle local entraînable pourrait représenter un futur où l’on dépend moins des modèles des grandes entreprises
Par contre, ce serait bien de pouvoir le brancher directement sur un circuit 240V. Devoir trouver deux circuits 120V est assez pénible
- Parmi les textes sur l’IA, ceux qui sont vraiment respectés sont en général ceux qui portent très peu de traces d’écriture par IA
  Je pense que c’est parce que les gens du secteur sont très sensibles à la distinction entre signal et bruit
- J’ai trouvé étonnant qu’ils sollicitent publiquement des contributions de code avec « Invest with your PRs » tout en n’ayant aucune politique sur le code généré par IA
  Sans doute que le volume est assez faible pour qu’ils puissent simplement ignorer poliment les PR de mauvaise qualité, donc la manière dont elles sont produites n’a pas d’importance
- Pour quelqu’un qui achète un équipement à 65 000 dollars, trouver deux circuits doit sembler un problème mineur
- En réalité, aux États-Unis, un circuit 240V est constitué de deux lignes 120V couplées, donc le recâblage n’est pas compliqué
Le modèle de base à 12 000 dollars est beaucoup trop cher
Moi, je fais tourner un modèle 120B paramètres sur un Apple M3 Max (128GB RAM) à 15 à 20 tokens par seconde pour 80W
Ce n’est pas parfait, mais j’ai l’impression que c’est mieux qu’une machine à 12 000 dollars
- Les tflops du M3 Max sont incomparablement plus faibles que ceux de la boîte à 12k
- Ce genre de machine est pour les idiots. J’ai acheté 160GB de VRAM pour 1 000 dollars l’an dernier, et 96GB de VRAM en P40 valent aussi moins de 1 000 dollars
  Avec ça, on peut faire tourner gpt-oss-120b Q8 à environ 30 tokens par seconde
Il est impossible que la red v2 puisse faire tourner correctement un modèle 120B
J’ai moi-même monté un homelab IA avec deux A100, avec 80GB de VRAM reliés par NVLink
Un modèle 120B est impossible sans quantification agressive, et à ce niveau le modèle devient instable
Il n’y a pas non plus assez de place pour le cache KV, donc on finit en OOM vers 4k de contexte
Même pour faire tourner des modèles 70B, c’est déjà tendu. Ma machine a 16GB de VRAM de plus que la red v2
Et en plus, je ne vois pas pourquoi c’est du 12U. Mon rig est en 4U
La green v2 a de meilleurs GPU, mais à 65 000 dollars, le CPU et la RAM devraient aussi être nettement meilleurs
Je suis content que ça existe, mais honnêtement je ne comprends pas la répartition de la configuration
- Les performances sont correctes, mais rien de délirant
  Je fais tourner gpt-oss-120b Q4 sur une machine Epyc Milan en le répartissant entre RAM et GPU, et j’obtiens environ 30 à 50 tokens par seconde
  Une configuration 64G VRAM / 128G RAM est inefficace. Même les modèles MoE n’ont besoin que d’environ 20B pour le routeur, le reste de la VRAM est gaspillé
- Si c’est du 12U, c’est probablement parce qu’ils utilisent un SKU de boîtier unique
  La réponse doit être quelque chose comme : « Pour réduire les prix et maintenir la qualité, nous ne proposons pas de personnalisation de la taille des serveurs »
- Franchement, deux RTX 8000 auraient probablement un meilleur ROI que la red v2
  J’utilise un serveur 8 GPU (5 RTX 8000, 3 RTX 6000 Ada), et pour de l’inférence de base, les 8000 suffisent déjà
  Le modèle green sera plus rapide, mais je ne vois pas comment justifier les 25 000 dollars supplémentaires
- Je me demande si ça a vraiment coûté moins cher que des Blackwell 6000
  Quatre Blackwell 6000 coûtent entre 32 000 et 36 000 dollars, donc je ne vois pas où sont passés les 30 000 dollars restants
- Je me dis qu’en déchargeant le KV vers la RAM système ou le stockage, on pourrait utiliser des contextes plus longs
  Certains frameworks d’IA locale prennent en charge une politique LRU qui n’utilise qu’une partie de la VRAM comme cache, donc l’overhead reste supportable
exabox est intéressant
Je me demande qui sont les clients. Après avoir vu la vidéo de lancement de Vera Rubin, j’ai du mal à imaginer qu’ils puissent concurrencer NVIDIA sur le marché hyperscale
Ils visent sans doute les startups ML attentives au rapport qualité-prix
En regardant les prix, Vera Rubin coûte en fait environ la moitié pour un niveau similaire de RAM GPU
Ce ne sera pas au niveau d’NV en matière d’interconnexion
Je ne sais pas qui achètera ça. NV expédie déjà
- Les infrastructures des grandes entreprises ont souvent plus de 5 ans, et le coût des mises à niveau est trop élevé pour changer facilement
  En visant cette niche, ils peuvent rivaliser. Avec moins de 0,01 % de part de marché, les grands groupes ne s’en soucieront probablement pas
- En réaction à « exabox est intéressant », quelqu’un a plaisanté avec « est-ce que ça fait tourner Crysis ? »
Je me demande si ce n’est pas une nouvelle sorte de machine de minage crypto
Avant, on vendait du matériel pour miner, maintenant on a l’impression qu’on le vend pour l’IA
- C’est similaire, sauf qu’ici il n’y a pas de bloc de récompense
Tinybox est sympa, mais j’ai l’impression que le marché préférera des produits avec des garanties de performance explicites, du genre « peut faire tourner Kimi 2.5 à 50 tokens par seconde »
Ça fait penser au concept de Decoy effect
Je me demande comment ils gèrent le refroidissement sur cette machine
À propos de la condition de tinygrad selon laquelle il sortira de l’alpha « quand il sera 2x plus rapide que pytorch »
Il faudrait expliquer précisément sur quels workloads pytorch est plus de deux fois plus lent que le matériel ne le permet
La plupart des articles utilisent des composants standards, et pytorch extrait déjà plus de 50 % des performances GPU
Si les performances n’apparaissent que dans des cas particuliers où il faut écrire des kernels personnalisés, c’est alors un autre problème
Je ne vois pas pourquoi ils ont abandonné la configuration à 6 GPU
Une config 4 GPU (9070, RTX6000) a un design double slot, donc on peut la monter même sur une carte mère standard
Une config 6 GPU exige des risers, des retimers PCIe, une double alimentation et un boîtier sur mesure, donc c’est plus complexe
Mais malgré ça, je pense qu’elle offrait un meilleur rapport qualité-prix

Tinybox – une machine d’IA hors ligne prenant en charge 120B de paramètres

Présentation de tinygrad

Gamme de produits tinybox

red v2

green v2 blackwell

exabox

FAQ

Présentation de tinybox

Ordinateur haute performance pour le deep learning**,** avec un excellent rapport performance/prix

Commande et livraison

Personnalisation et paiement

Pas de personnalisation afin de préserver les prix et la qualité

Usages de tinygrad

Fonctionnalités et performances

Développement et communauté

À lire aussi

1 commentaires

Avis Hacker News

Ordinateur haute performance pour le deep learning, avec un excellent rapport performance/prix