- tinygrad est un framework de réseaux de neurones qui allie simplicité et performance, et permet d’implémenter des modèles complexes avec une structure d’opérations minimale
- Basé sur celui-ci, tinybox est un ordinateur d’IA hors ligne haute performance destiné à l’entraînement et à l’inférence en deep learning, proposé en trois modèles : red, green et exa
- Le modèle supérieur green v2 blackwell offre 3086 TFLOPS de performance avec 4 GPU RTX PRO 6000, et est disponible pour $65,000 en livraison immédiate
- Le très haut de gamme exabox vise environ 1 EXAFLOP de performance pour une sortie prévue en 2027, à un prix d’environ 10 millions de dollars
- Son fabricant, tiny corp, vise la commercialisation du petaflop et une IA accessible à tous
Présentation de tinygrad
- tinygrad est un framework de réseaux de neurones axé sur la simplicité et la performance, et c’est un projet en forte croissance
- Il construit des réseaux complexes avec seulement trois OpType : ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps effectue des opérations élément par élément sur 1 à 3 tenseurs, dont SQRT, LOG2, ADD, MUL, WHERE
- ReduceOps prend un tenseur en entrée et renvoie un tenseur plus petit, avec notamment SUM et MAX
- MovementOps est une opération virtuelle qui déplace les données sans copie, en utilisant ShapeTracker pour exécuter RESHAPE, PERMUTE, EXPAND, etc.
- L’implémentation des opérations CONV ou MATMUL peut être consultée directement dans le code
Gamme de produits tinybox
- tinybox est un ordinateur haute performance pour le deep learning, décliné en trois modèles : red, green et exa
- Les principales spécifications de chaque modèle sont les suivantes
-
red v2
- GPU : 4x 9070XT
- Performance FP16(FP32 acc) : 778 TFLOPS
- RAM GPU : 64GB, bande passante 2560 GB/s
- CPU : AMD EPYC 32 cœurs
- RAM système : 128GB, bande passante 204.8 GB/s
- Disque : 2TB NVMe, vitesse de lecture 7.3 GB/s
- Réseau : 2x 1GbE + OCP3.0
- Alimentation : 1600W
- Bruit : moins de 50dB
- Prix : $12,000, disponible en livraison immédiate
-
green v2 blackwell
- GPU : 4x RTX PRO 6000 Blackwell
- Performance FP16(FP32 acc) : 3086 TFLOPS
- RAM GPU : 384GB, bande passante 7168 GB/s
- CPU : AMD GENOA 32 cœurs
- RAM système : 192GB, bande passante 460.8 GB/s
- Disque : 4TB RAID + 1TB pour le démarrage, vitesse de lecture 59.3 GB/s
- Réseau : 2x 10GbE + OCP3.0
- Alimentation : 2x 1600W
- Bruit : 65dB (à 10m de distance)
- Prix : $65,000, disponible en livraison immédiate
-
exabox
- GPU : 720x RDNA5 AT0 XL
- Performance FP16(FP32 acc) : environ 1 EXAFLOP
- RAM GPU : 25,920GB, bande passante 1244 TB/s
- CPU : 120x AMD GENOA 32 cœurs
- RAM système : 23,040GB, bande passante 55.2 TB/s
- Disque : 480TB RAID, vitesse de lecture 7.1 TB/s
- Réseau : prise en charge de l’extension PCIe5 3.2 TB/s
- Alimentation : 600kW
- Dimensions : 20x8x8.5 ft, poids 20,000 lbs
- Sortie prévue : 2027, prix estimé à environ $10M
- Tous les modèles utilisent le système d’exploitation Ubuntu 24.04 et peuvent être installés en version autonome ou en rack
- Les mises à jour produits et stocks sont fournies via une mailing list
FAQ
-
Présentation de tinybox
-
Ordinateur haute performance pour le deep learning**,** avec un excellent rapport performance/prix
- Testé dans le benchmark MLPerf Training 4.0 face à des systèmes 10 fois plus chers
- Il peut faire non seulement de l’entraînement, mais aussi de l’inférence (inference)
-
Commande et livraison
- Commande possible sur le site web, avec expédition sous une semaine après paiement
- Prise en charge du retrait sur site à San Diego ou de la livraison dans le monde entier
-
Personnalisation et paiement
-
Pas de personnalisation afin de préserver les prix et la qualité
- Le paiement se fait uniquement par virement bancaire (wire transfer)
- Le formulaire W-9 est disponible via le lien de téléchargement
-
Usages de tinygrad
- Utilisé dans openpilot pour exécuter un modèle de conduite basé sur le GPU Snapdragon 845
- Remplace Qualcomm SNPE et offre de meilleures performances, le chargement ONNX, la prise en charge de l’entraînement et des fonctions d’attention
-
Fonctionnalités et performances
- Ce n’est pas réservé à l’inférence, et il prend en charge les passes forward/backward basées sur autodiff
- Il propose une API similaire à PyTorch, mais avec une structure plus simple
- C’est une version alpha dont la stabilité reste limitée, même si elle s’est récemment montrée relativement stable
- La sortie de l’alpha est prévue lorsqu’il deviendra possible de reproduire des articles 2 fois plus vite qu’avec PyTorch
- Facteurs d’amélioration des performances
- Compilation de kernels sur mesure pour chaque opération afin d’optimiser selon la forme
- Fusion agressive des opérations grâce à une structure de lazy tensor
- Backend concis permettant qu’une optimisation de kernel améliore les performances globales
-
Développement et communauté
- Le développement se poursuit sur GitHub et Discord
- Les contributions (PR) à tinygrad sont considérées comme une voie majeure vers le recrutement et la participation à l’investissement
- L’objectif de tiny corp est la commercialisation du petaflop et la concrétisation d’une IA pour tous
Aucun commentaire pour le moment.