gigaGPT - un modèle GPT-3 créé en 565 lignes de code

xguru · 2023-12-16T10:31:01+09:00

Améliore nanoGPT d’Andrei Karpathy, limité à 100M (100 millions) de paramètres, pour permettre l’entraînement jusqu’à 100B (100 milliards) Ne dépend d’aucun autre code ni framework tiers, et rend possible l’entraînement à grande échelle avec du code torch.nn vanilla en exploitant la grande capacité mémoire et la puissance de calcul du « matériel Cerebras » Prend en charge de longues longueurs de contexte sans modification particulière et fonctionne avec divers outils d’optimisation Cerebras est un fabricant de chipsets : sa vitesse de multiplication matricielle est comparable à celle des GPU, mais l’entreprise fabrique des puces bien plus grandes pour intégrer davantage de transistors et de mémoire sur une seule puce Grâce à cette taille, il n’est pas nécessaire d’effectuer des opérations comme le sharding puis la consolidation sur plusieurs appareils, ce qui permet de réduire le nombre de lignes de code

Améliore nanoGPT d’Andrei Karpathy, limité à 100M (100 millions) de paramètres, pour permettre l’entraînement jusqu’à 100B (100 milliards)
Ne dépend d’aucun autre code ni framework tiers, et rend possible l’entraînement à grande échelle avec du code torch.nn vanilla en exploitant la grande capacité mémoire et la puissance de calcul du « matériel Cerebras »
Prend en charge de longues longueurs de contexte sans modification particulière et fonctionne avec divers outils d’optimisation
Cerebras est un fabricant de chipsets : sa vitesse de multiplication matricielle est comparable à celle des GPU, mais l’entreprise fabrique des puces bien plus grandes pour intégrer davantage de transistors et de mémoire sur une seule puce
- Grâce à cette taille, il n’est pas nécessaire d’effectuer des opérations comme le sharding puis la consolidation sur plusieurs appareils, ce qui permet de réduire le nombre de lignes de code

gigaGPT - un modèle GPT-3 créé en 565 lignes de code

À lire aussi

Aucun commentaire pour le moment.