12 points par xguru 2023-12-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Améliore nanoGPT d’Andrei Karpathy, limité à 100M (100 millions) de paramètres, pour permettre l’entraînement jusqu’à 100B (100 milliards)
  • Ne dépend d’aucun autre code ni framework tiers, et rend possible l’entraînement à grande échelle avec du code torch.nn vanilla en exploitant la grande capacité mémoire et la puissance de calcul du « matériel Cerebras »
  • Prend en charge de longues longueurs de contexte sans modification particulière et fonctionne avec divers outils d’optimisation
  • Cerebras est un fabricant de chipsets : sa vitesse de multiplication matricielle est comparable à celle des GPU, mais l’entreprise fabrique des puces bien plus grandes pour intégrer davantage de transistors et de mémoire sur une seule puce
    • Grâce à cette taille, il n’est pas nécessaire d’effectuer des opérations comme le sharding puis la consolidation sur plusieurs appareils, ce qui permet de réduire le nombre de lignes de code

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.