7 points par xguru 2023-09-07 | 1 commentaires | Partager sur WhatsApp
  • Le plus grand modèle de langage ouvert à ce jour, avec 180 milliards de paramètres
  • Classé n°1 du leaderboard parmi les modèles ouverts. Il dépasse Llama 2 70B et GPT-3.5, et rivalise avec PaLM-2
  • Entraîné sur 3.5T de tokens à partir du jeu de données RefinedWeb de TII (principalement en anglais)
    • 2,5 fois plus grand que Llama 2 et entraîné avec plus de 4 fois la puissance de calcul (4096 GPU via Amazon SageMaker)
  • Falcon 180B peut être utilisé commercialement, mais uniquement dans des conditions très restrictives, à l’exception de l’« usage hébergé ». Vérification indispensable de la licence
  • Exigences matérielles
    • Fine-tuning complet : mémoire 5120GB, 8x 8x A100 80GB
    • LoRA with ZeRO-3 : 1280GB, 2x 8x A100 80GB
    • QLoRA : 160GB, 2x A100 80GB
    • Inférence BF16/FP16 : 640GB, 8x A100 80GB
    • Inférence GPTQ/int4 : 320GB, 8x A100 40GB

1 commentaires

 
kuroneko 2023-09-07

La taille est vraiment énorme. Sans parler des exigences matérielles...