- Le plus grand modèle de langage ouvert à ce jour, avec 180 milliards de paramètres
- Classé n°1 du leaderboard parmi les modèles ouverts. Il dépasse Llama 2 70B et GPT-3.5, et rivalise avec PaLM-2
- Entraîné sur 3.5T de tokens à partir du jeu de données RefinedWeb de TII (principalement en anglais)
- 2,5 fois plus grand que Llama 2 et entraîné avec plus de 4 fois la puissance de calcul (4096 GPU via Amazon SageMaker)
- Falcon 180B peut être utilisé commercialement, mais uniquement dans des conditions très restrictives, à l’exception de l’« usage hébergé ». Vérification indispensable de la licence
- Exigences matérielles
- Fine-tuning complet : mémoire 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3 : 1280GB, 2x 8x A100 80GB
- QLoRA : 160GB, 2x A100 80GB
- Inférence BF16/FP16 : 640GB, 8x A100 80GB
- Inférence GPTQ/int4 : 320GB, 8x A100 40GB
1 commentaires
La taille est vraiment énorme. Sans parler des exigences matérielles...