- SLM : Small Language Model
- Malgré un modèle de 2,7B, il affiche des performances équivalentes ou supérieures à celles de modèles jusqu’à 25 fois plus grands
- Surpasse Mistral 7B et Llama-7B/13B
- En raisonnement à étapes multiples, comme pour le code et les mathématiques, il dépasse même le modèle Llama-2-70B, 25 fois plus grand
- Plus petit que Google Gemini Nano 2, il offre pourtant des performances équivalentes ou meilleures
- Avec moins de puissance de calcul que des modèles comme GPT-4 ou Llama-2, il peut réaliser des tâches similaires comme la génération de texte ou la description d’images
- Grâce à sa petite taille, c’est un terrain de jeu idéal pour les chercheurs, notamment pour l’interprétabilité mécanique, l’amélioration de la sécurité ou les expériences de fine-tuning sur diverses tâches
2 commentaires
Les weights sont ici : https://huggingface.co/microsoft/phi-2
Avis sur Hacker News