Microsoft dévoile Phi-2, un modèle de langage petit mais puissant de 2,7B

xguru · 2023-12-15T09:21:19+09:00

SLM : Small Language Model Malgré un modèle de 2,7B, il affiche des performances équivalentes ou supérieures à celles de modèles jusqu’à 25 fois plus grands Surpasse Mistral 7B et Llama-7B/13B En raisonnement à étapes multiples, comme pour le code et les mathématiques, il dépasse même le modèle Llama-2-70B, 25 fois plus grand Plus petit que Google Gemini Nano 2, il offre pourtant des performances équivalentes ou meilleures Avec moins de puissance de calcul que des modèles comme GPT-4 ou Llama-2, il peut réaliser des tâches similaires comme la génération de texte ou la description d’images Grâce à sa petite taille, c’est un terrain de jeu idéal pour les chercheurs, notamment pour l’interprétabilité mécanique, l’amélioration de la sécurité ou les expériences de fine-tuning sur diverses tâches

(microsoft.com)

17 points par xguru 2023-12-15 | 2 commentaires | Partager sur WhatsApp

SLM : Small Language Model
Malgré un modèle de 2,7B, il affiche des performances équivalentes ou supérieures à celles de modèles jusqu’à 25 fois plus grands
- Surpasse Mistral 7B et Llama-7B/13B
- En raisonnement à étapes multiples, comme pour le code et les mathématiques, il dépasse même le modèle Llama-2-70B, 25 fois plus grand
- Plus petit que Google Gemini Nano 2, il offre pourtant des performances équivalentes ou meilleures
Avec moins de puissance de calcul que des modèles comme GPT-4 ou Llama-2, il peut réaliser des tâches similaires comme la génération de texte ou la description d’images
Grâce à sa petite taille, c’est un terrain de jeu idéal pour les chercheurs, notamment pour l’interprétabilité mécanique, l’amélioration de la sécurité ou les expériences de fine-tuning sur diverses tâches

2 commentaires

xguru 2023-12-15

Les weights sont ici : https://huggingface.co/microsoft/phi-2

xguru 2023-12-15

Avis sur Hacker News

Comparaison du nombre de paramètres entre GPT-3 et Phi-2
- GPT-3 possède 174 milliards de paramètres.
- Phi-2 possède 2,7 milliards de paramètres, soit environ 65 fois moins que GPT-3.
Comparaison du volume de données d’entraînement
- GPT-3 a été entraîné sur 300 milliards de tokens.
- Phi-2 a été entraîné sur 1 400 milliards de tokens, soit environ 5 fois plus de données que GPT-3.
Acquisition du langage chez l’humain et IA
- Un bébé humain a besoin d’environ 30 millions de données d’apprentissage « équivalentes à des tokens » pour apprendre le langage.
- Cela suggère que la structure biologique humaine est spécialisée dans l’acquisition du langage et dispose de puissants « guides » ou contraintes qui réduisent l’espace des hypothèses possibles pour le langage humain.
- On se demande s’il est possible de trouver une structure similaire permettant aux modèles de langage d’apprendre avec moins de données.
Publication des poids de Phi-2
- Les poids de Phi-2 ont été publiés, mais il faut se connecter à Azure Studio pour pouvoir les télécharger.
- Il est possible de les télécharger en trouvant la page Phi-2 dans Azure AI Studio puis en cliquant sur l’onglet « artifacts ».
Coût d’entraînement de Phi-2
- Phi-2 a été entraîné pendant 14 jours sur 96 GPU A100.
- Cela signifie que le coût d’entraînement est d’environ 30 000 USD.
- Si le coût d’entraînement des LLM (Large Language Models) devient inférieur au prix d’achat d’une voiture, cela pourrait grandement contribuer à la démocratisation de l’IA.
Restriction de Phi-2 à la recherche
- Malgré la restriction « usage réservé à la recherche », les performances de Phi-2 renforcent la possibilité d’un usage local sur divers appareils.
- Certains estiment que les performances annoncées rendent l’avenir prometteur et/ou inquiétant.
Concurrence sur les petits modèles
- Il existe récemment une forte concurrence dans le domaine des petits modèles.
- L’objectif principal de ces petits modèles est d’être déployés localement sur des téléphones ou des ordinateurs portables, afin de faire émerger une nouvelle génération d’applications et d’interfaces utilisateur.
Comparaison des performances entre Phi-2 et Mistral 7B
- Il est impressionnant qu’un Phi-2 de 2,7 milliards fasse mieux qu’un Mistral 7B de 7 milliards.
Problèmes d’accès au site web
- Il est impossible d’accéder au site web, mais on peut le consulter via une version en cache.
Mode de diffusion de Phi-2
- Phi-1.5 a été publié sur huggingface, mais Phi-2 n’a été ajouté qu’à Azure AI Studio, ce qui semble pousser les développeurs à s’inscrire.
- Certains s’interrogent sur les raisons pour lesquelles Microsoft ne participe pas au GitHub du ML qu’est huggingface.
Possibilité de télécharger le modèle Phi-2
- La question est posée de savoir si le modèle Phi-2 peut être téléchargé en local, ou s’il est uniquement utilisable sur Azure.

Microsoft dévoile Phi-2, un modèle de langage petit mais puissant de 2,7B

À lire aussi

2 commentaires

Avis sur Hacker News