17 points par xguru 2023-12-15 | 2 commentaires | Partager sur WhatsApp
  • SLM : Small Language Model
  • Malgré un modèle de 2,7B, il affiche des performances équivalentes ou supérieures à celles de modèles jusqu’à 25 fois plus grands
    • Surpasse Mistral 7B et Llama-7B/13B
    • En raisonnement à étapes multiples, comme pour le code et les mathématiques, il dépasse même le modèle Llama-2-70B, 25 fois plus grand
    • Plus petit que Google Gemini Nano 2, il offre pourtant des performances équivalentes ou meilleures
  • Avec moins de puissance de calcul que des modèles comme GPT-4 ou Llama-2, il peut réaliser des tâches similaires comme la génération de texte ou la description d’images
  • Grâce à sa petite taille, c’est un terrain de jeu idéal pour les chercheurs, notamment pour l’interprétabilité mécanique, l’amélioration de la sécurité ou les expériences de fine-tuning sur diverses tâches

2 commentaires

 
xguru 2023-12-15
 
xguru 2023-12-15
Avis sur Hacker News
  • Comparaison du nombre de paramètres entre GPT-3 et Phi-2
    • GPT-3 possède 174 milliards de paramètres.
    • Phi-2 possède 2,7 milliards de paramètres, soit environ 65 fois moins que GPT-3.
  • Comparaison du volume de données d’entraînement
    • GPT-3 a été entraîné sur 300 milliards de tokens.
    • Phi-2 a été entraîné sur 1 400 milliards de tokens, soit environ 5 fois plus de données que GPT-3.
  • Acquisition du langage chez l’humain et IA
    • Un bébé humain a besoin d’environ 30 millions de données d’apprentissage « équivalentes à des tokens » pour apprendre le langage.
    • Cela suggère que la structure biologique humaine est spécialisée dans l’acquisition du langage et dispose de puissants « guides » ou contraintes qui réduisent l’espace des hypothèses possibles pour le langage humain.
    • On se demande s’il est possible de trouver une structure similaire permettant aux modèles de langage d’apprendre avec moins de données.
  • Publication des poids de Phi-2
    • Les poids de Phi-2 ont été publiés, mais il faut se connecter à Azure Studio pour pouvoir les télécharger.
    • Il est possible de les télécharger en trouvant la page Phi-2 dans Azure AI Studio puis en cliquant sur l’onglet « artifacts ».
  • Coût d’entraînement de Phi-2
    • Phi-2 a été entraîné pendant 14 jours sur 96 GPU A100.
    • Cela signifie que le coût d’entraînement est d’environ 30 000 USD.
    • Si le coût d’entraînement des LLM (Large Language Models) devient inférieur au prix d’achat d’une voiture, cela pourrait grandement contribuer à la démocratisation de l’IA.
  • Restriction de Phi-2 à la recherche
    • Malgré la restriction « usage réservé à la recherche », les performances de Phi-2 renforcent la possibilité d’un usage local sur divers appareils.
    • Certains estiment que les performances annoncées rendent l’avenir prometteur et/ou inquiétant.
  • Concurrence sur les petits modèles
    • Il existe récemment une forte concurrence dans le domaine des petits modèles.
    • L’objectif principal de ces petits modèles est d’être déployés localement sur des téléphones ou des ordinateurs portables, afin de faire émerger une nouvelle génération d’applications et d’interfaces utilisateur.
  • Comparaison des performances entre Phi-2 et Mistral 7B
    • Il est impressionnant qu’un Phi-2 de 2,7 milliards fasse mieux qu’un Mistral 7B de 7 milliards.
  • Problèmes d’accès au site web
    • Il est impossible d’accéder au site web, mais on peut le consulter via une version en cache.
  • Mode de diffusion de Phi-2
    • Phi-1.5 a été publié sur huggingface, mais Phi-2 n’a été ajouté qu’à Azure AI Studio, ce qui semble pousser les développeurs à s’inscrire.
    • Certains s’interrogent sur les raisons pour lesquelles Microsoft ne participe pas au GitHub du ML qu’est huggingface.
  • Possibilité de télécharger le modèle Phi-2
    • La question est posée de savoir si le modèle Phi-2 peut être téléchargé en local, ou s’il est uniquement utilisable sur Azure.