Présentation du modèle de langage phi-3-mini
- phi-3-mini est un modèle de langage de 3,8B paramètres, entraîné sur 3,3 billions de tokens
- Selon les benchmarks académiques et les tests internes, il affiche des performances comparables à celles de modèles comme Mixtral 8x7B et GPT-3.5 (MMLU 69 %, MT-bench 8,38)
- Malgré une taille suffisamment réduite pour être déployé sur un téléphone mobile, il offre d’excellentes performances
- Il repose sur une version étendue du jeu de données utilisé pour phi-2, composée de données web filtrées et de données synthétiques
- Il a en outre été aligné pour la robustesse, la sécurité et le format conversationnel
Présentation des modèles phi-3-small et phi-3-medium
- Les premiers résultats de mise à l’échelle des paramètres sont également fournis pour phi-3-small et phi-3-medium, des modèles 7B et 14B entraînés sur 4,8 billions de tokens
- Ils affichent des performances nettement supérieures à celles de phi-3-mini (MMLU 75 %, 78 %, MT-bench 8,7 et 8,9)
L’avis de GN⁺
- Il est impressionnant de voir qu’un modèle de langage suffisamment compact pour fonctionner sur un téléphone mobile puisse atteindre de hautes performances. Cela laisse penser que le potentiel d’usage de l’IA sur les appareils mobiles va encore croître à l’avenir
- Cependant, des inquiétudes peuvent subsister concernant la protection des données personnelles et la vie privée. Même si le traitement est effectué localement sur l’appareil, les données des utilisateurs devront être gérées en toute sécurité
- La méthode d’entraînement exploitant des données web et des données synthétiques est intéressante. La collecte et le nettoyage des données ont sans doute demandé beaucoup d’efforts. C’est un bon exemple montrant que des données de haute qualité mènent à de bonnes performances
- Les résultats comparant les performances selon la taille des modèles sont également intéressants. Le choix d’un modèle de taille appropriée semble important du point de vue de l’efficacité
- Des modèles de langage open source allégés comme StableLM de Stability AI ou Claude d’Anthropic font leur apparition. On peut s’attendre à voir émerger divers cas d’usage
2 commentaires
Microsoft dévoile Phi-2, un modèle de langage petit mais puissant avec 2,7B
Avis Hacker News
Les résultats de benchmark du modèle Phi-3 doivent être interprétés avec prudence. Il existe un précédent où les performances réelles du modèle Phi-2 étaient inférieures aux chiffres des benchmarks. Cela ne se traduit pas forcément directement en usage réel ni en classement sur le leaderboard LMSYS.
Malgré cela, Phi-3 affiche de bonnes performances pour une petite taille de modèle. Cela suggère que la méthode de distillation via des « données synthétiques » pour transférer les performances de GPT-4 vers un petit modèle peut être efficace. On peut entrevoir le potentiel d’une approche de type Chinchilla, où un très grand modèle est d’abord entraîné de manière optimale puis distillé en un plus petit.
Sur le leaderboard anglais de LMSYS, les modèles Phi-3 montrent des performances comparables à celles de Llama 3, GPT-3.5 et autres. En particulier, Phi-3-mini 3.8B rivalise avec Llama 3 8B avec seulement 3,8 milliards de paramètres. Cela laisse entrevoir l’arrivée possible d’un LLM open source de niveau GPT-4 capable de tourner sur un téléphone.
Toutefois, ce type de benchmark a ses limites, car il est facile pour les modèles de les « gamer ». Il faut prêter attention aux performances globales plutôt qu’aux tâches individuelles. Un examen minutieux sous plusieurs angles semble nécessaire.
Certains modèles Phi-3 ont été publiés sur HuggingFace. Leur exploitation devrait ainsi devenir plus simple.
L’entraînement sur un vaste volume de 3,3 billions de tokens de données synthétiques a contribué à alléger le modèle. Cela pourrait aussi aider à atténuer les problèmes de droits d’auteur.
Cependant, en usage réel, en dehors des domaines couverts par les données d’entraînement, le modèle produit souvent beaucoup d’absurdités. Il pourrait être efficace pour un finetuning sur des tâches étroites, mais il semble difficile qu’il remplace GPT-3.5 dans une conversation générale.
Les poids du modèle ont été publiés sur HuggingFace en versions de contexte 4k et 128k. L’intérêt se porte sur les possibilités de finetuning et d’usage avec le RAG (Retrieval-Augmented Generation).