- OpenAI a publié ses premiers grands modèles de langage
gpt-oss-120b et gpt-oss-20b, qui obtiennent d’excellents résultats sur certains benchmarks mais présentent des limites en utilisation réelle
- Ces modèles possèdent des connaissances générales, mais sont jugés insuffisants dans certains domaines spécifiques comme la culture populaire
- Comme la série Phi de Microsoft, l’entraînement centré sur des données synthétiques permet d’améliorer les performances benchmark, mais réduit souvent l’utilité opérationnelle
- L’apprentissage sur données synthétiques a l’avantage d’améliorer la sécurité et de réduire les risques de mauvais usage liés à une publication open source
- OpenAI semble avoir choisi une approche de type Phi pour conserver une avance benchmark face aux modèles open source chinois tout en préservant la sécurité
Première publication d’un LLM open source par OpenAI
- OpenAI a annoncé
gpt-oss-120b et gpt-oss-20b comme ses premiers grands modèles de langage open source, et ils peuvent être utilisés pour discuter directement via le web
- Ils affichent d’excellentes performances sur certains benchmarks, mais reculent sur certains tests spécifiques comme SimpleQA
- Ils sont réputés être riches en connaissances générales, notamment scientifiques, mais manquer de connaissances en culture populaire
- Leur utilité réelle ne devrait devenir claire que dans environ six mois, avec une forte probabilité que les performances en conditions réelles restent inférieures aux benchmarks
Modèles Phi et apprentissage par données synthétiques
- En 2024, la série Phi initiée par Sebastien Bubeck chez Microsoft est constituée de modèles entièrement entraînés sur des données synthétiques
- Les données synthétiques sont des textes pédagogiques générés par d’autres modèles de langage ou sélectionnés par des humains, plus faciles à contrôler et à garantir en qualité, mais coûteux à produire
- Cette méthode augmente les scores de benchmark, mais tend à produire des résultats inférieurs aux attentes en environnement réel
- Les données synthétiques peuvent être générées facilement pour correspondre aux types de questions de benchmarks, ce qui facilite un entraînement orienté examen, mais réduit la généralisation
L’arrivée de Sebastien Bubeck chez OpenAI et gpt-oss
- À la fin de 2024, Bubeck a quitté Microsoft pour rejoindre OpenAI
- Les détails des données de pré-entraînement de
gpt-oss n’ont pas été rendus publics, mais il est probable qu’elles soient fortement filtrées ou synthétiques
- Cette approche peut conférer des caractéristiques proches de Phi-5 et Phi-5-mini
Avantages de la sécurité avec les données synthétiques
- Les modèles open source peuvent être fine-tunés sans limites après publication, ce qui peut poser des problèmes de sécurité
- En particulier, l’un des principaux usages non officiels des petits modèles de langage est le roleplay adulte, ce qui rend la sécurité cruciale
- En entraînant avec des données synthétiques ou issues de manuels, il est possible de ne pas inclure de contenus sensibles, augmentant ainsi la sécurité
- OpenAI semble avoir choisi une stratégie lui permettant de conserver un avantage benchmark par rapport aux modèles open source chinois tout en maintenant la sécurité
Conclusion : de fait une lignée Phi-5
- Les modèles
gpt-oss semblent conçus autour d’un design priorisant la sécurité via des données synthétiques, avec une priorité donnée aux scores de benchmark et à la sécurité plutôt qu’aux performances opérationnelles
- Ces modèles ont donc en pratique une nature comparable à celle de Phi-5 et Phi-5-mini
Aucun commentaire pour le moment.