- Présentation de OpenAI o1, un nouveau grand modèle de langage entraîné par apprentissage par renforcement pour effectuer des raisonnements complexes
- o1 peut générer une longue chaîne de pensée interne (
chain of thought) avant de répondre à l’utilisateur
- o1 atteint le 89e percentile sur des problèmes de programmation compétitive (Codeforces), se situe au niveau de l’un des 500 meilleurs élèves américains aux sélections de l’Olympiade américaine de mathématiques (AIME), et dépasse la précision de doctorants humains sur le benchmark GPQA en physique, biologie et chimie
- Même si le travail pour le rendre aussi simple à utiliser que les modèles actuels est encore en cours, une première version de ce modèle, OpenAI o1-preview, est disponible immédiatement dans ChatGPT et pour les utilisateurs API de confiance
Évaluation
- o1 surpasse largement GPT-4o sur la plupart des tâches centrées sur le raisonnement
- Lors de l’examen AIME 2024, GPT-4o ne résolvait en moyenne que 12 % des problèmes (1,8/15), tandis que o1 atteignait en moyenne 74 % (11,1/15) avec un seul échantillon, 83 % (12,5/15) par consensus sur 64 échantillons, et 93 % (13,9/15) en réordonnant 1 000 échantillons à l’aide d’une fonction de notation apprise
- Sur GPQA Diamond, o1 dépasse les performances d’experts humains testés sur des connaissances spécialisées en chimie, physique et biologie, devenant ainsi le premier modèle à y parvenir sur ce benchmark
- Avec la capacité de perception visuelle activée, o1 obtient 78,2 % sur MMMU, devenant le premier modèle capable de rivaliser avec des experts humains
- Il surpasse GPT-4o dans 54 des 57 sous-catégories de MMLU
Chaîne de pensée (chain of thought)
- Comme un humain peut réfléchir longuement avant de répondre à une question difficile, o1 utilise une chaîne de pensée lorsqu’il tente de résoudre un problème
- Grâce à l’apprentissage par renforcement, o1 apprend à affiner sa chaîne de pensée et à améliorer ses stratégies d’utilisation
- Il apprend à reconnaître et corriger ses erreurs
- Il apprend à décomposer des étapes complexes en étapes plus simples
- Il apprend à essayer d’autres approches lorsque l’approche en cours ne fonctionne pas
Code
- En entraînant davantage ses compétences en programmation, un modèle a été obtenu avec 213 points à l’Olympiade internationale d’informatique (IOI) 2024, se classant au 49e percentile
- Ce modèle a participé à l’IOI 2024 dans les mêmes conditions que les participants humains
- Il disposait de 10 heures pour résoudre 6 problèmes algorithmiques difficiles, avec 50 soumissions autorisées par problème
- Lorsque 10 000 soumissions sont autorisées, les performances du modèle augmentent fortement
- Il atteint alors 362,14 points, dépassant le seuil de la médaille d’or, même sans stratégie de sélection au moment du test
- Les compétences en code de ce modèle ont aussi été démontrées en simulant des compétitions de programmation organisées sur Codeforces
- GPT-4o a obtenu un classement ELO de 808, ce qui correspond au 11e percentile des compétiteurs humains
- Ce modèle dépasse largement GPT-4o et o1, avec un classement ELO de 1807, meilleur que 93 % des compétiteurs
Sécurité
- Le raisonnement par chaîne de pensée ouvre de nouvelles opportunités pour l’alignement et la sécurité
- Il a été constaté qu’intégrer les politiques encadrant le comportement du modèle dans sa chaîne de pensée est un moyen efficace d’enseigner solidement des valeurs et principes humains
- Des éléments montrent qu’en apprenant au modèle à raisonner à partir de règles de sécurité et selon le contexte, ses capacités de raisonnement contribuent directement à sa robustesse
- Il est estimé que l’usage de la chaîne de pensée représente une avancée majeure pour la sécurité et l’alignement, car il permet d’observer si le modèle raisonne de manière légitime et parce que son raisonnement sur les règles de sécurité est plus robuste dans des scénarios hors distribution
- Des tests de sécurité et des exercices de red teaming ont été menés avant le déploiement afin de mettre en évidence les améliorations
- Le raisonnement par chaîne de pensée a montré qu’il contribuait à l’amélioration des capacités dans toutes les évaluations
Conclusion
- o1 fait progresser de manière significative l’état de l’art en raisonnement IA
- Des versions améliorées de ce modèle seront publiées de manière itérative
- Il est attendu que o1 et ses successeurs ouvrent de nombreux nouveaux cas d’usage de l’IA dans la science, le code, les mathématiques et les domaines associés
- Il est attendu que les utilisateurs et développeurs API découvrent comment o1 peut améliorer leur travail quotidien
L’avis de GN⁺
- OpenAI o1 est un modèle très performant en résolution de problèmes complexes et en raisonnement, avec des résultats qui dépassent le niveau humain. Il semble particulièrement utile pour la recherche et les applications en mathématiques, en sciences et en programmation grâce à ses capacités de niveau expert
- L’usage de la chaîne de pensée (
Chain of Thought) pour rendre le processus de raisonnement du modèle observable et compréhensible est particulièrement impressionnant. Cela devrait beaucoup aider à comprendre et contrôler le comportement du modèle. En revanche, le choix de ne pas exposer directement ce raisonnement généré aux utilisateurs reste sujet à débat
- L’intégration de règles de politique dans le processus de pensée pour renforcer la sécurité est également un point notable. Cela ne semble toutefois pas encore parfait, ce qui laisse penser qu’un suivi continu et des améliorations restent nécessaires
- o1 est un modèle très puissant, mais il n’est pas infaillible. Des limites générales des modèles d’IA, comme les biais ou les questions éthiques, subsistent encore. Des efforts continus seront nécessaires pour surmonter ces limites en parallèle des avancées techniques
1 commentaires
Avis Hacker News
Premier avis
Deuxième avis
Troisième avis
Quatrième avis
Cinquième avis
Sixième avis
Septième avis
Huitième avis
Neuvième avis
Dixième avis