3 points par GN⁺ 2024-09-13 | 1 commentaires | Partager sur WhatsApp
  • Présentation de OpenAI o1, un nouveau grand modèle de langage entraîné par apprentissage par renforcement pour effectuer des raisonnements complexes
  • o1 peut générer une longue chaîne de pensée interne (chain of thought) avant de répondre à l’utilisateur
  • o1 atteint le 89e percentile sur des problèmes de programmation compétitive (Codeforces), se situe au niveau de l’un des 500 meilleurs élèves américains aux sélections de l’Olympiade américaine de mathématiques (AIME), et dépasse la précision de doctorants humains sur le benchmark GPQA en physique, biologie et chimie
  • Même si le travail pour le rendre aussi simple à utiliser que les modèles actuels est encore en cours, une première version de ce modèle, OpenAI o1-preview, est disponible immédiatement dans ChatGPT et pour les utilisateurs API de confiance

Évaluation

  • o1 surpasse largement GPT-4o sur la plupart des tâches centrées sur le raisonnement
    • Lors de l’examen AIME 2024, GPT-4o ne résolvait en moyenne que 12 % des problèmes (1,8/15), tandis que o1 atteignait en moyenne 74 % (11,1/15) avec un seul échantillon, 83 % (12,5/15) par consensus sur 64 échantillons, et 93 % (13,9/15) en réordonnant 1 000 échantillons à l’aide d’une fonction de notation apprise
    • Sur GPQA Diamond, o1 dépasse les performances d’experts humains testés sur des connaissances spécialisées en chimie, physique et biologie, devenant ainsi le premier modèle à y parvenir sur ce benchmark
    • Avec la capacité de perception visuelle activée, o1 obtient 78,2 % sur MMMU, devenant le premier modèle capable de rivaliser avec des experts humains
    • Il surpasse GPT-4o dans 54 des 57 sous-catégories de MMLU

Chaîne de pensée (chain of thought)

  • Comme un humain peut réfléchir longuement avant de répondre à une question difficile, o1 utilise une chaîne de pensée lorsqu’il tente de résoudre un problème
  • Grâce à l’apprentissage par renforcement, o1 apprend à affiner sa chaîne de pensée et à améliorer ses stratégies d’utilisation
    • Il apprend à reconnaître et corriger ses erreurs
    • Il apprend à décomposer des étapes complexes en étapes plus simples
    • Il apprend à essayer d’autres approches lorsque l’approche en cours ne fonctionne pas

Code

  • En entraînant davantage ses compétences en programmation, un modèle a été obtenu avec 213 points à l’Olympiade internationale d’informatique (IOI) 2024, se classant au 49e percentile
    • Ce modèle a participé à l’IOI 2024 dans les mêmes conditions que les participants humains
    • Il disposait de 10 heures pour résoudre 6 problèmes algorithmiques difficiles, avec 50 soumissions autorisées par problème
  • Lorsque 10 000 soumissions sont autorisées, les performances du modèle augmentent fortement
    • Il atteint alors 362,14 points, dépassant le seuil de la médaille d’or, même sans stratégie de sélection au moment du test
  • Les compétences en code de ce modèle ont aussi été démontrées en simulant des compétitions de programmation organisées sur Codeforces
    • GPT-4o a obtenu un classement ELO de 808, ce qui correspond au 11e percentile des compétiteurs humains
    • Ce modèle dépasse largement GPT-4o et o1, avec un classement ELO de 1807, meilleur que 93 % des compétiteurs

Sécurité

  • Le raisonnement par chaîne de pensée ouvre de nouvelles opportunités pour l’alignement et la sécurité
    • Il a été constaté qu’intégrer les politiques encadrant le comportement du modèle dans sa chaîne de pensée est un moyen efficace d’enseigner solidement des valeurs et principes humains
    • Des éléments montrent qu’en apprenant au modèle à raisonner à partir de règles de sécurité et selon le contexte, ses capacités de raisonnement contribuent directement à sa robustesse
  • Il est estimé que l’usage de la chaîne de pensée représente une avancée majeure pour la sécurité et l’alignement, car il permet d’observer si le modèle raisonne de manière légitime et parce que son raisonnement sur les règles de sécurité est plus robuste dans des scénarios hors distribution
  • Des tests de sécurité et des exercices de red teaming ont été menés avant le déploiement afin de mettre en évidence les améliorations
    • Le raisonnement par chaîne de pensée a montré qu’il contribuait à l’amélioration des capacités dans toutes les évaluations

Conclusion

  • o1 fait progresser de manière significative l’état de l’art en raisonnement IA
  • Des versions améliorées de ce modèle seront publiées de manière itérative
  • Il est attendu que o1 et ses successeurs ouvrent de nombreux nouveaux cas d’usage de l’IA dans la science, le code, les mathématiques et les domaines associés
  • Il est attendu que les utilisateurs et développeurs API découvrent comment o1 peut améliorer leur travail quotidien

L’avis de GN⁺

  • OpenAI o1 est un modèle très performant en résolution de problèmes complexes et en raisonnement, avec des résultats qui dépassent le niveau humain. Il semble particulièrement utile pour la recherche et les applications en mathématiques, en sciences et en programmation grâce à ses capacités de niveau expert
  • L’usage de la chaîne de pensée (Chain of Thought) pour rendre le processus de raisonnement du modèle observable et compréhensible est particulièrement impressionnant. Cela devrait beaucoup aider à comprendre et contrôler le comportement du modèle. En revanche, le choix de ne pas exposer directement ce raisonnement généré aux utilisateurs reste sujet à débat
  • L’intégration de règles de politique dans le processus de pensée pour renforcer la sécurité est également un point notable. Cela ne semble toutefois pas encore parfait, ce qui laisse penser qu’un suivi continu et des améliorations restent nécessaires
  • o1 est un modèle très puissant, mais il n’est pas infaillible. Des limites générales des modèles d’IA, comme les biais ou les questions éthiques, subsistent encore. Des efforts continus seront nécessaires pour surmonter ces limites en parallèle des avancées techniques

1 commentaires

 
GN⁺ 2024-09-13
Avis Hacker News
  • Premier avis

    • Résumé des informations pratiques tirées de la documentation
      • Il faut être au niveau 5, avoir payé un total de 1000 $ et que 30 jours se soient écoulés depuis le premier paiement réussi pour y accéder
      • Le prix est de 15 $ par million de tokens en entrée et de 60 $ par million de tokens en sortie
      • La fenêtre de contexte est de 128k tokens, avec une sortie maximale de 320768 tokens
      • Il existe aussi une version mini avec un maximum de tokens en sortie doublé, au prix de 3 $ par million de tokens en entrée et de 12 $ par million de tokens en sortie
      • La version spécialisée en code mentionnée dans le billet de blog n’est pas disponible
      • On ne sait pas clairement si le chain of thought reasoning caché est facturé comme des tokens de sortie payants
  • Deuxième avis

    • Scepticisme face à l’absence de libellés précis sur les deux premiers graphiques de précision
      • Impossible de savoir combien de temps a pris le résultat de test à 80 % de précision
      • On ne voit pas clairement si le graphique du début de l’article est lié à la résolution de problème en 10 heures dans la section sur le code
      • Il y a beaucoup de données, mais l’opacité des deux premiers graphiques empêche de leur faire confiance
  • Troisième avis

    • L’exemple de « sécurité » est absurde
      • OpenAI affirme qu’il est inacceptable qu’un LLM fournisse des instructions détaillées pour synthétiser de la strychnine, tout en publiant des instructions « non sûres » générées précédemment
      • Une obsession excessive de la sécurité concernant le partage de connaissances par les LLM
  • Quatrième avis

    • Les performances du modèle reposent sur le chain of thought, mais celui-ci n’est pas montré aux utilisateurs pour des raisons comme l’avantage concurrentiel
      • Depuis la sortie de GPT-4, il est devenu courant d’affiner des modèles non-OpenAI à partir des sorties de GPT-4
      • OpenAI ne fournit pas les réponses en chain of thought afin de rendre la reproduction des résultats plus difficile
  • Cinquième avis

    • Utilisation d’un modèle GPT-4 pour aider à rétroconcevoir le protocole Bluetooth binaire d’un ventilateur de cuisine
      • Les modèles o1-preview et o1-mini comprennent les motifs et les décodent
      • Le modèle GPT4o donne les mêmes résultats qu’auparavant
      • Des progrès impressionnants
  • Sixième avis

    • Beaucoup de commentaires ne comprennent pas la différence entre le chain-of-thought prompting et l’apprentissage de stratégies de chain of thought via l’apprentissage par renforcement
      • Grâce à l’apprentissage par renforcement, o1 affine son chain of thought et améliore ses stratégies
  • Septième avis

    • Il est intéressant de lire le Chain of Thought de l’exemple Cipher
      • Écrire lentement la logique puis raisonner dessus améliore la réflexion logique
  • Huitième avis

    • o1 fonctionne bien pour comprendre un problème de sous-titres dans une émission de télévision néerlandaise
      • Lorsqu’on lui demande pourquoi un tréma sur le u dans les sous-titres s’affiche comme 1/4, il explique correctement le problème d’encodage
  • Neuvième avis

    • Résultats décevants pour le déchiffrement d’un texte chiffré ROT
      • De nombreuses étapes sont erronées ou ne sont pas suivies
      • Difficile d’identifier un schéma d’utilité dans le moteur de chain of thought
  • Dixième avis

    • Les avancées techniques sont importantes, mais le fait que les LLM restent vulnérables aux hallucinations inquiète quant à l’utilité de l’outil
      • Les utilisateurs non experts risquent de s’appuyer sur des réponses erronées
      • Par exemple, il fournit des informations incorrectes lors de l’évaluation d’un algorithme d’optimisation de l’ordre des jointures de base de données