8 points par xguru 2024-09-13 | 4 commentaires | Partager sur WhatsApp
  • Un nouveau modèle de raisonnement conçu pour résoudre des problèmes complexes
  • Le modèle a été entraîné à réfléchir plus longtemps au problème avant de répondre
  • Grâce à l’entraînement, il améliore son processus de réflexion, essaie diverses stratégies et apprend à reconnaître ses erreurs
  • Il affiche des performances comparables à celles d’étudiants en doctorat sur des benchmarks exigeants en physique, chimie et biologie
  • Il obtient également d’excellents résultats en mathématiques et en code
    • Lors du test de présélection de l’Olympiade internationale de mathématiques (IMO), GPT-4o n’a répondu correctement qu’à 13 % des questions, contre 83 % pour le modèle de raisonnement
    • Sur les compétitions Codeforces, ses capacités de programmation ont atteint le 89e percentile

Sécurité

  • Une nouvelle approche d’entraînement à la sécurité a été conçue pour que le modèle respecte les consignes de sécurité et d’alignement
  • Dans l’un des tests de jailbreak les plus difficiles, GPT-4o a obtenu 22 points sur 100, tandis que le modèle o1-preview a obtenu 84 points
  • Renforcement du travail sur la sécurité, de la gouvernance interne et de la coopération avec le gouvernement fédéral
    • Tests et évaluations rigoureux à l’aide du Preparedness Framework
    • Opérations de red team du plus haut niveau
    • Processus d’examen au niveau du conseil d’administration, incluant le Safety & Security Committee
  • Des accords ont été conclus avec les instituts de sécurité de l’IA des États-Unis et du Royaume-Uni, et les opérations ont commencé

À qui s’adresse ce modèle

  • Il peut être particulièrement utile pour traiter des problèmes complexes dans des domaines comme la science, le code et les mathématiques
  • Par exemple
    • des chercheurs en santé peuvent annoter des données de séquençage cellulaire,
    • des physiciens peuvent générer des formules mathématiques complexes nécessaires à l’optique quantique,
    • des développeurs peuvent l’utiliser pour construire et exécuter des workflows à plusieurs étapes

OpenAI o1-mini

  • La série o1 excelle dans la génération et le débogage précis de code complexe
  • OpenAI lance également un modèle de raisonnement plus rapide et moins coûteux, appelé o1-mini, afin d’offrir aux développeurs une solution plus efficace
  • o1-mini est 80 % moins cher que o1-preview
    • Un modèle puissant et rentable pour les applications qui ont besoin de raisonnement, mais pas d’une vaste connaissance du monde

Comment utiliser OpenAI o1

  • Les utilisateurs de ChatGPT Plus et Team peuvent accéder au modèle o1 dans ChatGPT à partir d’aujourd’hui
  • o1-preview et o1-mini peuvent tous deux être sélectionnés manuellement
  • Au lancement, o1-preview est limité à 30 messages par semaine et o1-mini à 50 messages par semaine
  • Les utilisateurs de ChatGPT Enterprise et Edu auront accès aux deux modèles à partir de la semaine prochaine
  • Les développeurs relevant du niveau d’utilisation API 5 peuvent commencer à prototyper avec les deux modèles via l’API dès aujourd’hui, avec une limite de débit de 20 RPM
  • L’API de ces modèles n’inclut pas encore des fonctionnalités telles que les function calls, le streaming ou la prise en charge des messages système
  • Il est prévu de donner accès à o1-mini à tous les utilisateurs de ChatGPT Free

Projets à venir

  • Il s’agit d’une première preview de modèles de raisonnement pour ChatGPT et l’API
  • En plus des mises à jour du modèle, il est prévu d’ajouter des fonctionnalités comme la navigation, l’envoi de fichiers et d’images, afin de les rendre plus utiles pour tous
  • Le développement et le lancement de modèles de la série GPT se poursuivront en parallèle de la nouvelle série OpenAI o1

4 commentaires

 
dbs0829 2024-09-13

Je me demande quelle sera la synergie avec GitHub Copilot.

 
wedding 2024-09-13

Est-ce que c’est donc cette fameuse Strawberry dont on entendait parler ?

 
brainer 2024-09-13

Oui. Altman a réconforté la personne qui avait lancé cette rumeur.

 
xguru 2024-09-13

C’est probablement ça. J’ai l’impression qu’ils ont simplement choisi le nouveau numéro de version 1 pour se concentrer sur le raisonnement.