Notes sur o1 d’OpenAI, un modèle chain-of-thought
(simonwillison.net)- OpenAI a lancé ses nouveaux modèles en preview, o1-preview et o1-mini (la version mini n’est pas en preview), anciennement connus sous le nom de code « strawberry »
Entraîné selon une approche Chain-of-Thought
- OpenAI explique que ces modèles sont conçus pour « réfléchir » plus longtemps avant de répondre
- Ces nouveaux modèles peuvent être vus comme une extension spécialisée du pattern de prompting « penser étape par étape »
- Dans son article « Learning to Reason with LLMs », OpenAI explique que les nouveaux modèles apprennent, via l’apprentissage par renforcement, à améliorer leur chaîne de pensée et à affiner leurs stratégies
- Cela signifie que le modèle peut mieux traiter des prompts complexes nécessitant du backtracking et davantage de « réflexion » qu’une simple prédiction du token suivant
Détails de bas niveau dans la documentation API
- Pour les entrées image, l’appel de fonctions et les applications qui exigent des temps de réponse systématiquement rapides, les modèles GPT-4o et GPT-4o mini restent des choix adaptés
- Si vous développez des applications qui demandent un raisonnement approfondi et peuvent accepter des temps de réponse plus longs, les modèles o1 peuvent être un excellent choix
- L’accès API aux nouveaux modèles
o1-previeweto1-miniest actuellement limité aux comptes de niveau 5 - Pas de prise en charge du prompt système : le modèle utilise l’API de chat completions existante, mais vous ne pouvez envoyer que des messages
useretassistant - Pas non plus de prise en charge du streaming, de l’usage d’outils, des appels par lots ni des entrées image
- Le traitement d’une requête peut prendre de quelques secondes à plusieurs minutes selon la quantité de raisonnement nécessaire à la résolution du problème
Tokens de raisonnement cachés
- Des « tokens de raisonnement », invisibles dans les réponses API mais tout de même facturés et comptés comme tokens de sortie, sont introduits
- Pour des prompts utiles avec ces nouveaux modèles, OpenAI suggère d’allouer un budget d’environ 25 000 de ces tokens
- La limite de tokens de sortie augmente fortement, à 32 768 pour
o1-previewet 65 536 pouro1-mini - Dernier conseil de la documentation API : lors de l’apport de contexte supplémentaire en retrieval-augmented generation (RAG), n’inclure que les informations les plus pertinentes afin d’éviter que le modèle ne rende sa réponse inutilement trop complexe
Tokens de raisonnement cachés
- Les tokens de raisonnement ne sont pas visibles dans l’API : ils sont facturés, mais on ne peut pas voir ce qu’ils contiennent réellement
- OpenAI avance deux raisons principales à cela :
- Sécurité et conformité aux politiques : éviter les cas où des informations figurant dans les étapes intermédiaires pourraient enfreindre les règles
- Avantage concurrentiel : empêcher d’autres modèles d’apprendre à partir du travail de raisonnement dans lequel OpenAI a investi
- Cette décision suscite du mécontentement : l’interprétabilité et la transparence sont importantes, et le fait de cacher des détails essentiels de l’évaluation des prompts donne l’impression d’un recul
Exemples
- OpenAI fournit comme premiers exemples la génération de scripts Bash, la résolution de mots croisés et le calcul du pH de solutions chimiques
- Ces exemples montrent que la version du modèle dans l’interface ChatGPT expose des détails sur la chaîne de pensée, sans toutefois montrer les tokens de raisonnement bruts
- OpenAI propose aussi deux nouveaux cookbooks montrant comment utiliser le raisonnement pour la validation de données et la génération de routines
- Sur Twitter, la question est posée de savoir s’il existe des exemples de prompts qui échouaient avec GPT-4o mais fonctionnent avec
o1-preview-
"How many words are in your response to this prompt?" "There are seven words in this sentence."
-
Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
-
- Le chercheur OpenAI Jason Wei note que les résultats sur AIME et GPQA sont très bons, mais qu’ils ne se traduisent pas nécessairement par quelque chose de perceptible pour les utilisateurs
Ce qu’il y a de nouveau dans tout cela
- Il faudra du temps pour que la communauté établisse des bonnes pratiques sur quand et où appliquer ces modèles
- Je m’attends à continuer d’utiliser principalement GPT-4o (et Claude 3.5 Sonnet), mais il sera vraiment intéressant de voir cette nouvelle famille de modèles élargir collectivement notre manière de penser les types de tâches que les LLM peuvent résoudre
- On peut s’attendre à ce que d’autres laboratoires d’IA commencent eux aussi à reproduire certains de ces résultats avec leurs propres versions de modèles spécialement entraînés pour ce style de raisonnement Chain-of-Thought
L’avis de GN⁺
- Les modèles entraînés selon une approche chain-of-thought pourraient aider à dépasser les limites des modèles existants pour la résolution de problèmes complexes. Des gains de performance sont particulièrement attendus sur les tâches nécessitant un raisonnement étape par étape et du backtracking
- Cependant, masquer les tokens de raisonnement dans l’API soulève des inquiétudes en matière d’interprétabilité et de transparence du modèle. Du point de vue des utilisateurs, il pourrait devenir plus difficile de comprendre et de vérifier le processus de raisonnement du modèle
- À ce stade, on ne sait pas encore clairement pour quels types de tâches ces modèles sont les plus adaptés, ni quels sont leurs avantages et inconvénients par rapport aux modèles existants. Il semble nécessaire que la communauté fasse émerger divers cas d’usage et bonnes pratiques
- D’autres entreprises d’IA, comme Anthropic avec Claude ou Cohere avec ses modèles, pourraient elles aussi adopter des approches similaires d’apprentissage chain-of-thought. La concurrence sur le marché des modèles de raisonnement devrait encore s’intensifier
- Dans l’ensemble, cette annonce d’OpenAI est significative en ce qu’elle propose une nouvelle approche pour améliorer les capacités de raisonnement des LLM, même si certains points, comme les tokens de raisonnement cachés, restent préoccupants et semblent appeler des améliorations à l’avenir
2 commentaires
Il y a une coquille :)
« Chai-of-Thought appris selon la méthode » → « Chain-of-Thought appris selon la méthode »
Commentaire Hacker News
Problèmes du modèle o1-preview
Citation du chercheur d'OpenAI Jason Wei
Tentative de refactorisation de code Rust
enumet n'utiliser que le type de donnéesU8Deux éléments principaux
Difficulté d'évaluer des prompts complexes
Problèmes de qualité et de coût de o1
Comparaison entre GPT-4o et o1-preview
Difficulté à résoudre des problèmes de mathématiques élémentaires
Test sur une question juridique
Problème de traitement de contenu Markdown