Notes sur o1 d’OpenAI, un modèle chain-of-thought

(simonwillison.net)

6 points par GN⁺ 2024-09-14 | 2 commentaires | Partager sur WhatsApp

OpenAI a lancé ses nouveaux modèles en preview, o1-preview et o1-mini (la version mini n’est pas en preview), anciennement connus sous le nom de code « strawberry »

Entraîné selon une approche Chain-of-Thought

OpenAI explique que ces modèles sont conçus pour « réfléchir » plus longtemps avant de répondre
Ces nouveaux modèles peuvent être vus comme une extension spécialisée du pattern de prompting « penser étape par étape »
Dans son article « Learning to Reason with LLMs », OpenAI explique que les nouveaux modèles apprennent, via l’apprentissage par renforcement, à améliorer leur chaîne de pensée et à affiner leurs stratégies
Cela signifie que le modèle peut mieux traiter des prompts complexes nécessitant du backtracking et davantage de « réflexion » qu’une simple prédiction du token suivant

Détails de bas niveau dans la documentation API

Pour les entrées image, l’appel de fonctions et les applications qui exigent des temps de réponse systématiquement rapides, les modèles GPT-4o et GPT-4o mini restent des choix adaptés
Si vous développez des applications qui demandent un raisonnement approfondi et peuvent accepter des temps de réponse plus longs, les modèles o1 peuvent être un excellent choix
L’accès API aux nouveaux modèles o1-preview et o1-mini est actuellement limité aux comptes de niveau 5
Pas de prise en charge du prompt système : le modèle utilise l’API de chat completions existante, mais vous ne pouvez envoyer que des messages user et assistant
Pas non plus de prise en charge du streaming, de l’usage d’outils, des appels par lots ni des entrées image
Le traitement d’une requête peut prendre de quelques secondes à plusieurs minutes selon la quantité de raisonnement nécessaire à la résolution du problème

Tokens de raisonnement cachés

Des « tokens de raisonnement », invisibles dans les réponses API mais tout de même facturés et comptés comme tokens de sortie, sont introduits
Pour des prompts utiles avec ces nouveaux modèles, OpenAI suggère d’allouer un budget d’environ 25 000 de ces tokens
La limite de tokens de sortie augmente fortement, à 32 768 pour o1-preview et 65 536 pour o1-mini
Dernier conseil de la documentation API : lors de l’apport de contexte supplémentaire en retrieval-augmented generation (RAG), n’inclure que les informations les plus pertinentes afin d’éviter que le modèle ne rende sa réponse inutilement trop complexe

Tokens de raisonnement cachés

Les tokens de raisonnement ne sont pas visibles dans l’API : ils sont facturés, mais on ne peut pas voir ce qu’ils contiennent réellement
OpenAI avance deux raisons principales à cela :
1. Sécurité et conformité aux politiques : éviter les cas où des informations figurant dans les étapes intermédiaires pourraient enfreindre les règles
2. Avantage concurrentiel : empêcher d’autres modèles d’apprendre à partir du travail de raisonnement dans lequel OpenAI a investi
Cette décision suscite du mécontentement : l’interprétabilité et la transparence sont importantes, et le fait de cacher des détails essentiels de l’évaluation des prompts donne l’impression d’un recul

Exemples

OpenAI fournit comme premiers exemples la génération de scripts Bash, la résolution de mots croisés et le calcul du pH de solutions chimiques
Ces exemples montrent que la version du modèle dans l’interface ChatGPT expose des détails sur la chaîne de pensée, sans toutefois montrer les tokens de raisonnement bruts
OpenAI propose aussi deux nouveaux cookbooks montrant comment utiliser le raisonnement pour la validation de données et la génération de routines
Sur Twitter, la question est posée de savoir s’il existe des exemples de prompts qui échouaient avec GPT-4o mais fonctionnent avec o1-preview
- "How many words are in your response to this prompt?" "There are seven words in this sentence."
- Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
Le chercheur OpenAI Jason Wei note que les résultats sur AIME et GPQA sont très bons, mais qu’ils ne se traduisent pas nécessairement par quelque chose de perceptible pour les utilisateurs

Ce qu’il y a de nouveau dans tout cela

Il faudra du temps pour que la communauté établisse des bonnes pratiques sur quand et où appliquer ces modèles
Je m’attends à continuer d’utiliser principalement GPT-4o (et Claude 3.5 Sonnet), mais il sera vraiment intéressant de voir cette nouvelle famille de modèles élargir collectivement notre manière de penser les types de tâches que les LLM peuvent résoudre
On peut s’attendre à ce que d’autres laboratoires d’IA commencent eux aussi à reproduire certains de ces résultats avec leurs propres versions de modèles spécialement entraînés pour ce style de raisonnement Chain-of-Thought

L’avis de GN⁺

Les modèles entraînés selon une approche chain-of-thought pourraient aider à dépasser les limites des modèles existants pour la résolution de problèmes complexes. Des gains de performance sont particulièrement attendus sur les tâches nécessitant un raisonnement étape par étape et du backtracking
Cependant, masquer les tokens de raisonnement dans l’API soulève des inquiétudes en matière d’interprétabilité et de transparence du modèle. Du point de vue des utilisateurs, il pourrait devenir plus difficile de comprendre et de vérifier le processus de raisonnement du modèle
À ce stade, on ne sait pas encore clairement pour quels types de tâches ces modèles sont les plus adaptés, ni quels sont leurs avantages et inconvénients par rapport aux modèles existants. Il semble nécessaire que la communauté fasse émerger divers cas d’usage et bonnes pratiques
D’autres entreprises d’IA, comme Anthropic avec Claude ou Cohere avec ses modèles, pourraient elles aussi adopter des approches similaires d’apprentissage chain-of-thought. La concurrence sur le marché des modèles de raisonnement devrait encore s’intensifier
Dans l’ensemble, cette annonce d’OpenAI est significative en ce qu’elle propose une nouvelle approche pour améliorer les capacités de raisonnement des LLM, même si certains points, comme les tokens de raisonnement cachés, restent préoccupants et semblent appeler des améliorations à l’avenir

2 commentaires

naneg93 2024-09-14

Il y a une coquille :)

« Chai-of-Thought appris selon la méthode » → « Chain-of-Thought appris selon la méthode »

GN⁺ 2024-09-14

Commentaire Hacker News

Problèmes du modèle o1-preview
- Hallucine des bibliothèques et des fonctions qui n'existent pas
- Fournit des informations erronées sur des faits peu présents sur le web
- Il n'existe aucun moyen d'évaluer la véracité des informations générées par le modèle
Citation du chercheur d'OpenAI Jason Wei
- A montré de solides performances sur AIME et GPQA, mais cela n'est pas perceptible pour les utilisateurs
- Met en doute l'idée selon laquelle il faudrait simplement trouver des prompts plus difficiles
Tentative de refactorisation de code Rust
- o1-mini ne parvient pas à fournir du code sans erreur
- o1-preview fournit du code qui compile et passe la plupart des tests
- Tentative de modification d'une bibliothèque Rust pour supprimer les enum et n'utiliser que le type de données U8
Deux éléments principaux
- Un LLM entraîné à lire et générer de bons prompts chain-of-thought
- Du code d'exécution qui reprompte le modèle de manière répétée
- OpenAI n'explique pas clairement cette différence
Difficulté d'évaluer des prompts complexes
- Le processus d'évaluation des prompts est caché, ce qui rend le débogage difficile
- Du point de vue de l'utilisateur, seul le résultat compte, pas le processus
Problèmes de qualité et de coût de o1
- Pas de grande amélioration de qualité, mais un impact fortement négatif sur le coût et la latence
Comparaison entre GPT-4o et o1-preview
- GPT-4o ne parvient pas à fournir une stratégie optimale au morpion
- o1-preview fournit une stratégie optimale, mais échoue sur des grilles non standard
Difficulté à résoudre des problèmes de mathématiques élémentaires
- Tentative de résoudre un problème consistant à additionner trois nombres puis à diviser pour obtenir le même résultat
- Les modèles actuels ont du mal à résoudre même des problèmes scolaires de base
Test sur une question juridique
- GPT-4o fournit immédiatement la bonne réponse
- o1-preview fournit une mauvaise réponse et nécessite plusieurs questions de suivi
Problème de traitement de contenu Markdown
- Lorsqu'un contenu Markdown comprend des expressions de logique symbolique et des exemples de démonstration, il est considéré comme une violation des conditions d'utilisation

Notes sur o1 d’OpenAI, un modèle chain-of-thought

Entraîné selon une approche Chain-of-Thought

Détails de bas niveau dans la documentation API

Tokens de raisonnement cachés

Tokens de raisonnement cachés

Exemples

Ce qu’il y a de nouveau dans tout cela

L’avis de GN⁺

À lire aussi

2 commentaires

Commentaire Hacker News