À propos de Strawberry d’OpenAI et du raisonnement

xguru · 2024-09-14T10:02:02+09:00

J’ai pu essayer en avant-première le système de raisonnement renforcé d’OpenAI, « Strawberry », et maintenant qu’il est public, je peux enfin partager mes réflexions Le nouveau modèle d’IA, o1-preview, permet à l’IA de « réfléchir » avant de résoudre un problème Cela lui permet d’aborder des problèmes très difficiles qui exigent planification et itération, et en pratique il peut surpasser des experts humains titulaires d’un doctorat pour résoudre des problèmes de physique extrêmement ardus Ce système est impressionnant, mais il reste encore limité et laisse entrevoir la direction des progrès à venir Cependant, o1-preview n’est pas meilleur sur tous les plans ; par exemple, il n’écrit pas mieux que GPT-4o Les mots croisés sont particulièrement difficiles pour les LLM parce qu’ils nécessitent un processus de résolution itératif consistant à tester puis rejeter de nombreuses réponses qui s’influencent mutuellement Les LLM ne peuvent pas faire cela, car ils ne peuvent ajouter qu’un seul token/mot à la réponse à la fois Les LLM généralistes comme Claude ne parviennent pas à bien résoudre les mots croisés En revanche, après avoir « réfléchi » pendant 108 secondes, Strawberry résout un mot croisé presque parfaitement o1-preview rend possibles des choses qui étaient impossibles sans Strawberry, mais il est encore loin d’être parfait Des erreurs et des hallucinations se produisent encore, et il reste limité par « l’intelligence » du modèle de base, GPT-4o Même depuis la réception du nouveau modèle, l’auteur continue d’utiliser Claude pour la critique du style d’écriture, car Claude reste supérieur sur cet aspect En revanche, il a cessé d’utiliser Claude pour les tâches liées à la planification complexe ou à la résolution de problèmes, ce qui marque un bond majeur dans ce domaine Dans Co-Intelligence.. Avec o1-preview, on se retrouve face à un changement de paradigme dans l’IA La planification est une forme d’action où l’IA élabore elle-même une manière de résoudre un problème On a l’impression que le rôle du partenaire humain se réduit à mesure que l’IA produit un résultat complet au terme de nombreuses étapes de réflexion et de travail L’IA propose elle-même la réponse, et l’utilisateur peut examiner son processus de raisonnement pour y repérer des erreurs, mais le sentiment d’appropriation du résultat ou la contribution à l’orientation de la résolution diminuent Ce changement n’est pas forcément mauvais, mais il est différent de ce que nous connaissions jusqu’ici À mesure que ces systèmes évolueront vers de véritables agents autonomes, nous devrons réfléchir à la manière de rester impliqués pour détecter les erreurs et garder une vue d’ensemble sur le problème que nous cherchons à résoudre Malgré ses limites actuelles, o1-preview montre des capacités de l’IA que nous n’avions pas anticipées La question importante est de savoir comment nous ferons évoluer notre manière de collaborer avec l’IA à mesure qu’elle progresse C’est un point qu’o1-preview n’est pas encore capable de résoudre

(oneusefulthing.org)

6 points par xguru 2024-09-14 | 2 commentaires | Partager sur WhatsApp

J’ai pu essayer en avant-première le système de raisonnement renforcé d’OpenAI, « Strawberry », et maintenant qu’il est public, je peux enfin partager mes réflexions
Le nouveau modèle d’IA, o1-preview, permet à l’IA de « réfléchir » avant de résoudre un problème
Cela lui permet d’aborder des problèmes très difficiles qui exigent planification et itération, et en pratique il peut surpasser des experts humains titulaires d’un doctorat pour résoudre des problèmes de physique extrêmement ardus
Ce système est impressionnant, mais il reste encore limité et laisse entrevoir la direction des progrès à venir
Cependant, o1-preview n’est pas meilleur sur tous les plans ; par exemple, il n’écrit pas mieux que GPT-4o
Les mots croisés sont particulièrement difficiles pour les LLM
- parce qu’ils nécessitent un processus de résolution itératif consistant à tester puis rejeter de nombreuses réponses qui s’influencent mutuellement
- Les LLM ne peuvent pas faire cela, car ils ne peuvent ajouter qu’un seul token/mot à la réponse à la fois
- Les LLM généralistes comme Claude ne parviennent pas à bien résoudre les mots croisés
- En revanche, après avoir « réfléchi » pendant 108 secondes, Strawberry résout un mot croisé presque parfaitement
o1-preview rend possibles des choses qui étaient impossibles sans Strawberry, mais il est encore loin d’être parfait
- Des erreurs et des hallucinations se produisent encore, et il reste limité par « l’intelligence » du modèle de base, GPT-4o
- Même depuis la réception du nouveau modèle, l’auteur continue d’utiliser Claude pour la critique du style d’écriture, car Claude reste supérieur sur cet aspect
- En revanche, il a cessé d’utiliser Claude pour les tâches liées à la planification complexe ou à la résolution de problèmes, ce qui marque un bond majeur dans ce domaine

Dans Co-Intelligence..

Avec o1-preview, on se retrouve face à un changement de paradigme dans l’IA
La planification est une forme d’action où l’IA élabore elle-même une manière de résoudre un problème
On a l’impression que le rôle du partenaire humain se réduit à mesure que l’IA produit un résultat complet au terme de nombreuses étapes de réflexion et de travail
L’IA propose elle-même la réponse, et l’utilisateur peut examiner son processus de raisonnement pour y repérer des erreurs, mais le sentiment d’appropriation du résultat ou la contribution à l’orientation de la résolution diminuent
Ce changement n’est pas forcément mauvais, mais il est différent de ce que nous connaissions jusqu’ici
À mesure que ces systèmes évolueront vers de véritables agents autonomes, nous devrons réfléchir à la manière de rester impliqués pour détecter les erreurs et garder une vue d’ensemble sur le problème que nous cherchons à résoudre
Malgré ses limites actuelles, o1-preview montre des capacités de l’IA que nous n’avions pas anticipées
La question importante est de savoir comment nous ferons évoluer notre manière de collaborer avec l’IA à mesure qu’elle progresse
C’est un point qu’o1-preview n’est pas encore capable de résoudre

2 commentaires

bluekai17 2024-09-19

« La question importante est de savoir comment nous ferons évoluer notre manière de collaborer avec l’IA à mesure que l’IA progresse »

C’est difficile.

xguru 2024-09-14

L’auteur est Ethan Mollick, professeur à la Wharton School de l’Université de Pennsylvanie. Il mène des recherches sur l’entrepreneuriat, l’innovation et l’IA.
Le contenu ci-dessus provient de son Substack, One Useful Thing, une newsletter qui compte environ 1900 abonnés.

À propos de Strawberry d’OpenAI et du raisonnement

Dans Co-Intelligence..

À lire aussi

2 commentaires