Notes de Simon Willison sur o3-mini

xguru · 2025-02-02T10:07:02+09:00

Le modèle o3-mini d’OpenAI vient d’être dévoilé et, comme les autres modèles de la série o, il est un peu difficile à évaluer Il faut désormais décider quel modèle choisir selon l’usage, en plus des GPT-4o, o1, o1 Pro existants, etc. Selon la System Card d’o3-mini (PDF), o3-mini surpasse GPT-4o et o1 sur certains indicateurs d’évaluation, mais n’affiche pas des performances systématiquement élevées sur tous les points Il se montre particulièrement performant sur des benchmarks liés à la programmation compétitive, comme le score Codeforces ELO OpenAI prévoit d’autoriser l’utilisation d’o3-mini pour effectuer des recherches sur Internet puis résumer les résultats dans ChatGPT Les modèles o1 existants n’utilisaient pas l’outil de recherche web dans ChatGPT, ce qui rend l’utilité de cette nouvelle fonction particulièrement intéressante Par ailleurs, o3-mini ne prend pas en charge la vision (images), mais il est possible que le prochain modèle mini intègre la vision La prise en charge d’o3-mini a été ajoutée à mon outil CLI, LLM 0.21 L’option -o reasoning_effort permet de définir high, medium ou low À l’heure actuelle, o3-mini n’est accessible qu’aux utilisateurs Tier 3 et au-delà Il faut avoir dépensé au moins 100 $ en API pour appartenir à ce niveau Le coût d’o3-mini est de : 1,10 $ par million de tokens en entrée 4,40 $ par million de tokens en sortie soit un prix inférieur de plus de moitié à GPT-4o (2,50 $/10 $), et inférieur à un dixième de celui d’o1 (15 $/60 $) J’ai exécuté le script hn-summary.sh avec o3-mini pour résumer le post Hacker News (42890627) hn-summary.sh 42890627 -o o3-mini 18 936 tokens en entrée et 2 905 tokens en sortie ont été utilisés, pour un coût total d’environ 0,033612 dollar (3,3612 cents) La limite maximale de tokens en sortie d’o3-mini est de 100 000 C’est bien plus que GPT-4o (16 000), DeepSeek R1 (8 000) et Claude 3.5 (8 000) Les tokens consommés pour le raisonnement interne comptent aussi dans cette limite, ce qui peut rendre difficile d’atteindre réellement 100 000 tokens de sortie Le modèle accepte jusqu’à 200 000 tokens en entrée, soit une capacité supérieure aux 128 000 de GPT-4o Il semble avoir un fort potentiel pour les travaux de traduction de longs textes Grâce à son faible coût et à sa capacité à bien gérer de longues entrées et sorties Sur Hacker News, le commentaire du traducteur professionnel Tom Gally est intéressant Il mentionne que DeepSeek R1 comme o3-mini ont montré une baisse de qualité en fin de traduction sur des textes longs Au début, R1 semblait correct lui aussi, mais o3-mini a produit un résultat plus fluide, avec un anglais plus naturel et plus proche du style d’écriture demandé Cependant, la longueur des sorties était de 5 855 caractères pour R1, 9 052 pour o3-mini, et 11 021 pour la version retouchée manuellement R1 a omis certains paragraphes vers la fin, tandis qu’o3-mini a utilisé un style abrégé étrange (en utilisant / entre des noms au lieu de and) Selon lui, ChatGPT, Claude et Gemini n’avaient pas montré ce type de problème auparavant sur la traduction du même texte

(simonwillison.net)

14 points par xguru 2025-02-02 | 1 commentaires | Partager sur WhatsApp

Le modèle o3-mini d’OpenAI vient d’être dévoilé et, comme les autres modèles de la série o, il est un peu difficile à évaluer
- Il faut désormais décider quel modèle choisir selon l’usage, en plus des GPT-4o, o1, o1 Pro existants, etc.
Selon la System Card d’o3-mini (PDF), o3-mini surpasse GPT-4o et o1 sur certains indicateurs d’évaluation, mais n’affiche pas des performances systématiquement élevées sur tous les points
- Il se montre particulièrement performant sur des benchmarks liés à la programmation compétitive, comme le score Codeforces ELO
OpenAI prévoit d’autoriser l’utilisation d’o3-mini pour effectuer des recherches sur Internet puis résumer les résultats dans ChatGPT
- Les modèles o1 existants n’utilisaient pas l’outil de recherche web dans ChatGPT, ce qui rend l’utilité de cette nouvelle fonction particulièrement intéressante
Par ailleurs, o3-mini ne prend pas en charge la vision (images), mais il est possible que le prochain modèle mini intègre la vision
La prise en charge d’o3-mini a été ajoutée à mon outil CLI, LLM 0.21
- L’option -o reasoning_effort permet de définir high, medium ou low
À l’heure actuelle, o3-mini n’est accessible qu’aux utilisateurs Tier 3 et au-delà
- Il faut avoir dépensé au moins 100 $ en API pour appartenir à ce niveau
Le coût d’o3-mini est de :
- 1,10 $ par million de tokens en entrée
- 4,40 $ par million de tokens en sortie
- soit un prix inférieur de plus de moitié à GPT-4o (2,50 $/10 $), et inférieur à un dixième de celui d’o1 (15 $/60 $)
J’ai exécuté le script hn-summary.sh avec o3-mini pour résumer le post Hacker News (42890627)
- hn-summary.sh 42890627 -o o3-mini
- 18 936 tokens en entrée et 2 905 tokens en sortie ont été utilisés, pour un coût total d’environ 0,033612 dollar (3,3612 cents)
La limite maximale de tokens en sortie d’o3-mini est de 100 000
- C’est bien plus que GPT-4o (16 000), DeepSeek R1 (8 000) et Claude 3.5 (8 000)
- Les tokens consommés pour le raisonnement interne comptent aussi dans cette limite, ce qui peut rendre difficile d’atteindre réellement 100 000 tokens de sortie
Le modèle accepte jusqu’à 200 000 tokens en entrée, soit une capacité supérieure aux 128 000 de GPT-4o
Il semble avoir un fort potentiel pour les travaux de traduction de longs textes
- Grâce à son faible coût et à sa capacité à bien gérer de longues entrées et sorties
Sur Hacker News, le commentaire du traducteur professionnel Tom Gally est intéressant
- Il mentionne que DeepSeek R1 comme o3-mini ont montré une baisse de qualité en fin de traduction sur des textes longs
- Au début, R1 semblait correct lui aussi, mais o3-mini a produit un résultat plus fluide, avec un anglais plus naturel et plus proche du style d’écriture demandé
- Cependant, la longueur des sorties était de 5 855 caractères pour R1, 9 052 pour o3-mini, et 11 021 pour la version retouchée manuellement
- R1 a omis certains paragraphes vers la fin, tandis qu’o3-mini a utilisé un style abrégé étrange (en utilisant / entre des noms au lieu de and)
- Selon lui, ChatGPT, Claude et Gemini n’avaient pas montré ce type de problème auparavant sur la traduction du même texte

1 commentaires

xguru 2025-02-02

Sortie d’OpenAI o3-Mini

Notes de Simon Willison sur o3-mini

À lire aussi

1 commentaires