- Le modèle o3-mini d’OpenAI vient d’être dévoilé et, comme les autres modèles de la série o, il est un peu difficile à évaluer
- Il faut désormais décider quel modèle choisir selon l’usage, en plus des GPT-4o, o1, o1 Pro existants, etc.
- Selon la System Card d’o3-mini (PDF), o3-mini surpasse GPT-4o et o1 sur certains indicateurs d’évaluation, mais n’affiche pas des performances systématiquement élevées sur tous les points
- Il se montre particulièrement performant sur des benchmarks liés à la programmation compétitive, comme le score Codeforces ELO
- OpenAI prévoit d’autoriser l’utilisation d’o3-mini pour effectuer des recherches sur Internet puis résumer les résultats dans ChatGPT
- Les modèles o1 existants n’utilisaient pas l’outil de recherche web dans ChatGPT, ce qui rend l’utilité de cette nouvelle fonction particulièrement intéressante
- Par ailleurs, o3-mini ne prend pas en charge la vision (images), mais il est possible que le prochain modèle mini intègre la vision
- La prise en charge d’o3-mini a été ajoutée à mon outil CLI, LLM 0.21
- L’option
-o reasoning_effort permet de définir high, medium ou low
- À l’heure actuelle, o3-mini n’est accessible qu’aux utilisateurs Tier 3 et au-delà
- Il faut avoir dépensé au moins 100 $ en API pour appartenir à ce niveau
- Le coût d’o3-mini est de :
- 1,10 $ par million de tokens en entrée
- 4,40 $ par million de tokens en sortie
- soit un prix inférieur de plus de moitié à GPT-4o (2,50 $/10 $), et inférieur à un dixième de celui d’o1 (15 $/60 $)
- J’ai exécuté le script hn-summary.sh avec o3-mini pour résumer le post Hacker News (42890627)
hn-summary.sh 42890627 -o o3-mini
- 18 936 tokens en entrée et 2 905 tokens en sortie ont été utilisés, pour un coût total d’environ 0,033612 dollar (3,3612 cents)
- La limite maximale de tokens en sortie d’o3-mini est de 100 000
- C’est bien plus que GPT-4o (16 000), DeepSeek R1 (8 000) et Claude 3.5 (8 000)
- Les tokens consommés pour le raisonnement interne comptent aussi dans cette limite, ce qui peut rendre difficile d’atteindre réellement 100 000 tokens de sortie
- Le modèle accepte jusqu’à 200 000 tokens en entrée, soit une capacité supérieure aux 128 000 de GPT-4o
- Il semble avoir un fort potentiel pour les travaux de traduction de longs textes
- Grâce à son faible coût et à sa capacité à bien gérer de longues entrées et sorties
- Sur Hacker News, le commentaire du traducteur professionnel Tom Gally est intéressant
- Il mentionne que DeepSeek R1 comme o3-mini ont montré une baisse de qualité en fin de traduction sur des textes longs
- Au début, R1 semblait correct lui aussi, mais o3-mini a produit un résultat plus fluide, avec un anglais plus naturel et plus proche du style d’écriture demandé
- Cependant, la longueur des sorties était de 5 855 caractères pour R1, 9 052 pour o3-mini, et 11 021 pour la version retouchée manuellement
- R1 a omis certains paragraphes vers la fin, tandis qu’o3-mini a utilisé un style abrégé étrange (en utilisant
/ entre des noms au lieu de and)
- Selon lui, ChatGPT, Claude et Gemini n’avaient pas montré ce type de problème auparavant sur la traduction du même texte
1 commentaires
Sortie d’OpenAI o3-Mini