OpenAI dévoile GPT-4.1

(openai.com)

3 points par GN⁺ 2025-04-15 | 1 commentaires | Partager sur WhatsApp

Présentation de trois modèles : GPT-4.1, GPT-4.1 mini et GPT-4.1 nano
Des performances globalement améliorées par rapport à GPT-4o, avec des progrès particulièrement marqués en codage, suivi des instructions et compréhension des contextes longs
Les trois modèles prennent en charge une fenêtre de contexte allant jusqu’à 1 million de tokens, ce qui les rend adaptés aux grandes bases de code et à l’analyse de documents complexes
Excellentes performances avec réduction de la latence et des coûts
Principales améliorations de performances
- Capacités de codage : 54,6 % sur SWE-bench Verified, soit +21,4 points par rapport à GPT-4o
- Suivi des instructions : score MultiChallenge de 38,3 %, soit +10,5 points par rapport à GPT-4o
- Compréhension multimodale des contextes longs : 72,0 % sur Video-MME (long, sans sous-titres), soit +6,7 points par rapport à GPT-4o
Caractéristiques de la famille GPT-4.1
- GPT-4.1 mini : meilleurs résultats d’évaluation d’intelligence que GPT-4o, latence divisée par deux, coûts réduits de 83 %
- GPT-4.1 nano : coût et latence les plus faibles, tout en conservant de hautes performances
GPT-4.5 Preview sera arrêté le 14 juillet 2025, avec recommandation de migrer vers la série GPT-4.1
Vision (compréhension d’images et multimodal)
- GPT-4.1 mini dépasse GPT-4o sur des benchmarks basés sur l’image
- Haute précision sur MMMU, MathVista, CharXiv et autres
- Video-MME (questions sur des vidéos de 30 à 60 minutes sans sous-titres) : précision de 72,0 %
Politique tarifaire
- Tous les modèles sont annoncés et disponibles à l’usage
- GPT-4.1 est en moyenne 26 % moins cher que GPT-4o
- GPT-4.1 nano est le modèle le moins coûteux
- Réduction de 75 % sur les entrées en cache, sans coût supplémentaire pour les contextes longs
Tarifs par modèle
- GPT-4.1 : entrée à 2,00 $ par million de tokens, sortie à 8,00 $, coût moyen d’environ 1,84 $
- GPT-4.1 mini : entrée à 0,40 $, sortie à 1,60 $, moyenne à 0,42 $
- GPT-4.1 nano : entrée à 0,10 $, sortie à 0,40 $, moyenne à 0,12 $
- Remise sur le prompt cache étendue de 50 % à jusqu’à 75 %
- Pas de surcoût pour les requêtes à contexte long, seule l’utilisation des tokens est prise en compte

1 commentaires

GN⁺ 2025-04-15

Avis Hacker News

Des utilisateurs de ChatGPT expriment leur confusion face à la nécessité de choisir parmi plusieurs modèles
- 4o permet la recherche web, l’usage de Canvas, l’évaluation Python côté serveur et la génération d’images, mais n’a pas de chaîne de pensée
- o3-mini permet la recherche web, le CoT et Canvas, mais ne peut pas générer d’images
- o1 permet le CoT, mais pas Canvas, ni la recherche web, ni la génération d’images
- Deep Research est puissant, mais limité à 10 utilisations par mois, donc presque jamais utilisé
- 4.5 excelle en écriture créative, mais a des limites de requêtes, et on ne sait pas si les autres fonctionnalités sont prises en charge
- On se demande pourquoi 4o "with scheduled tasks" est un modèle plutôt qu’un outil
Comparaison de SWE-bench Verified, Aider Polyglot, coûts, jetons de sortie par seconde, et mois/année de coupure des connaissances
- Comparaison des performances et des coûts de Claude, Gemini, GPT-4.1, DeepSeek R1 et Grok 3 Beta
- La comparaison directe est difficile, car elle peut inclure des environnements de test et des niveaux de raisonnement différents
OAI a publié un guide de prompt pour GPT 4.1
- Donner de la persistance au modèle aide à améliorer les performances
- Recommandation d’utiliser XML ou arxiv 2406.13121 (format GDM) plutôt que JSON
- Le prompt doit être placé en haut et en bas
Selon l’annonce d’OpenAI, GPT-4.1 fournit de meilleures suggestions dans 55 % des cas lors d’un face-à-face de génération de code review contre Claude Sonnet 3.7
- GPT-4.1 est supérieur en précision et en exhaustivité
Lors d’un récent Ted Talk, Sam a déclaré que les modèles vont et viennent, mais qu’ils veulent devenir la meilleure plateforme
- Cela donne l’impression d’un grand changement
Partage d’expérience sur l’usage de GPT-4.1 dans une base de code complexe
- Cela donne l’impression du premier modèle agentique d’OpenAI
- Des améliorations sont encore nécessaires, et les appels d’outils échouent souvent
- Sa capacité à gérer la complexité est inférieure à celle de Claude
- Si la requête n’est pas trop complexe, il reste fidèle à la demande
Appel à la nécessité de benchmarks sur les performances des modèles avec un maximum de jetons élevé
- Expérience d’une baisse de qualité après 200k sur les modèles Gemini
- Doute sur l’utilité réelle de l’augmentation de la limite maximale de jetons
Les grands laboratoires d’IA mènent simultanément plusieurs guerres de marché
- Ils sont en concurrence sur plusieurs fronts, notamment la croissance grand public, les workloads d’entreprise, la recherche de pointe, les promesses autour du raisonnement et la réponse à la menace DeepSeek
Résultat du résumé par GPT-4.1 d’un fil Hacker News comptant 164 commentaires
- Il est jugé bon dans le suivi des instructions
- Le coût total en jetons et une comparaison avec d’autres modèles sont fournis

OpenAI dévoile GPT-4.1

À lire aussi

1 commentaires

Avis Hacker News