- Présentation de trois modèles : GPT-4.1, GPT-4.1 mini et GPT-4.1 nano
- Des performances globalement améliorées par rapport à GPT-4o, avec des progrès particulièrement marqués en codage, suivi des instructions et compréhension des contextes longs
- Les trois modèles prennent en charge une fenêtre de contexte allant jusqu’à 1 million de tokens, ce qui les rend adaptés aux grandes bases de code et à l’analyse de documents complexes
- Excellentes performances avec réduction de la latence et des coûts
- Principales améliorations de performances
- Capacités de codage : 54,6 % sur SWE-bench Verified, soit +21,4 points par rapport à GPT-4o
- Suivi des instructions : score MultiChallenge de 38,3 %, soit +10,5 points par rapport à GPT-4o
- Compréhension multimodale des contextes longs : 72,0 % sur Video-MME (long, sans sous-titres), soit +6,7 points par rapport à GPT-4o
- Caractéristiques de la famille GPT-4.1
- GPT-4.1 mini : meilleurs résultats d’évaluation d’intelligence que GPT-4o, latence divisée par deux, coûts réduits de 83 %
- GPT-4.1 nano : coût et latence les plus faibles, tout en conservant de hautes performances
- GPT-4.5 Preview sera arrêté le 14 juillet 2025, avec recommandation de migrer vers la série GPT-4.1
- Vision (compréhension d’images et multimodal)
- GPT-4.1 mini dépasse GPT-4o sur des benchmarks basés sur l’image
- Haute précision sur MMMU, MathVista, CharXiv et autres
- Video-MME (questions sur des vidéos de 30 à 60 minutes sans sous-titres) : précision de 72,0 %
- Politique tarifaire
- Tous les modèles sont annoncés et disponibles à l’usage
- GPT-4.1 est en moyenne 26 % moins cher que GPT-4o
- GPT-4.1 nano est le modèle le moins coûteux
- Réduction de 75 % sur les entrées en cache, sans coût supplémentaire pour les contextes longs
- Tarifs par modèle
- GPT-4.1 : entrée à 2,00 $ par million de tokens, sortie à 8,00 $, coût moyen d’environ 1,84 $
- GPT-4.1 mini : entrée à 0,40 $, sortie à 1,60 $, moyenne à 0,42 $
- GPT-4.1 nano : entrée à 0,10 $, sortie à 0,40 $, moyenne à 0,12 $
- Remise sur le prompt cache étendue de 50 % à jusqu’à 75 %
- Pas de surcoût pour les requêtes à contexte long, seule l’utilisation des tokens est prise en compte
1 commentaires
Avis Hacker News
Des utilisateurs de ChatGPT expriment leur confusion face à la nécessité de choisir parmi plusieurs modèles
Comparaison de SWE-bench Verified, Aider Polyglot, coûts, jetons de sortie par seconde, et mois/année de coupure des connaissances
OAI a publié un guide de prompt pour GPT 4.1
Selon l’annonce d’OpenAI, GPT-4.1 fournit de meilleures suggestions dans 55 % des cas lors d’un face-à-face de génération de code review contre Claude Sonnet 3.7
Lors d’un récent Ted Talk, Sam a déclaré que les modèles vont et viennent, mais qu’ils veulent devenir la meilleure plateforme
Partage d’expérience sur l’usage de GPT-4.1 dans une base de code complexe
Appel à la nécessité de benchmarks sur les performances des modèles avec un maximum de jetons élevé
Les grands laboratoires d’IA mènent simultanément plusieurs guerres de marché
Résultat du résumé par GPT-4.1 d’un fil Hacker News comptant 164 commentaires