3 points par GN⁺ 2025-04-15 | 1 commentaires | Partager sur WhatsApp
  • Présentation de trois modèles : GPT-4.1, GPT-4.1 mini et GPT-4.1 nano
  • Des performances globalement améliorées par rapport à GPT-4o, avec des progrès particulièrement marqués en codage, suivi des instructions et compréhension des contextes longs
  • Les trois modèles prennent en charge une fenêtre de contexte allant jusqu’à 1 million de tokens, ce qui les rend adaptés aux grandes bases de code et à l’analyse de documents complexes
  • Excellentes performances avec réduction de la latence et des coûts
  • Principales améliorations de performances
    • Capacités de codage : 54,6 % sur SWE-bench Verified, soit +21,4 points par rapport à GPT-4o
    • Suivi des instructions : score MultiChallenge de 38,3 %, soit +10,5 points par rapport à GPT-4o
    • Compréhension multimodale des contextes longs : 72,0 % sur Video-MME (long, sans sous-titres), soit +6,7 points par rapport à GPT-4o
  • Caractéristiques de la famille GPT-4.1
    • GPT-4.1 mini : meilleurs résultats d’évaluation d’intelligence que GPT-4o, latence divisée par deux, coûts réduits de 83 %
    • GPT-4.1 nano : coût et latence les plus faibles, tout en conservant de hautes performances
  • GPT-4.5 Preview sera arrêté le 14 juillet 2025, avec recommandation de migrer vers la série GPT-4.1
  • Vision (compréhension d’images et multimodal)
    • GPT-4.1 mini dépasse GPT-4o sur des benchmarks basés sur l’image
    • Haute précision sur MMMU, MathVista, CharXiv et autres
    • Video-MME (questions sur des vidéos de 30 à 60 minutes sans sous-titres) : précision de 72,0 %
  • Politique tarifaire
    • Tous les modèles sont annoncés et disponibles à l’usage
    • GPT-4.1 est en moyenne 26 % moins cher que GPT-4o
    • GPT-4.1 nano est le modèle le moins coûteux
    • Réduction de 75 % sur les entrées en cache, sans coût supplémentaire pour les contextes longs
  • Tarifs par modèle
    • GPT-4.1 : entrée à 2,00 $ par million de tokens, sortie à 8,00 $, coût moyen d’environ 1,84 $
    • GPT-4.1 mini : entrée à 0,40 $, sortie à 1,60 $, moyenne à 0,42 $
    • GPT-4.1 nano : entrée à 0,10 $, sortie à 0,40 $, moyenne à 0,12 $
    • Remise sur le prompt cache étendue de 50 % à jusqu’à 75 %
    • Pas de surcoût pour les requêtes à contexte long, seule l’utilisation des tokens est prise en compte

1 commentaires

 
GN⁺ 2025-04-15
Avis Hacker News
  • Des utilisateurs de ChatGPT expriment leur confusion face à la nécessité de choisir parmi plusieurs modèles

    • 4o permet la recherche web, l’usage de Canvas, l’évaluation Python côté serveur et la génération d’images, mais n’a pas de chaîne de pensée
    • o3-mini permet la recherche web, le CoT et Canvas, mais ne peut pas générer d’images
    • o1 permet le CoT, mais pas Canvas, ni la recherche web, ni la génération d’images
    • Deep Research est puissant, mais limité à 10 utilisations par mois, donc presque jamais utilisé
    • 4.5 excelle en écriture créative, mais a des limites de requêtes, et on ne sait pas si les autres fonctionnalités sont prises en charge
    • On se demande pourquoi 4o "with scheduled tasks" est un modèle plutôt qu’un outil
  • Comparaison de SWE-bench Verified, Aider Polyglot, coûts, jetons de sortie par seconde, et mois/année de coupure des connaissances

    • Comparaison des performances et des coûts de Claude, Gemini, GPT-4.1, DeepSeek R1 et Grok 3 Beta
    • La comparaison directe est difficile, car elle peut inclure des environnements de test et des niveaux de raisonnement différents
  • OAI a publié un guide de prompt pour GPT 4.1

    • Donner de la persistance au modèle aide à améliorer les performances
    • Recommandation d’utiliser XML ou arxiv 2406.13121 (format GDM) plutôt que JSON
    • Le prompt doit être placé en haut et en bas
  • Selon l’annonce d’OpenAI, GPT-4.1 fournit de meilleures suggestions dans 55 % des cas lors d’un face-à-face de génération de code review contre Claude Sonnet 3.7

    • GPT-4.1 est supérieur en précision et en exhaustivité
  • Lors d’un récent Ted Talk, Sam a déclaré que les modèles vont et viennent, mais qu’ils veulent devenir la meilleure plateforme

    • Cela donne l’impression d’un grand changement
  • Partage d’expérience sur l’usage de GPT-4.1 dans une base de code complexe

    • Cela donne l’impression du premier modèle agentique d’OpenAI
    • Des améliorations sont encore nécessaires, et les appels d’outils échouent souvent
    • Sa capacité à gérer la complexité est inférieure à celle de Claude
    • Si la requête n’est pas trop complexe, il reste fidèle à la demande
  • Appel à la nécessité de benchmarks sur les performances des modèles avec un maximum de jetons élevé

    • Expérience d’une baisse de qualité après 200k sur les modèles Gemini
    • Doute sur l’utilité réelle de l’augmentation de la limite maximale de jetons
  • Les grands laboratoires d’IA mènent simultanément plusieurs guerres de marché

    • Ils sont en concurrence sur plusieurs fronts, notamment la croissance grand public, les workloads d’entreprise, la recherche de pointe, les promesses autour du raisonnement et la réponse à la menace DeepSeek
  • Résultat du résumé par GPT-4.1 d’un fil Hacker News comptant 164 commentaires

    • Il est jugé bon dans le suivi des instructions
    • Le coût total en jetons et une comparaison avec d’autres modèles sont fournis