3 points par GN⁺ 2026-02-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une version compacte de GPT‑5.3‑Codex conçue pour le codage en temps réel, offrant une vitesse de plus de 1000 tokens/s
  • Un modèle texte uniquement basé sur une fenêtre de contexte de 128k, spécialisé dans les corrections de code immédiates et les tâches itératives
  • Introduction d’un chemin de réponse basé sur WebSocket avec 80 % de réduction de la latence de réponse, 30 % de réduction de l’overhead par token et 50 % de réduction du temps avant le premier token
  • Développé en collaboration avec Cerebras, il fonctionne dans un environnement d’inférence haute vitesse exploitant le Wafer Scale Engine 3
  • Premier modèle de la stratégie Codex à double mode visant à combiner travail autonome de longue durée et collaboration en temps réel

Aperçu de GPT‑5.3‑Codex‑Spark

  • GPT‑5.3‑Codex‑Spark est une version compacte de GPT‑5.3‑Codex, le premier modèle conçu pour les tâches de codage en temps réel
    • Il atteint une vitesse de génération de plus de 1000 tokens/s sur un matériel à très faible latence
    • Il offre une réactivité immédiate dans les tâches de codage réelles
  • C’est le premier modèle développé en collaboration avec Cerebras, et le premier jalon du partenariat entre OpenAI et Cerebras
  • Il est proposé en aperçu de recherche aux utilisateurs ChatGPT Pro, avec pour objectif les premières expérimentations et la collecte de retours

Fonctionnalités principales et performances

  • Il prend en charge une fenêtre de contexte de 128k et est actuellement proposé comme modèle texte uniquement
  • Sur les benchmarks SWE‑Bench Pro et Terminal‑Bench 2.0, il affiche de meilleures performances en moins de temps que GPT‑5.3‑Codex
  • Grâce à une optimisation centrée sur la vitesse, son mode de fonctionnement par défaut reste léger et orienté objectif, et il n’exécute pas automatiquement de tests sauf demande explicite
  • Il permet une collaboration en temps réel, l’utilisateur pouvant interrompre ou rediriger le modèle et voir des résultats immédiats

Optimisation de la latence et de l’infrastructure

  • Au-delà de la vitesse du modèle, des améliorations ont été apportées pour réduire la latence de l’ensemble du pipeline requête-réponse
    • 80 % de réduction de l’overhead aller-retour entre client et serveur
    • 30 % de réduction de l’overhead par token et 50 % de réduction du temps avant le premier token
  • Pour cela, une connexion persistante basée sur WebSocket et des optimisations internes de la Responses API ont été mises en place
  • Ces améliorations devraient s’appliquer non seulement à Codex‑Spark, mais aussi à tous les modèles

Intégration du matériel Cerebras

  • Codex‑Spark s’exécute sur le Cerebras Wafer Scale Engine 3, fournissant une couche d’inférence centrée sur la latence
  • OpenAI a collaboré avec Cerebras pour intégrer ce chemin à la stack de serving de production existante, afin d’assurer un environnement d’exécution cohérent à l’échelle de Codex
  • L’infrastructure GPU reste la base de l’entraînement et de l’inférence, tandis que Cerebras est spécialisé dans les workloads à très faible latence, jouant ainsi un rôle complémentaire
  • Il est possible de combiner GPU et Cerebras dans un même workload pour obtenir des performances optimales

Déploiement et accès

  • Codex‑Spark commence à être proposé en aperçu de recherche dans l’application Codex, le CLI et l’extension VS Code pour les utilisateurs ChatGPT Pro
  • Une limite d’usage dédiée (rate limit) s’applique et pourra être ajustée selon la demande
  • Un accès API est fourni à certains partenaires design afin de recueillir des retours sur les modalités d’intégration produit
  • L’accès sera étendu dans les prochaines semaines et l’intégration sera ajustée en fonction des workloads réels

Sécurité et orientations futures

  • Codex‑Spark inclut le même entraînement à la sécurité que les modèles mainline existants et a passé des évaluations liées au cyber
  • Les résultats d’évaluation confirment qu’il n’atteint pas le seuil de capacités à haut risque dans les domaines de la cybersécurité et de la biologie
  • Codex évolue vers une combinaison de deux modes : le raisonnement de longue durée et le travail itératif collaboratif en temps réel
    • À l’avenir, des extensions sont prévues comme les entrées multimodales, des modèles plus grands et un contexte plus long
  • L’inférence ultra-rapide accélère la transformation d’idées en logiciels immédiatement exploitables et offre une expérience d’interaction naturelle

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.