18 points par xguru 2025-10-07 | 1 commentaires | Partager sur WhatsApp

Nouvelles Apps dans ChatGPT et Apps SDK

  • Une fonctionnalité permettant d’utiliser des applications conversationnelles directement dans ChatGPT a été dévoilée
  • Les nouvelles apps sont conçues pour fonctionner naturellement dans le flux de la conversation, et sont proposées automatiquement lorsque l’utilisateur en a besoin
    • Ex. : « Spotify, crée-moi une playlist pour une fête ce week-end » → l’app se lance automatiquement et fournit un résultat basé sur le contexte
    • Pendant une conversation liée à l’immobilier, l’app Zillow peut être suggérée pour afficher immédiatement une carte des biens correspondant au budget
    • Convertir en slides via Canva un plan créé pendant la conversation
    • Suivre un cours Coursera tout en demandant des explications complémentaires à ChatGPT
  • Les apps combinent commandes en langage naturel et interface visuelle, offrant une expérience plus intuitive que les web apps classiques
  • Les apps partenaires du premier lancement incluent Booking.com, Canva, Coursera, Figma, Expedia, Spotify, Zillow
    • 11 apps supplémentaires doivent être ajoutées d’ici la fin de l’année : Doordash, Khan Academy, Instacart, Peloton, OpenTable, target, Uber,...
  • La procédure de soumission et de validation des apps débutera en fin d’année, avec un déploiement progressif également prévu pour ChatGPT Business, Enterprise et Edu
  • Un répertoire d’apps fait son apparition pour permettre aux utilisateurs de parcourir et rechercher des apps, et celles au design et aux fonctionnalités remarquables bénéficieront de recommandations dans la conversation et d’une meilleure mise en avant
  • Apps SDK

    • Les développeurs peuvent créer et tester eux-mêmes des apps à l’aide de la version preview d’Apps SDK
    • Le SDK repose sur une architecture qui étend le Model Context Protocol (MCP) et permet de définir à la fois la logique et l’interface de l’app
    • Le SDK est publié en open source, ce qui permet de l’exécuter avec le même standard sur des plateformes autres que ChatGPT
    • Les développeurs peuvent le connecter directement à leur backend existant et prendre en charge l’authentification ainsi que l’accès à des fonctionnalités payantes
  • D’ici la fin de l’année, ChatGPT devrait aussi prendre en charge un modèle de monétisation des apps ainsi qu’une fonction de paiement immédiat basée sur l’Agentic Commerce Protocol
  • Ainsi, ChatGPT devrait évoluer au-delà du simple assistant conversationnel pour devenir une plateforme intégrée interagissant avec un écosystème d’apps

Présentation d’AgentKit – une boîte à outils complète pour développer, déployer et optimiser des agents

  • AgentKit est l’outil successeur de Responses API et Agents SDK, une plateforme unifiée qui simplifie la création d’agents et améliore leur fiabilité
  • Jusqu’ici, il fallait gérer séparément les connecteurs, pipelines d’évaluation, prompt tuning, construction du frontend, mais il est désormais possible de tout administrer dans un seul environnement
  • Agent Builder – outil visuel de conception de workflows

    • Agent Builder fournit un canvas visuel en glisser-déposer permettant de construire la logique d’un agent et d’en gérer les versions
    • Il est optimisé pour l’itération rapide, avec exécution en aperçu, configuration d’évaluations inline et mise en place de guardrails personnalisés
    • Ramp indique avoir finalisé en quelques heures une orchestration complexe qui prenait auparavant plusieurs mois, réduisant son cycle de développement de 70 % grâce à cet outil
    • Au Japon, LY Corporation a également construit son premier workflow multi-agent en 2 heures
    • Guardrails – protection des agents en toute sécurité

      • Les Guardrails constituent une couche de sécurité open source fournissant des fonctions de masquage des PII, détection de jailbreak et blocage des réponses anormales
      • La bibliothèque Guardrails pour Python et JavaScript peut être utilisée de manière autonome ou intégrée à Agent Builder
  • Connector Registry – gestion centralisée de l’intégration des données

    • Connector Registry est un panneau d’administration unifié qui centralise la gestion des connexions de données entre plusieurs workspaces et organisations
    • Il inclut des connecteurs natifs comme Dropbox, Google Drive, SharePoint, Microsoft Teams, ainsi que la prise en charge de MCP tiers
    • Les administrateurs peuvent gérer de manière centralisée les domaines, le SSO et les organisations API via la Global Admin Console, condition requise pour activer Connector Registry
  • ChatKit – boîte à outils avec UI conversationnelle intégrée

    • ChatKit est une boîte à outils permettant d’embarquer facilement une UI de chat pour agents dans un produit
    • Il prend automatiquement en charge les réponses en streaming, la gestion des fils de conversation et l’affichage du raisonnement du modèle
    • Il peut être intégré directement à un site web ou une app, avec une personnalisation du thème adaptée au design de la marque
    • Il est déjà utilisé dans divers scénarios comme les assistants de connaissance, guides d’onboarding et assistants de recherche, notamment pour l’agent de support client de HubSpot
  • Evals – renforcement des capacités de mesure des performances

    • Pour aider à construire des agents plus fiables, quatre nouvelles fonctionnalités ont été ajoutées à Evals
      • Datasets : construire et étendre rapidement des jeux d’évaluation à l’aide de correcteurs automatiques et d’annotations humaines
      • Trace grading : évaluer l’exécution d’un workflow complet afin de détecter automatiquement ses faiblesses
      • Automated prompt optimization : amélioration automatique des prompts à partir des résultats d’évaluation
      • Third-party model support : prise en charge de l’évaluation de modèles externes
  • Reinforcement Fine-Tuning renforcé

    • Le RFT permet aux développeurs d’ajuster les modèles de raisonnement d’OpenAI à des objectifs spécifiques
    • Il est généralement disponible sur le modèle o4-mini, tandis que le RFT pour GPT-5 est en bêta privée et déjà testé par plusieurs dizaines d’entreprises
    • Nouvelles fonctionnalités bêta
      • Custom tool calls : entraîner le modèle à appeler les bons outils au bon moment
      • Custom graders : définir des critères d’évaluation personnalisés adaptés à un cas d’usage précis
  • ChatKit et Evals sont disponibles en disponibilité générale pour tous les développeurs à partir d’aujourd’hui. Agent Builder et Connector Registry seront déployés progressivement en bêta et sont inclus dans la tarification standard des modèles API
    • Des options de déploiement d’agents dans ChatGPT ainsi qu’une Workflows API seront bientôt ajoutées

Lancement officiel de Codex – extension d’un agent de code unifié pour les équipes de développement

  • OpenAI annonce le lancement officiel de Codex, sa plateforme cloud d’agent de code, avec l’ajout de trois fonctionnalités clés : intégration Slack, Codex SDK et outils d’administration
  • Codex fonctionne de manière unifiée dans les environnements IDE, CLI et cloud, en s’appuyant sur le modèle GPT-5-Codex
    • Depuis son lancement, son usage quotidien a été multiplié par 10 par rapport à août, avec 40 trillions de tokens traités en trois semaines, ce qui en fait l’un des modèles à la croissance la plus rapide
  • Chez OpenAI aussi, plus de 70 % des ingénieurs de l’entreprise utilisent Codex, ce qui a permis d’augmenter de 70 % le volume hebdomadaire de fusion de PR, la majorité des code reviews étant effectuées automatiquement par Codex
  • Intégration Slack

    • En taguant @Codex dans un canal d’équipe, Codex récupère automatiquement le contexte de la conversation et choisit l’environnement approprié pour répondre
    • Les résultats sont reliés par un lien Codex Cloud, permettant de fusionner les changements, itérer dessus ou les télécharger en local
    • L’intégration Slack permet d’effectuer naturellement des code reviews, corrections automatiques et demandes d’exécution de builds dans un environnement de développement collaboratif
  • Codex SDK

    • Codex SDK est un kit de développement qui permet de réutiliser dans des applications externes l’implémentation open source de l’agent Codex CLI
    • Le SDK est d’abord disponible en TypeScript, avec la prise en charge d’autres langages prévue par la suite
    • Principales fonctionnalités
      • Parser les réponses de l’agent grâce à des sorties structurées
      • Gestion du contexte intégrée pour reprendre une session
      • Prise en charge de l’automatisation des pipelines CI/CD via l’intégration GitHub Action
      • Exécution directe dans un shell avec la commande codex exec
    • Instacart a intégré le SDK à sa plateforme Olive pour mettre en place un environnement de développement automatisé de bout en bout, constatant une réduction de la dette technique et une amélioration de la qualité du code
  • Renforcement des fonctions d’administration

    • Des fonctions de contrôle et suppression d’environnements permettent de gérer les données sensibles et de nettoyer les environnements inutiles
    • Un tableau de bord analyse l’usage de Codex et la qualité des code reviews sur CLI, IDE et web
    • Les administrateurs peuvent contrôler de manière centralisée les politiques et paramètres d’usage local de Codex, ce qui convient aux grandes organisations
    • Cisco indique avoir réduit jusqu’à 50 % le temps consacré aux revues de PR complexes grâce à Codex, permettant aux ingénieurs de se concentrer sur des tâches plus stratégiques
  • L’intégration Slack et Codex SDK sont disponibles immédiatement avec les offres ChatGPT Plus, Pro, Business, Edu et Enterprise
  • À partir du 20 octobre, la charge de travail Codex Cloud sera prise en compte dans le calcul d’usage
    • Offre Plus : environ 30 à 150 messages locaux ou 5 à 40 tâches cloud possibles toutes les 5 heures
    • Offre Pro : environ 300 à 1 500 messages locaux ou 50 à 400 tâches cloud possibles toutes les 5 heures
    • En cas de dépassement de quota, l’usage de Codex sera temporairement suspendu, puis de nouveau disponible après réinitialisation
    • Les Code Review ne sont temporairement pas comptabilisées dans l’usage
      • Seuls les cas utilisant le tag @codex review sur GitHub ou activant la fonction de revue automatique sont comptabilisés comme usage Code Review

Publication de l’API de génération vidéo avec Sora

  • Sora est le modèle de média génératif de nouvelle génération d’OpenAI, capable de produire des vidéos réalistes et dynamiques avec audio
  • Il a été développé à partir de recherches sur la diffusion multimodale (multi-modal diffusion), apprenant la perception de l’espace 3D, les mouvements de caméra et la cohérence des mouvements physiques
  • Les développeurs peuvent ainsi automatiser la création de contenu en texte→vidéo ou image→vidéo
  • La nouvelle Video API se compose de cinq endpoints principaux
    • Create video : créer une nouvelle tâche de rendu à partir d’un prompt texte ou d’une vidéo existante
    • Get video status : vérifier l’état d’avancement du rendu
    • Download video : télécharger la vidéo MP4 terminée
    • List videos : gérer la liste des vidéos générées avec prise en charge de la pagination
    • Delete videos : supprimer une vidéo spécifique du stockage
  • L’API permet d’automatiser par programmation la génération, la gestion, l’extension et le remix de vidéos
  • Types de modèles

    • Sora 2 – pour l’itération rapide et l’expérimentation

      • Modèle axé sur la vitesse et la flexibilité, adapté aux tests de concepts ou à la production de rough cuts
      • Il permet d’obtenir rapidement des résultats, utiles pour produire des contenus pour les réseaux sociaux ou des vidéos prototypes
      • L’accent est mis moins sur la qualité parfaite que sur l’exploration d’idées et la validation d’une direction visuelle
    • Sora 2 Pro – pour la production haute qualité

      • Modèle conçu pour viser un niveau de finition cinématographique
      • Le rendu est plus lent et plus coûteux, mais la stabilité et le niveau de détail des vidéos progressent nettement
      • Il convient aux vidéos marketing haute résolution, aux assets de marque et à la création de scènes au style cinématographique

GPT-5 Pro disponible via l’API

  • GPT-5 Pro est le modèle de raisonnement le plus avancé d’OpenAI, utilisant davantage de calcul afin de produire des réponses plus sophistiquées et plus précises
  • Il est plus lent que GPT-5 standard, mais offre de meilleures capacités de résolution de problèmes complexes et une qualité plus constante
  • C’est un modèle exclusivement pour Responses API, prenant en charge les requêtes conversationnelles multi-turn et les fonctionnalités API avancées, et ne prenant en charge que le mode reasoning.effort: high
  • Il ne prend pas en charge Code Interpreter ni le streaming en temps réel
  • Les requêtes complexes peuvent nécessiter plusieurs minutes de traitement, et l’usage du Background Mode est recommandé pour les longues exécutions
  • Fenêtre de contexte de 400 000 tokens, sortie maximale de 272 000 tokens, Knowledge Cutoff au 30 septembre 2024
  • Tarification (Pricing) : par million de tokens
    • Entrée (Input) : $15.00 (y compris l’entrée image)
    • Sortie (Output) : $120.00

Modèle GPT Realtime Mini pour des services vocaux à bas coût

  • GPT-Realtime-Mini est une version rapide et low cost du modèle conversationnel temps réel, prenant en charge les entrées texte, image et audio et générant des sorties texte et audio
  • Via WebRTC, WebSocket et SIP, il permet des réactions vocales et textuelles en temps réel, avec un coût d’exploitation plus de 6 fois inférieur à gpt-realtime
  • Fenêtre de contexte de 32 000 tokens, sortie maximale de 4 096 tokens, Knowledge Cutoff au 1er octobre 2023
  • Tarification (Pricing) : par million de tokens
    • Tokens texte
      • Entrée (Input) : $0.60
      • Entrée mise en cache (Cached input) : $0.06
      • Sortie (Output) : $2.40
      • Comparaison avec les modèles existants
        • Entrée : gpt-realtime: $4 , GPT-5: $1.25, gpt-realtime-mini: $0.60 (le moins cher)
        • Sortie : gpt-realtime: $16 , GPT-5: $10, gpt-realtime-mini: $2.4 (le moins cher)
    • Tokens audio
      • Entrée (Input) : $10
      • Entrée mise en cache (Cached input) : $0.3
      • Sortie : $20
    • Tokens image
      • Entrée : $0.8
      • Entrée mise en cache : $0.08

Modèle GPT Image 1 Mini

  • GPT-Image-1-Mini est une version low cost de GPT Image 1, un modèle multimodal qui reçoit du texte et des images en entrée pour générer une sortie image
  • Davantage axé sur l’efficacité et le faible coût que sur la qualité maximale, il convient à la génération d’images en volume ou au prototypage visuel
  • Entrées texte et image possibles, sortie uniquement image
  • La vitesse est plus lente, mais le rapport performance/coût est élevé
  • Tarification (Pricing) : par million de tokens
    • Tokens texte
      • Entrée (Input) : $2.00
      • Entrée mise en cache (Cached input) : $0.20
      • Sortie (Output) : $8.00
      • Comparaison avec le modèle existant
        • Entrée : GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (environ 60 % d’économie)
        • Sortie : GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (environ 60 % d’économie)
    • Tokens image
      • Entrée (Input) : $2.50
      • Entrée mise en cache (Cached input) : $0.25
      • Sortie (Output) : $8.00
    • Génération d’image (pour 1 image)
      • Qualité Low
        • 1024×1024: $0.005
        • 1024×1536: $0.006
        • 1536×1024: $0.006
      • Qualité Medium
        • 1024×1024: $0.011
        • 1024×1536: $0.015
        • 1536×1024: $0.015

1 commentaires

 
laeyoung 2025-10-08

Même sur Hacker News, c’est plus calme que prévu. C’est peut-être parce qu’ils dévoilent et lancent des choses petit à petit, au compte-gouttes.