OpenAI dévoile des outils pour développeurs destinés à créer des agents IA

xguru · 2025-03-12T09:08:31+09:00

Recherche web : recherche les informations les plus récentes sur le Web et renvoie les URL citées Recherche de fichiers : recherche sémantique/par mots-clés dans la liste des fichiers téléversés Computer Use : contrôle un ordinateur et exécute des tâches Responses API : interface de réponse intégrée avancée. Accepte des entrées texte/image et permet d’utiliser à la fois la recherche web, la recherche de fichiers et les fonctionnalités CUA Agents SDK : framework d’orchestration pour le développement d’agents Certains développeurs/entreprises éligibles peuvent aider OpenAI à améliorer les modèles en partageant leurs prompts avec l’entreprise Jusqu’à fin avril de cette année, utilisation gratuite jusqu’à 1 million de tokens par jour pour gpt-4.5-preview, gpt-4o, o1, et jusqu’à 10 millions de tokens pour gpt-4o-mini, o1-mini, o3-mini L’éligibilité peut être vérifiée dans le tableau de bord développeur d’OpenAI Présentation d’OpenAI : New tools for building agents Web Search Permet de rechercher directement des informations sur le Web afin de fournir des informations à jour dans ChatGPT Les modèles finement ajustés et l’outil de recherche peuvent être utilisés directement via la Chat Completions API Mode d’utilisation de la recherche web dans la Chat Completions API Le modèle recherche toujours les informations les plus récentes sur le Web avant de répondre Pour n’utiliser l’outil de recherche web (web_search_preview) qu’en cas de besoin, il faut passer à la Responses API Modèles compatibles avec la recherche web gpt-4o-search-preview gpt-4o-mini-search-preview File Search Permet au modèle de rechercher des informations pertinentes dans les fichiers de l’utilisateur avant de générer une réponse Disponible dans la Responses API, avec récupération d’informations via recherche sémantique et recherche par mots-clés dans la base de connaissances des fichiers téléversés Utilisation du Vector Store et de la recherche sémantique En créant un Vector Store et en y téléversant des fichiers, il est possible d’étendre les connaissances de base du modèle Il s’agit d’un outil géré par OpenAI, sans nécessité d’implémenter soi-même le code Si le modèle le juge nécessaire, il appelle automatiquement l’outil pour rechercher des informations dans les fichiers et générer une réponse Mode d’emploi Il faut d’abord configurer la base de connaissances dans un Vector Store et téléverser les fichiers Une fois le Vector Store configuré, il est possible d’ajouter l’outil file_search à la liste des outils utilisables par le modèle Pour l’instant, la recherche ne peut se faire que dans un seul Vector Store à la fois (un seul identifiant de Vector Store est accepté) Computer Use Basé sur le modèle Computer-Using Agent (CUA), capable d’effectuer des tâches sur l’ordinateur de l’utilisateur Combine les capacités de vision de GPT-4o et son raisonnement avancé pour contrôler une interface informatique et exécuter des tâches Disponible via la Responses API, non pris en charge dans Chat Completions Actuellement en bêta, avec des risques de vulnérabilités ou d’erreurs. Son usage est déconseillé dans des environnements entièrement authentifiés ou pour des tâches critiques Fonctionnement Le modèle envoie des commandes d’action sur l’ordinateur comme clic(x, y), saisie(text), etc. Le code de l’utilisateur exécute ces actions dans un environnement informatique ou navigateur et renvoie une capture d’écran du résultat Le modèle comprend l’état de l’environnement à partir de la capture d’écran et propose l’action suivante Une boucle continue permet d’automatiser diverses actions comme cliquer, saisir du texte ou faire défiler l’écran Exemples d’usage : réservation de vols, recherche de produits, remplissage de formulaires Responses API L’interface de modèle la plus avancée d’OpenAI Prend en charge les entrées texte et image et génère des sorties texte Offre des interactions avec maintien d’état, où la sortie d’une réponse précédente peut être utilisée comme entrée suivante Fonctionnalités extensibles Les capacités du modèle peuvent être étendues via des outils intégrés File Search – permet la recherche sémantique et par mots-clés dans les fichiers téléversés Web Search – permet de rechercher des informations web récentes Computer Use – permet de contrôler une interface informatique et d’automatiser des tâches Function Calling – permet d’accéder à des systèmes et données externes Permet d’appeler des fonctions Python et d’interagir avec des systèmes externes Agents SDK Permet de développer des applications IA basées sur des agents avec un package simple et facile à utiliser, sans abstractions complexes Version de niveau production améliorée de l’ancienne plateforme expérimentale Swarm Principaux composants (primitives) : Agents – agents basés sur des LLM, avec instructions et outils Handoffs – délègue une tâche spécifique à un autre agent Guardrails – validation et filtrage des entrées de l’agent Intégration Python et fonctions puissantes Avec Python, permet de définir de puissantes relations entre outils et de mettre en œuvre des workflows complexes Inclut des fonctions de tracing pour la visualisation et le débogage Prend en charge l’évaluation, le débogage et même le fine-tuning des modèles Principales caractéristiques de l’Agents SDK Principes de conception Suffisamment puissant en fonctionnalités, tout en restant rapide à prendre en main grâce à une faible courbe d’apprentissage Excellentes performances par défaut, avec possibilité d’affiner les réglages si nécessaire Fonctionnalités de base Agent Loop : boucle intégrée qui gère automatiquement l’appel d’outils → le traitement des résultats → la génération de réponse par le LLM → la terminaison Conception Python-first : permet de connecter et d’orchestrer des agents en s’appuyant directement sur les fonctionnalités du langage Python Handoffs : permet la délégation et la coordination des tâches entre plusieurs agents Guardrails : effectue la validation des entrées et des vérifications en parallèle, avec possibilité d’arrêt anticipé en cas d’erreur Function Tools : transforme automatiquement des fonctions Python en outils → génération et validation automatiques du schéma Tracing : permet de visualiser les workflows, déboguer, évaluer et améliorer grâce à une fonctionnalité de tracing intégrée

(x.com/OpenAIDevs)

21 points par xguru 2025-03-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Recherche web : recherche les informations les plus récentes sur le Web et renvoie les URL citées
Recherche de fichiers : recherche sémantique/par mots-clés dans la liste des fichiers téléversés
Computer Use : contrôle un ordinateur et exécute des tâches
Responses API : interface de réponse intégrée avancée. Accepte des entrées texte/image et permet d’utiliser à la fois la recherche web, la recherche de fichiers et les fonctionnalités CUA
Agents SDK : framework d’orchestration pour le développement d’agents

Certains développeurs/entreprises éligibles peuvent aider OpenAI à améliorer les modèles en partageant leurs prompts avec l’entreprise
- Jusqu’à fin avril de cette année, utilisation gratuite jusqu’à 1 million de tokens par jour pour gpt-4.5-preview, gpt-4o, o1, et jusqu’à 10 millions de tokens pour gpt-4o-mini, o1-mini, o3-mini
- L’éligibilité peut être vérifiée dans le tableau de bord développeur d’OpenAI

Présentation d’OpenAI : New tools for building agents

Web Search

Permet de rechercher directement des informations sur le Web afin de fournir des informations à jour dans ChatGPT
Les modèles finement ajustés et l’outil de recherche peuvent être utilisés directement via la Chat Completions API
Mode d’utilisation de la recherche web dans la Chat Completions API
- Le modèle recherche toujours les informations les plus récentes sur le Web avant de répondre
- Pour n’utiliser l’outil de recherche web (web_search_preview) qu’en cas de besoin, il faut passer à la Responses API
Modèles compatibles avec la recherche web
- gpt-4o-search-preview
- gpt-4o-mini-search-preview

File Search

Permet au modèle de rechercher des informations pertinentes dans les fichiers de l’utilisateur avant de générer une réponse
Disponible dans la Responses API, avec récupération d’informations via recherche sémantique et recherche par mots-clés dans la base de connaissances des fichiers téléversés
Utilisation du Vector Store et de la recherche sémantique
- En créant un Vector Store et en y téléversant des fichiers, il est possible d’étendre les connaissances de base du modèle
- Il s’agit d’un outil géré par OpenAI, sans nécessité d’implémenter soi-même le code
- Si le modèle le juge nécessaire, il appelle automatiquement l’outil pour rechercher des informations dans les fichiers et générer une réponse
Mode d’emploi
- Il faut d’abord configurer la base de connaissances dans un Vector Store et téléverser les fichiers
- Une fois le Vector Store configuré, il est possible d’ajouter l’outil file_search à la liste des outils utilisables par le modèle
- Pour l’instant, la recherche ne peut se faire que dans un seul Vector Store à la fois (un seul identifiant de Vector Store est accepté)

Computer Use

Basé sur le modèle Computer-Using Agent (CUA), capable d’effectuer des tâches sur l’ordinateur de l’utilisateur
Combine les capacités de vision de GPT-4o et son raisonnement avancé pour contrôler une interface informatique et exécuter des tâches
Disponible via la Responses API, non pris en charge dans Chat Completions
Actuellement en bêta, avec des risques de vulnérabilités ou d’erreurs. Son usage est déconseillé dans des environnements entièrement authentifiés ou pour des tâches critiques
Fonctionnement
- Le modèle envoie des commandes d’action sur l’ordinateur comme clic(x, y), saisie(text), etc.
- Le code de l’utilisateur exécute ces actions dans un environnement informatique ou navigateur et renvoie une capture d’écran du résultat
- Le modèle comprend l’état de l’environnement à partir de la capture d’écran et propose l’action suivante
- Une boucle continue permet d’automatiser diverses actions comme cliquer, saisir du texte ou faire défiler l’écran
Exemples d’usage : réservation de vols, recherche de produits, remplissage de formulaires

Responses API

L’interface de modèle la plus avancée d’OpenAI
Prend en charge les entrées texte et image et génère des sorties texte
Offre des interactions avec maintien d’état, où la sortie d’une réponse précédente peut être utilisée comme entrée suivante
Fonctionnalités extensibles
- Les capacités du modèle peuvent être étendues via des outils intégrés
  - File Search – permet la recherche sémantique et par mots-clés dans les fichiers téléversés
  - Web Search – permet de rechercher des informations web récentes
  - Computer Use – permet de contrôler une interface informatique et d’automatiser des tâches
- Function Calling – permet d’accéder à des systèmes et données externes
  - Permet d’appeler des fonctions Python et d’interagir avec des systèmes externes

Agents SDK

Permet de développer des applications IA basées sur des agents avec un package simple et facile à utiliser, sans abstractions complexes
Version de niveau production améliorée de l’ancienne plateforme expérimentale Swarm
Principaux composants (primitives) :
- Agents – agents basés sur des LLM, avec instructions et outils
- Handoffs – délègue une tâche spécifique à un autre agent
- Guardrails – validation et filtrage des entrées de l’agent
Intégration Python et fonctions puissantes
- Avec Python, permet de définir de puissantes relations entre outils et de mettre en œuvre des workflows complexes
- Inclut des fonctions de tracing pour la visualisation et le débogage
- Prend en charge l’évaluation, le débogage et même le fine-tuning des modèles
Principales caractéristiques de l’Agents SDK
- Principes de conception
  - Suffisamment puissant en fonctionnalités, tout en restant rapide à prendre en main grâce à une faible courbe d’apprentissage
  - Excellentes performances par défaut, avec possibilité d’affiner les réglages si nécessaire
- Fonctionnalités de base
  - Agent Loop : boucle intégrée qui gère automatiquement l’appel d’outils → le traitement des résultats → la génération de réponse par le LLM → la terminaison
  - Conception Python-first : permet de connecter et d’orchestrer des agents en s’appuyant directement sur les fonctionnalités du langage Python
  - Handoffs : permet la délégation et la coordination des tâches entre plusieurs agents
  - Guardrails : effectue la validation des entrées et des vérifications en parallèle, avec possibilité d’arrêt anticipé en cas d’erreur
  - Function Tools : transforme automatiquement des fonctions Python en outils → génération et validation automatiques du schéma
  - Tracing : permet de visualiser les workflows, déboguer, évaluer et améliorer grâce à une fonctionnalité de tracing intégrée