- Recherche web : recherche les informations les plus récentes sur le Web et renvoie les URL citées
- Recherche de fichiers : recherche sémantique/par mots-clés dans la liste des fichiers téléversés
- Computer Use : contrôle un ordinateur et exécute des tâches
- Responses API : interface de réponse intégrée avancée. Accepte des entrées texte/image et permet d’utiliser à la fois la recherche web, la recherche de fichiers et les fonctionnalités CUA
- Agents SDK : framework d’orchestration pour le développement d’agents
- Certains développeurs/entreprises éligibles peuvent aider OpenAI à améliorer les modèles en partageant leurs prompts avec l’entreprise
- Jusqu’à fin avril de cette année, utilisation gratuite jusqu’à 1 million de tokens par jour pour
gpt-4.5-preview, gpt-4o, o1, et jusqu’à 10 millions de tokens pour gpt-4o-mini, o1-mini, o3-mini
- L’éligibilité peut être vérifiée dans le tableau de bord développeur d’OpenAI
- Permet de rechercher directement des informations sur le Web afin de fournir des informations à jour dans ChatGPT
- Les modèles finement ajustés et l’outil de recherche peuvent être utilisés directement via la Chat Completions API
- Mode d’utilisation de la recherche web dans la Chat Completions API
- Le modèle recherche toujours les informations les plus récentes sur le Web avant de répondre
- Pour n’utiliser l’outil de recherche web (
web_search_preview) qu’en cas de besoin, il faut passer à la Responses API
- Modèles compatibles avec la recherche web
gpt-4o-search-preview
gpt-4o-mini-search-preview
- Permet au modèle de rechercher des informations pertinentes dans les fichiers de l’utilisateur avant de générer une réponse
- Disponible dans la Responses API, avec récupération d’informations via recherche sémantique et recherche par mots-clés dans la base de connaissances des fichiers téléversés
- Utilisation du Vector Store et de la recherche sémantique
- En créant un Vector Store et en y téléversant des fichiers, il est possible d’étendre les connaissances de base du modèle
- Il s’agit d’un outil géré par OpenAI, sans nécessité d’implémenter soi-même le code
- Si le modèle le juge nécessaire, il appelle automatiquement l’outil pour rechercher des informations dans les fichiers et générer une réponse
- Mode d’emploi
- Il faut d’abord configurer la base de connaissances dans un Vector Store et téléverser les fichiers
- Une fois le Vector Store configuré, il est possible d’ajouter l’outil file_search à la liste des outils utilisables par le modèle
- Pour l’instant, la recherche ne peut se faire que dans un seul Vector Store à la fois (un seul identifiant de Vector Store est accepté)
- Basé sur le modèle Computer-Using Agent (CUA), capable d’effectuer des tâches sur l’ordinateur de l’utilisateur
- Combine les capacités de vision de GPT-4o et son raisonnement avancé pour contrôler une interface informatique et exécuter des tâches
- Disponible via la Responses API, non pris en charge dans Chat Completions
- Actuellement en bêta, avec des risques de vulnérabilités ou d’erreurs. Son usage est déconseillé dans des environnements entièrement authentifiés ou pour des tâches critiques
- Fonctionnement
- Le modèle envoie des commandes d’action sur l’ordinateur comme clic(x, y), saisie(text), etc.
- Le code de l’utilisateur exécute ces actions dans un environnement informatique ou navigateur et renvoie une capture d’écran du résultat
- Le modèle comprend l’état de l’environnement à partir de la capture d’écran et propose l’action suivante
- Une boucle continue permet d’automatiser diverses actions comme cliquer, saisir du texte ou faire défiler l’écran
- Exemples d’usage : réservation de vols, recherche de produits, remplissage de formulaires
- L’interface de modèle la plus avancée d’OpenAI
- Prend en charge les entrées texte et image et génère des sorties texte
- Offre des interactions avec maintien d’état, où la sortie d’une réponse précédente peut être utilisée comme entrée suivante
- Fonctionnalités extensibles
- Les capacités du modèle peuvent être étendues via des outils intégrés
- File Search – permet la recherche sémantique et par mots-clés dans les fichiers téléversés
- Web Search – permet de rechercher des informations web récentes
- Computer Use – permet de contrôler une interface informatique et d’automatiser des tâches
- Function Calling – permet d’accéder à des systèmes et données externes
- Permet d’appeler des fonctions Python et d’interagir avec des systèmes externes
- Permet de développer des applications IA basées sur des agents avec un package simple et facile à utiliser, sans abstractions complexes
- Version de niveau production améliorée de l’ancienne plateforme expérimentale Swarm
- Principaux composants (primitives) :
- Agents – agents basés sur des LLM, avec instructions et outils
- Handoffs – délègue une tâche spécifique à un autre agent
- Guardrails – validation et filtrage des entrées de l’agent
- Intégration Python et fonctions puissantes
- Avec Python, permet de définir de puissantes relations entre outils et de mettre en œuvre des workflows complexes
- Inclut des fonctions de tracing pour la visualisation et le débogage
- Prend en charge l’évaluation, le débogage et même le fine-tuning des modèles
- Principales caractéristiques de l’Agents SDK
- Principes de conception
- Suffisamment puissant en fonctionnalités, tout en restant rapide à prendre en main grâce à une faible courbe d’apprentissage
- Excellentes performances par défaut, avec possibilité d’affiner les réglages si nécessaire
- Fonctionnalités de base
- Agent Loop : boucle intégrée qui gère automatiquement l’appel d’outils → le traitement des résultats → la génération de réponse par le LLM → la terminaison
- Conception Python-first : permet de connecter et d’orchestrer des agents en s’appuyant directement sur les fonctionnalités du langage Python
- Handoffs : permet la délégation et la coordination des tâches entre plusieurs agents
- Guardrails : effectue la validation des entrées et des vérifications en parallèle, avec possibilité d’arrêt anticipé en cas d’erreur
- Function Tools : transforme automatiquement des fonctions Python en outils → génération et validation automatiques du schéma
- Tracing : permet de visualiser les workflows, déboguer, évaluer et améliorer grâce à une fonctionnalité de tracing intégrée
Aucun commentaire pour le moment.