21 points par xguru 2025-03-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Recherche web : recherche les informations les plus récentes sur le Web et renvoie les URL citées
  • Recherche de fichiers : recherche sémantique/par mots-clés dans la liste des fichiers téléversés
  • Computer Use : contrôle un ordinateur et exécute des tâches
  • Responses API : interface de réponse intégrée avancée. Accepte des entrées texte/image et permet d’utiliser à la fois la recherche web, la recherche de fichiers et les fonctionnalités CUA
  • Agents SDK : framework d’orchestration pour le développement d’agents
  • Certains développeurs/entreprises éligibles peuvent aider OpenAI à améliorer les modèles en partageant leurs prompts avec l’entreprise
    • Jusqu’à fin avril de cette année, utilisation gratuite jusqu’à 1 million de tokens par jour pour gpt-4.5-preview, gpt-4o, o1, et jusqu’à 10 millions de tokens pour gpt-4o-mini, o1-mini, o3-mini
    • L’éligibilité peut être vérifiée dans le tableau de bord développeur d’OpenAI

Web Search

  • Permet de rechercher directement des informations sur le Web afin de fournir des informations à jour dans ChatGPT
  • Les modèles finement ajustés et l’outil de recherche peuvent être utilisés directement via la Chat Completions API
  • Mode d’utilisation de la recherche web dans la Chat Completions API
    • Le modèle recherche toujours les informations les plus récentes sur le Web avant de répondre
    • Pour n’utiliser l’outil de recherche web (web_search_preview) qu’en cas de besoin, il faut passer à la Responses API
  • Modèles compatibles avec la recherche web
    • gpt-4o-search-preview
    • gpt-4o-mini-search-preview

File Search

  • Permet au modèle de rechercher des informations pertinentes dans les fichiers de l’utilisateur avant de générer une réponse
  • Disponible dans la Responses API, avec récupération d’informations via recherche sémantique et recherche par mots-clés dans la base de connaissances des fichiers téléversés
  • Utilisation du Vector Store et de la recherche sémantique
    • En créant un Vector Store et en y téléversant des fichiers, il est possible d’étendre les connaissances de base du modèle
    • Il s’agit d’un outil géré par OpenAI, sans nécessité d’implémenter soi-même le code
    • Si le modèle le juge nécessaire, il appelle automatiquement l’outil pour rechercher des informations dans les fichiers et générer une réponse
  • Mode d’emploi
    • Il faut d’abord configurer la base de connaissances dans un Vector Store et téléverser les fichiers
    • Une fois le Vector Store configuré, il est possible d’ajouter l’outil file_search à la liste des outils utilisables par le modèle
    • Pour l’instant, la recherche ne peut se faire que dans un seul Vector Store à la fois (un seul identifiant de Vector Store est accepté)

Computer Use

  • Basé sur le modèle Computer-Using Agent (CUA), capable d’effectuer des tâches sur l’ordinateur de l’utilisateur
  • Combine les capacités de vision de GPT-4o et son raisonnement avancé pour contrôler une interface informatique et exécuter des tâches
  • Disponible via la Responses API, non pris en charge dans Chat Completions
  • Actuellement en bêta, avec des risques de vulnérabilités ou d’erreurs. Son usage est déconseillé dans des environnements entièrement authentifiés ou pour des tâches critiques
  • Fonctionnement
    • Le modèle envoie des commandes d’action sur l’ordinateur comme clic(x, y), saisie(text), etc.
    • Le code de l’utilisateur exécute ces actions dans un environnement informatique ou navigateur et renvoie une capture d’écran du résultat
    • Le modèle comprend l’état de l’environnement à partir de la capture d’écran et propose l’action suivante
    • Une boucle continue permet d’automatiser diverses actions comme cliquer, saisir du texte ou faire défiler l’écran
  • Exemples d’usage : réservation de vols, recherche de produits, remplissage de formulaires

Responses API

  • L’interface de modèle la plus avancée d’OpenAI
  • Prend en charge les entrées texte et image et génère des sorties texte
  • Offre des interactions avec maintien d’état, où la sortie d’une réponse précédente peut être utilisée comme entrée suivante
  • Fonctionnalités extensibles
    • Les capacités du modèle peuvent être étendues via des outils intégrés
      • File Search – permet la recherche sémantique et par mots-clés dans les fichiers téléversés
      • Web Search – permet de rechercher des informations web récentes
      • Computer Use – permet de contrôler une interface informatique et d’automatiser des tâches
    • Function Calling – permet d’accéder à des systèmes et données externes
      • Permet d’appeler des fonctions Python et d’interagir avec des systèmes externes

Agents SDK

  • Permet de développer des applications IA basées sur des agents avec un package simple et facile à utiliser, sans abstractions complexes
  • Version de niveau production améliorée de l’ancienne plateforme expérimentale Swarm
  • Principaux composants (primitives) :
    • Agents – agents basés sur des LLM, avec instructions et outils
    • Handoffs – délègue une tâche spécifique à un autre agent
    • Guardrails – validation et filtrage des entrées de l’agent
  • Intégration Python et fonctions puissantes
    • Avec Python, permet de définir de puissantes relations entre outils et de mettre en œuvre des workflows complexes
    • Inclut des fonctions de tracing pour la visualisation et le débogage
    • Prend en charge l’évaluation, le débogage et même le fine-tuning des modèles
  • Principales caractéristiques de l’Agents SDK
    • Principes de conception
      • Suffisamment puissant en fonctionnalités, tout en restant rapide à prendre en main grâce à une faible courbe d’apprentissage
      • Excellentes performances par défaut, avec possibilité d’affiner les réglages si nécessaire
    • Fonctionnalités de base
      • Agent Loop : boucle intégrée qui gère automatiquement l’appel d’outils → le traitement des résultats → la génération de réponse par le LLM → la terminaison
      • Conception Python-first : permet de connecter et d’orchestrer des agents en s’appuyant directement sur les fonctionnalités du langage Python
      • Handoffs : permet la délégation et la coordination des tâches entre plusieurs agents
      • Guardrails : effectue la validation des entrées et des vérifications en parallèle, avec possibilité d’arrêt anticipé en cas d’erreur
      • Function Tools : transforme automatiquement des fonctions Python en outils → génération et validation automatiques du schéma
      • Tracing : permet de visualiser les workflows, déboguer, évaluer et améliorer grâce à une fonctionnalité de tracing intégrée

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.