12 points par xguru 2024-10-03 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Annonces majeures

  • La Realtime API, qui permet d’implémenter dans une application des fonctionnalités similaires au mode vocal avancé de ChatGPT
  • Relèvement de la limite de débit du modèle o1 au niveau de GPT-4o (10 000 requêtes par minute)
  • Baisse du prix de l’API GPT-4o grâce à la mise en cache automatique des prompts. 50 % moins cher pour les appels répétés, sans développement supplémentaire
  • API de fine-tuning multimodal
  • De l’an dernier à cette année, le nombre d’applications actives sur la plateforme OpenAI a triplé, et le nombre de développeurs actifs atteint 3 millions

Aperçu du modèle o1

  • OpenAI a lancé o1, un nouveau modèle de raisonnement
  • o1 est classé dans une nouvelle famille de modèles, distincte du GPT-4o existant
  • OpenAI estime que l’avenir passera par le développement de plusieurs modèles adaptés à différents cas d’usage
  • o1 excelle dans la réflexion de type chaîne de pensée, ce qui le rend bien adapté aux tâches de programmation, mais il est plus lent et plus coûteux
  • La plupart des prompts n’ont pas besoin des capacités de raisonnement avancé d’o1, donc o1 ne deviendra pas le modèle par défaut
  • Romain Huet, responsable des relations développeurs chez OpenAI, a présenté une démonstration où il crée une app iPhone de bout en bout en 30 secondes à partir d’un seul prompt avec o1
  • Il a également apporté un drone sur scène et montré une démo où il créait une web app pour piloter le drone devant le public
  • Ces démonstrations auraient aussi été possibles avec les précédents modèles GPT, mais avec o1 elles peuvent être réalisées bien plus rapidement
  • o1 donne un aperçu d’un futur où l’on peut passer de l’idée à l’application en 1 à 2 minutes

API vocale conversationnelle en temps réel

  • La fonctionnalité la plus impressionnante lancée par OpenAI est la Realtime API, qui permet aux développeurs d’implémenter dans leurs applications des fonctionnalités similaires au mode vocal avancé de ChatGPT
  • Les développeurs peuvent envoyer l’audio enregistré aux serveurs d’OpenAI et recevoir en temps réel une réponse audio, une transcription et des appels de fonction
  • La Realtime API est disponible dès aujourd’hui en bêta publique, et prendra en charge à l’avenir davantage de formats, comme la vidéo
  • La Realtime API coûte 0,06 dollar par minute pour l’entrée audio et 0,24 dollar par minute pour la sortie audio, soit 0,15 dollar au total (en supposant un volume identique en entrée et en sortie)
  • C’est plus cher que le service voice-to-voice d’ElevenLabs, qui revient à environ 0,11 dollar par minute, mais chez ElevenLabs on n’est pas facturé à l’usage et il faut acheter un volume d’heures mensuel déterminé
  • La voix en temps réel ouvre de nombreux nouveaux cas d’usage, comme de meilleurs assistants de lecture ou des cours de langue plus immersifs

Outils de fine-tuning

  • OpenAI prend au sérieux l’idée qu’utiliser plusieurs modèles est préférable à l’utilisation d’un seul grand modèle
  • L’entreprise aide les sociétés à créer des versions personnalisées de GPT-4o adaptées à leurs cas d’usage
  • OpenAI imagine un futur où chaque entreprise disposera d’un modèle fine-tuné capable d’accéder à ses propres données

API de fine-tuning d’images

  • Tout le monde peut fine-tuner GPT-4o avec ses propres données d’image
  • Par exemple, si vous travaillez dans le domaine médical et souhaitez affiner la capacité de GPT-4o à lire et annoter des IRM, vous pouvez utiliser cette API

Outils de distillation de modèles

  • OpenAI lance deux outils pour améliorer la distillation de modèles, c’est-à-dire le processus qui consiste à créer des versions plus petites, plus rapides et moins coûteuses des foundation models, construites pour des cas d’usage spécifiques
  • L’entreprise facilite la distillation en ajoutant au Developer Playground une fonctionnalité qui enregistre les interactions API précédentes et permet de les réutiliser comme données pour le fine-tuning
  • Elle ajoute également un outil Evals dans le Playground pour permettre aux développeurs d’évaluer les performances de leurs modèles fine-tunés

Réduction de 50 % du coût des appels API répétés grâce au prompt caching

  • OpenAI lance une nouvelle fonctionnalité de prompt caching qui détecte les appels API répétés et renvoie des réponses déjà générées
  • Cette fonctionnalité est activée automatiquement dès aujourd’hui et permet aux développeurs de réduire de 50 % le coût de nombreux appels API, sans travail supplémentaire
  • Elle s’inscrit dans la tendance d’OpenAI à rendre progressivement l’usage de son API moins coûteux, dans un contexte de concurrence
  • C’est une bonne nouvelle pour les développeurs, mais cela crée une dynamique intéressante avec Microsoft, le plus grand partenaire d’OpenAI
  • Microsoft a fait pression sur les grandes entreprises pour qu’elles préachètent un certain volume d’appels à l’API GPT-4 afin de garantir leur capacité
  • On peut se demander comment Microsoft et ses clients déjà engagés sur des achats anticipés percevront ces baisses de prix

La stratégie d’OpenAI

1. Miser sur plusieurs modèles adaptés à des cas d’usage variés

  • OpenAI estime que les applications les plus efficaces utiliseront plusieurs modèles ensemble, plutôt qu’un seul modèle pour tout faire
  • Les développeurs peuvent combiner des modèles forts en raisonnement comme o1 avec des modèles performants sur le contexte long ou les prompts d’image comme GPT-4o, afin d’offrir une expérience cohérente aux utilisateurs

2. o1 est une étape importante vers des agents capables d’agir de manière autonome

  • Les agents font depuis longtemps partie des applications IA les plus séduisantes, mais les précédents modèles GPT fonctionnaient mal dès qu’on essayait de leur faire résoudre des tâches par eux-mêmes
  • Grâce à sa capacité à réfléchir sur son propre processus de pensée et à planifier les étapes suivantes, o1 devrait jouer un rôle clé dans la création de véritables agents autonomes

3. Les développeurs disposent désormais d’une quantité énorme de technologies pour créer des expériences incroyables pour les utilisateurs

  • Il est facile d’oublier qu’il y a seulement quelques années, rien de ce qui a été montré aujourd’hui n’était possible, ou même n’attirait l’attention
  • Aujourd’hui, même un développeur solo qui crée des apps sur son temps libre peut accomplir des choses qu’une équipe de développement entière n’aurait pas pu réaliser auparavant

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.