Tout ce qu’OpenAI a annoncé à la DevDay

xguru · 2024-10-03T10:20:02+09:00

Annonces majeures La Realtime API, qui permet d’implémenter dans une application des fonctionnalités similaires au mode vocal avancé de ChatGPT Relèvement de la limite de débit du modèle o1 au niveau de GPT-4o (10 000 requêtes par minute) Baisse du prix de l’API GPT-4o grâce à la mise en cache automatique des prompts. 50 % moins cher pour les appels répétés, sans développement supplémentaire API de fine-tuning multimodal De l’an dernier à cette année, le nombre d’applications actives sur la plateforme OpenAI a triplé, et le nombre de développeurs actifs atteint 3 millions Aperçu du modèle o1 OpenAI a lancé o1, un nouveau modèle de raisonnement o1 est classé dans une nouvelle famille de modèles, distincte du GPT-4o existant OpenAI estime que l’avenir passera par le développement de plusieurs modèles adaptés à différents cas d’usage o1 excelle dans la réflexion de type chaîne de pensée, ce qui le rend bien adapté aux tâches de programmation, mais il est plus lent et plus coûteux La plupart des prompts n’ont pas besoin des capacités de raisonnement avancé d’o1, donc o1 ne deviendra pas le modèle par défaut Romain Huet, responsable des relations développeurs chez OpenAI, a présenté une démonstration où il crée une app iPhone de bout en bout en 30 secondes à partir d’un seul prompt avec o1 Il a également apporté un drone sur scène et montré une démo où il créait une web app pour piloter le drone devant le public Ces démonstrations auraient aussi été possibles avec les précédents modèles GPT, mais avec o1 elles peuvent être réalisées bien plus rapidement o1 donne un aperçu d’un futur où l’on peut passer de l’idée à l’application en 1 à 2 minutes API vocale conversationnelle en temps réel La fonctionnalité la plus impressionnante lancée par OpenAI est la Realtime API, qui permet aux développeurs d’implémenter dans leurs applications des fonctionnalités similaires au mode vocal avancé de ChatGPT Les développeurs peuvent envoyer l’audio enregistré aux serveurs d’OpenAI et recevoir en temps réel une réponse audio, une transcription et des appels de fonction La Realtime API est disponible dès aujourd’hui en bêta publique, et prendra en charge à l’avenir davantage de formats, comme la vidéo La Realtime API coûte 0,06 dollar par minute pour l’entrée audio et 0,24 dollar par minute pour la sortie audio, soit 0,15 dollar au total (en supposant un volume identique en entrée et en sortie) C’est plus cher que le service voice-to-voice d’ElevenLabs, qui revient à environ 0,11 dollar par minute, mais chez ElevenLabs on n’est pas facturé à l’usage et il faut acheter un volume d’heures mensuel déterminé La voix en temps réel ouvre de nombreux nouveaux cas d’usage, comme de meilleurs assistants de lecture ou des cours de langue plus immersifs Outils de fine-tuning OpenAI prend au sérieux l’idée qu’utiliser plusieurs modèles est préférable à l’utilisation d’un seul grand modèle L’entreprise aide les sociétés à créer des versions personnalisées de GPT-4o adaptées à leurs cas d’usage OpenAI imagine un futur où chaque entreprise disposera d’un modèle fine-tuné capable d’accéder à ses propres données API de fine-tuning d’images Tout le monde peut fine-tuner GPT-4o avec ses propres données d’image Par exemple, si vous travaillez dans le domaine médical et souhaitez affiner la capacité de GPT-4o à lire et annoter des IRM, vous pouvez utiliser cette API Outils de distillation de modèles OpenAI lance deux outils pour améliorer la distillation de modèles, c’est-à-dire le processus qui consiste à créer des versions plus petites, plus rapides et moins coûteuses des foundation models, construites pour des cas d’usage spécifiques L’entreprise facilite la distillation en ajoutant au Developer Playground une fonctionnalité qui enregistre les interactions API précédentes et permet de les réutiliser comme données pour le fine-tuning Elle ajoute également un outil Evals dans le Playground pour permettre aux développeurs d’évaluer les performances de leurs modèles fine-tunés Réduction de 50 % du coût des appels API répétés grâce au prompt caching OpenAI lance une nouvelle fonctionnalité de prompt caching qui détecte les appels API répétés et renvoie des réponses déjà générées Cette fonctionnalité est activée automatiquement dès aujourd’hui et permet aux développeurs de réduire de 50 % le coût de nombreux appels API, sans travail supplémentaire Elle s’inscrit dans la tendance d’OpenAI à rendre progressivement l’usage de son API moins coûteux, dans un contexte de concurrence C’est une bonne nouvelle pour les développeurs, mais cela crée une dynamique intéressante avec Microsoft, le plus grand partenaire d’OpenAI Microsoft a fait pression sur les grandes entreprises pour qu’elles préachètent un certain volume d’appels à l’API GPT-4 afin de garantir leur capacité On peut se demander comment Microsoft et ses clients déjà engagés sur des achats anticipés percevront ces baisses de prix La stratégie d’OpenAI 1. Miser sur plusieurs modèles adaptés à des cas d’usage variés OpenAI estime que les applications les plus efficaces utiliseront plusieurs modèles ensemble, plutôt qu’un seul modèle pour tout faire Les développeurs peuvent combiner des modèles forts en raisonnement comme o1 avec des modèles performants sur le contexte long ou les prompts d’image comme GPT-4o, afin d’offrir une expérience cohérente aux utilisateurs 2. o1 est une étape importante vers des agents capables d’agir de manière autonome Les agents font depuis longtemps partie des applications IA les plus séduisantes, mais les précédents modèles GPT fonctionnaient mal dès qu’on essayait de leur faire résoudre des tâches par eux-mêmes Grâce à sa capacité à réfléchir sur son propre processus de pensée et à planifier les étapes suivantes, o1 devrait jouer un rôle clé dans la création de véritables agents autonomes 3. Les développeurs disposent désormais d’une quantité énorme de technologies pour créer des expériences incroyables pour les utilisateurs Il est facile d’oublier qu’il y a seulement quelques années, rien de ce qui a été montré aujourd’hui n’était possible, ou même n’attirait l’attention Aujourd’hui, même un développeur solo qui crée des apps sur son temps libre peut accomplir des choses qu’une équipe de développement entière n’aurait pas pu réaliser auparavant

(every.to)

12 points par xguru 2024-10-03 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Annonces majeures

La Realtime API, qui permet d’implémenter dans une application des fonctionnalités similaires au mode vocal avancé de ChatGPT
Relèvement de la limite de débit du modèle o1 au niveau de GPT-4o (10 000 requêtes par minute)
Baisse du prix de l’API GPT-4o grâce à la mise en cache automatique des prompts. 50 % moins cher pour les appels répétés, sans développement supplémentaire
API de fine-tuning multimodal
De l’an dernier à cette année, le nombre d’applications actives sur la plateforme OpenAI a triplé, et le nombre de développeurs actifs atteint 3 millions

Aperçu du modèle o1

OpenAI a lancé o1, un nouveau modèle de raisonnement
o1 est classé dans une nouvelle famille de modèles, distincte du GPT-4o existant
OpenAI estime que l’avenir passera par le développement de plusieurs modèles adaptés à différents cas d’usage
o1 excelle dans la réflexion de type chaîne de pensée, ce qui le rend bien adapté aux tâches de programmation, mais il est plus lent et plus coûteux
La plupart des prompts n’ont pas besoin des capacités de raisonnement avancé d’o1, donc o1 ne deviendra pas le modèle par défaut
Romain Huet, responsable des relations développeurs chez OpenAI, a présenté une démonstration où il crée une app iPhone de bout en bout en 30 secondes à partir d’un seul prompt avec o1
Il a également apporté un drone sur scène et montré une démo où il créait une web app pour piloter le drone devant le public
Ces démonstrations auraient aussi été possibles avec les précédents modèles GPT, mais avec o1 elles peuvent être réalisées bien plus rapidement
o1 donne un aperçu d’un futur où l’on peut passer de l’idée à l’application en 1 à 2 minutes

API vocale conversationnelle en temps réel

La fonctionnalité la plus impressionnante lancée par OpenAI est la Realtime API, qui permet aux développeurs d’implémenter dans leurs applications des fonctionnalités similaires au mode vocal avancé de ChatGPT
Les développeurs peuvent envoyer l’audio enregistré aux serveurs d’OpenAI et recevoir en temps réel une réponse audio, une transcription et des appels de fonction
La Realtime API est disponible dès aujourd’hui en bêta publique, et prendra en charge à l’avenir davantage de formats, comme la vidéo
La Realtime API coûte 0,06 dollar par minute pour l’entrée audio et 0,24 dollar par minute pour la sortie audio, soit 0,15 dollar au total (en supposant un volume identique en entrée et en sortie)
C’est plus cher que le service voice-to-voice d’ElevenLabs, qui revient à environ 0,11 dollar par minute, mais chez ElevenLabs on n’est pas facturé à l’usage et il faut acheter un volume d’heures mensuel déterminé
La voix en temps réel ouvre de nombreux nouveaux cas d’usage, comme de meilleurs assistants de lecture ou des cours de langue plus immersifs

Outils de fine-tuning

OpenAI prend au sérieux l’idée qu’utiliser plusieurs modèles est préférable à l’utilisation d’un seul grand modèle
L’entreprise aide les sociétés à créer des versions personnalisées de GPT-4o adaptées à leurs cas d’usage
OpenAI imagine un futur où chaque entreprise disposera d’un modèle fine-tuné capable d’accéder à ses propres données

API de fine-tuning d’images

Tout le monde peut fine-tuner GPT-4o avec ses propres données d’image
Par exemple, si vous travaillez dans le domaine médical et souhaitez affiner la capacité de GPT-4o à lire et annoter des IRM, vous pouvez utiliser cette API

Outils de distillation de modèles

OpenAI lance deux outils pour améliorer la distillation de modèles, c’est-à-dire le processus qui consiste à créer des versions plus petites, plus rapides et moins coûteuses des foundation models, construites pour des cas d’usage spécifiques
L’entreprise facilite la distillation en ajoutant au Developer Playground une fonctionnalité qui enregistre les interactions API précédentes et permet de les réutiliser comme données pour le fine-tuning
Elle ajoute également un outil Evals dans le Playground pour permettre aux développeurs d’évaluer les performances de leurs modèles fine-tunés

Réduction de 50 % du coût des appels API répétés grâce au prompt caching

OpenAI lance une nouvelle fonctionnalité de prompt caching qui détecte les appels API répétés et renvoie des réponses déjà générées
Cette fonctionnalité est activée automatiquement dès aujourd’hui et permet aux développeurs de réduire de 50 % le coût de nombreux appels API, sans travail supplémentaire
Elle s’inscrit dans la tendance d’OpenAI à rendre progressivement l’usage de son API moins coûteux, dans un contexte de concurrence
C’est une bonne nouvelle pour les développeurs, mais cela crée une dynamique intéressante avec Microsoft, le plus grand partenaire d’OpenAI
Microsoft a fait pression sur les grandes entreprises pour qu’elles préachètent un certain volume d’appels à l’API GPT-4 afin de garantir leur capacité
On peut se demander comment Microsoft et ses clients déjà engagés sur des achats anticipés percevront ces baisses de prix

La stratégie d’OpenAI

1. Miser sur plusieurs modèles adaptés à des cas d’usage variés

OpenAI estime que les applications les plus efficaces utiliseront plusieurs modèles ensemble, plutôt qu’un seul modèle pour tout faire
Les développeurs peuvent combiner des modèles forts en raisonnement comme o1 avec des modèles performants sur le contexte long ou les prompts d’image comme GPT-4o, afin d’offrir une expérience cohérente aux utilisateurs

2. o1 est une étape importante vers des agents capables d’agir de manière autonome

Les agents font depuis longtemps partie des applications IA les plus séduisantes, mais les précédents modèles GPT fonctionnaient mal dès qu’on essayait de leur faire résoudre des tâches par eux-mêmes
Grâce à sa capacité à réfléchir sur son propre processus de pensée et à planifier les étapes suivantes, o1 devrait jouer un rôle clé dans la création de véritables agents autonomes

3. Les développeurs disposent désormais d’une quantité énorme de technologies pour créer des expériences incroyables pour les utilisateurs

Il est facile d’oublier qu’il y a seulement quelques années, rien de ce qui a été montré aujourd’hui n’était possible, ou même n’attirait l’attention
Aujourd’hui, même un développeur solo qui crée des apps sur son temps libre peut accomplir des choses qu’une équipe de développement entière n’aurait pas pu réaliser auparavant