Ajustement fin de GPT-3.5 Turbo et mises à jour de l’API

(openai.com)

1 points par GN⁺ 2023-08-23 | 1 commentaires | Partager sur WhatsApp

Les développeurs peuvent désormais adapter GPT‑3.5 Turbo à leurs cas d’usage avec leurs propres données, et l’ajustement fin de GPT‑4 est prévu pour l’automne
Lors des premiers tests, un GPT‑3.5 Turbo ajusté finement a montré, sur certaines tâches étroites, des performances équivalentes ou supérieures à celles de GPT‑4 de base, tandis que les données d’entrée/sortie de l’API restent la propriété du client
Les clients en private beta ont constaté des améliorations en suivi des instructions, en stabilité du format de sortie et en adaptation au ton de marque, et l’ajustement fin de GPT‑3.5 Turbo prend en charge 4k tokens
Certains early testers ont entraîné les instructions directement dans le modèle, réduisant la taille des prompts jusqu’à 90%, ce qui peut entraîner des appels plus rapides et une baisse des coûts
Avec l’arrêt des modèles GPT‑3 base existants, babbage-002 et davinci-002 sont proposés comme modèles de remplacement, et le nouveau /v1/fine_tuning/jobs remplace l’ancien /v1/fine-tunes

Disponibilité de l’ajustement fin de GPT‑3.5 Turbo

Les développeurs peuvent désormais apporter leurs propres données pour personnaliser GPT‑3.5 Turbo selon leurs cas d’usage
L’ajustement fin de GPT‑3.5 Turbo est disponible dès maintenant, et l’ajustement fin de GPT‑4 est prévu pour l’automne
Lors des premiers tests, un GPT‑3.5 Turbo ajusté finement a montré, sur certaines tâches étroites, des résultats équivalents ou supérieurs aux capacités de GPT‑4 de base
Les données échangées via l’API d’ajustement fin restent la propriété du client et ne sont pas utilisées par OpenAI ni par d’autres organisations pour entraîner d’autres modèles
- Politique associée : API data privacy

Cas d’usage dont les performances s’améliorent

Les clients en private beta ont amélioré les performances sur plusieurs cas d’usage généraux grâce au supervised fine-tuning
- Meilleur suivi des instructions : il devient possible de mieux faire respecter des consignes comme raccourcir les sorties ou toujours répondre dans une langue donnée
- Format de sortie stable : pour les applications nécessitant un format de réponse précis, comme la complétion de code ou la rédaction d’appels API, le modèle conserve plus facilement un format cohérent
- Ton personnalisé : le ton des sorties du modèle peut être ajusté plus régulièrement pour correspondre à la voix de marque d’une entreprise
L’ajustement fin ne sert pas seulement à améliorer les performances, mais aussi à raccourcir les prompts tout en conservant un niveau de performance similaire
L’ajustement fin de GPT‑3.5 Turbo prend en charge 4k tokens, soit environ deux fois plus que les précédents modèles ajustables d’OpenAI
Les early testers ont appris les instructions directement au modèle, réduisant la taille des prompts jusqu’à 90%, ce qui aide à accélérer les appels API et à réduire les coûts
L’ajustement fin est particulièrement puissant lorsqu’il est combiné à d’autres techniques comme le prompt engineering, la recherche d’information et l’appel de fonctions
Le mode d’emploi est disponible dans le guide du fine-tuning
La prise en charge du fine-tuning pour l’appel de fonctions et gpt-3.5-turbo-16k est prévue pour la fin de l’automne

Traitement de la sécurité et tarification

OpenAI fait passer les données d’entraînement par la Moderation API et par un système de moderation basé sur GPT‑4 afin de préserver les fonctions de sécurité du modèle de base
Ce processus de moderation vise à détecter les données d’entraînement non sûres qui entrent en conflit avec les standards de sécurité
Le coût de l’ajustement fin de GPT‑3.5 Turbo se divise entre coût d’entraînement et coût d’utilisation
- Entraînement : $0.008 par 1K tokens
- Entrée en utilisation : $0.012 par 1K tokens
- Sortie en utilisation : $0.016 par 1K tokens
Par exemple, le coût estimé d’un job d’ajustement fin gpt-3.5-turbo entraîné sur un fichier de 100,000 tokens pendant 3 epochs est de $2.40

Remplacement des modèles GPT‑3 et changements d’API

OpenAI a annoncé en juillet 2023 que les modèles GPT‑3 base existants ada, babbage, curie, davinci seraient arrêtés le 4 janvier 2024
babbage-002 et davinci-002 sont les modèles de remplacement correspondants, utilisables comme modèles base ou comme modèles ajustés finement
Les clients peuvent accéder à babbage-002 et davinci-002 via l’API Completions
Ces modèles peuvent être ajustés finement via le nouvel endpoint API /v1/fine_tuning/jobs
Ce nouvel endpoint offre la pagination et une meilleure scalabilité, afin de soutenir l’évolution future de l’API de fine-tuning
La procédure de migration de l’ancien endpoint /v1/fine-tunes vers le nouveau est résumée dans le guide du fine-tuning
L’ancien endpoint /v1/fine-tunes passe en deprecated et doit être arrêté le 4 janvier 2024

1 commentaires

GN⁺ 2023-08-23

Avis sur Hacker News

Quelqu’un peut-il expliquer simplement ce que fait exactement le fine-tuning ?
Je me demande s’il s’agit de montrer au modèle comment répondre aux questions, de lui donner de nouvelles informations, ou les deux.
Par exemple, si je veux utiliser un LLM pour répondre à des questions sur une grande base de connaissances privée, est-ce pertinent de fine-tuner le modèle sur cette base ? Et si oui, comment réduit-on les hallucinations, et est-ce mieux que de mettre à chaque fois les documents pertinents dans le prompt ?
- Le fine-tuning consiste à montrer au modèle des exemples de séquences qu’il doit produire, puis à le mettre à jour pour qu’il génère mieux des séquences similaires à ces exemples.
  Ce que “similaire” veut dire exactement avec un nouveau prompt relève presque de la magie noire de la généralisation.
  On peut l’utiliser pour enseigner un style, des informations, ou les deux, mais il n’existe pas de méthode parfaite pour le forcer à répondre uniquement à partir des données de fine-tuning.
  Si vous ajoutez beaucoup d’exemples où il refuse les sujets sans rapport avec X, on peut espérer un certain niveau de performance.
  Pour une grande base de connaissances privée, on ne recommande généralement pas le fine-tuning, mais plutôt une approche fondée sur la recherche.
  En mettant les informations dans l’entrée, on peut vérifier les sources, et le modèle a plus de facilité à répondre sans halluciner.
  Cela dit, la recherche est forte pour les questions de type consultation, mais peut être plus faible lorsqu’il faut comparer ou combiner plusieurs sources ; dans ces cas, le fine-tuning peut avoir certains avantages.
- Au début, je pensais moi aussi qu’apprendre de nouvelles données à un modèle était un bon cas d’usage du fine-tuning, mais pas mal de gens disent que le fine-tuning sert plutôt à modifier le format et le style des réponses qu’à enseigner de nouvelles données.
  Cet article de blog semble aller dans le même sens.
  Je me demande aussi comment OpenAI fait son fine-tuning ; je ne pense pas que ce soit LoRA.
- Je ne pense pas.
  Comme le montrent les hallucinations, les modèles de langage ne sont pas des outils faits pour stocker des données ou y accéder.
  Pour stocker des données et y accéder, il vaut mieux utiliser des embeddings + une base de données vectorielle.
  Le fine-tuning sert à modifier le type de langage que le modèle génère.
  Si vous voulez une IA qui écrive comme un journaliste, vous la fine-tunez avec des articles de presse ; si vous voulez une IA qui écrive des avis, vous la fine-tunez avec des avis.
- Le fine-tuning dont il est question ici est du fine-tuning supervisé, où l’on fournit au LLM des paires question/réponse et où on l’ajuste dessus.
  Voir https://huyenchip.com/2023/05/02/rlhf.html
  C’est assez différent du fine-tuning du modèle de base lui-même ou du RLHF.
  Cela peut être bien adapté pour ajuster l’objectif afin que le modèle se comporte d’une certaine manière ou effectue une autre tâche, plutôt que de faire un chatbot généraliste.
  En revanche, ajouter des connaissances à un bot relève plutôt de la génération ancrée dans des sources ou de la génération augmentée par recherche (GG/RAG), une approche visant à enrichir le modèle de base avec de nouvelles données, par exemple des données confidentielles.
  Pour du question-réponse sur une grande base de connaissances privée, ce n’est pas approprié ; GG/RAG me semble plus adapté.
  J’ai aussi écrit récemment un article à ce sujet : https://vectara.com/fine-tuning-vs-grounded-generation/
- deeplearning.ai d’Andrew Ng a publié hier un cours sur ce sujet : https://www.deeplearning.ai/short-courses/finetuning-large-l...
  À haut niveau, cela permet de mettre dans le modèle davantage de données que ce qui tient dans un prompt.
  Une grande base de connaissances privée était l’un des exemples principaux du cours, et pour des scénarios spécialisés par domaine ou où la confidentialité est importante, le fine-tuning peut avoir plus de sens que le prompting.
La phrase “les données d’entraînement du fine-tuning passent par l’API de Moderation et un système de vérification basé sur GPT-4” semble indiquer des coûts non négligeables.
Vu les prix de l’API, faire tourner de l’inférence GPT-4 coûte plus cher que l’entraînement du modèle ; j’imagine donc qu’ils n’utilisent GPT-4 que lorsque le jugement de sûreté est ambigu.
- Ça ressemble à un inconvénient majeur.
  Si je sais déjà quel type de langage je veux obtenir, je ne vois pas pourquoi je devrais laisser OpenAI examiner mon jeu de données de réglage des paramètres.
Quand on fine-tune Llama2 13B ou 70B, il faut généralement louer des GPU dans le cloud ; je me demande comment cela se compare au fine-tuning d’OpenAI.
Avec OpenAI, on n’a pas besoin de louer directement l’infrastructure, c’est intégré dans les frais d’usage ; j’aimerais entendre une comparaison du point de vue de quelqu’un qui a déjà fine-tuné des modèles Llama2.
- Je ne suis pas expert du domaine, mais j’ai un peu utilisé le fine-tuning de GPT-3 via l’API.
  Je pense que le “fine-tuning” de GPT est différent du fine-tuning d’un modèle comme Llama2.
  Il est probable qu’ils n’ajustent pas tous les poids du réseau, mais seulement une toute petite partie ; la manière exacte dont OpenAI procède est propriétaire.
  Le compromis, c’est que le fine-tuning d’OpenAI est moins cher, mais moins puissant qu’un “vrai” fine-tuning.
- Je n’ai pas encore fine-tuné GPT-3.5-turbo, mais globalement llama2 a de bonnes chances d’être moins cher.
  C’est particulièrement vrai si 13B suffit ; sur modal.com, l’inférence d’un modèle llama2 13B fine-tuné coûte environ $0.003 par 1K tokens.
  Il existe certainement des options moins chères.
  Si vous n’avez pas énormément de données, le coût d’entraînement de llama2 se limite généralement à quelques dollars.
Comme davinci-002 est proposé comme modèle de complétion, je me suis demandé s’ils proposaient à nouveau des modèles “non sûrs”, mais davinci-002 et babbage-002 tombent tous les deux dans une boucle infinie sur des requêtes de complétion “non sûres”.
text-davinci-003 et text-curie-001 s’en sortaient bien, mais OpenAI ne semble vraiment pas vouloir proposer des modèles non censurés à l’usage.
- Qu’est-ce qu’un modèle “non sûr” ?
Le coût de génération d’un GPT-3.5 Turbo fine-tuné est 8 fois supérieur à celui du modèle de base ; pour que ce soit rentable, il faut donc entrer dans la zone de « réduction de 90 % de la taille du prompt » évoquée par OpenAI
- 8 fois, c’est un gros écart.
  Il pourrait même être préférable d’orienter la sortie avec du few-shot prompting, en mettant quelques exemples dans chaque prompt.
  Bien sûr, cela ne convient pas à tous les cas d’usage, mais ça vaut la peine d’expérimenter.
  En plus, les appels de fonctions ne seront pas disponibles avant l’automne de cette année.
  Comme la majeure partie de mon usage actuel repose sur les appels de fonctions, je vais probablement passer mon tour pour l’instant.
  Je suis curieux de voir quelles conclusions on tirera du fine-tuning chez OAI ; dans ce fil précédent, l’ambiance était plutôt que ce n’était pas indispensable : https://news.ycombinator.com/item?id=37174850
- D’après https://twitter.com/OfficialLoganK/status/169406294917713961..., les premiers testeurs ont fine-tuné les instructions directement dans le modèle, réduisant la taille des prompts jusqu’à 90 %, et diminuant ainsi la latence et le coût de chaque appel API.
  Je me demande si ces 90 % correspondent précisément au chiffre issu du calcul ci-dessus.
- Si la comparaison se fait avec GPT-4, j’ai l’impression que cela devient beaucoup moins cher.
- J’aimerais voir des exemples concrets de fine-tuning dans un vrai service : ce qu’on met dans l’entraînement, et comment on interagit différemment avec le modèle après fine-tuning par rapport à avant.
- C’est une évolution intéressante, car je vois le fine-tuning comme une voie pour réduire fortement les coûts d’inférence des LLM.
  Si l’on compare uniquement GPT-3.5-turbo et un GPT-3.5-turbo fine-tuné, c’est exact ; mais si c’est comparable au fine-tuning de modèles Llama-2, il pourrait atteindre des performances de niveau GPT-4 dans plusieurs cas d’usage pratiques, comme la génération de requêtes SQL.
  En revanche, les maths ou le code resteront probablement difficiles sans fine-tuning sur une quantité de données importante.
  En pratique, même un modèle Llama-2 7B a déjà montré des performances de niveau GPT-4 après fine-tuning : https://www.anyscale.com/blog/fine-tuning-llama-2-a-comprehe...
GPT-3.5 est beaucoup trop médiocre pour moi, donc il ne me sert à rien.
Pour l’écriture, il répète toujours le même type de jargon ; pour le code, il se trompe trop souvent ; et pour le traitement du langage naturel, il faut être beaucoup plus explicite, si bien qu’il ressemble juste à un chatbot moyen.
GPT-4 à 20 $ par mois est largement meilleur sur tous les plans, et je l’utilise aussi pour travailler avec Angular.
Quand l’IA explique toutes les raisons, même ce framework surconçu commence à devenir réellement compréhensible.
C’est utile comme traducteur, enseignant et assistant de résolution de problèmes ; s’il continue à s’améliorer, il deviendra difficile d’imaginer chercher des réponses à ses problèmes sur Google.
La fonctionnalité que je voudrais, c’est une segmentation intégrée des prompts.
Je pense qu’en abandonnant les anciennes versions de GPT et les faux débats éthiques, puis en se concentrant sur la meilleure version de cette technologie et en la vendant 20 $ par mois, ils pourraient gagner des milliards et bouleverser une grande partie du Web.
- J’ai beaucoup expérimenté avec Llama 2 censuré et non censuré, et j’en suis arrivé à la conclusion que le fine-tuning pour la correction politique et l’éthique dégrade toutes les réponses.
  Les réponses deviennent répétitives et fades.
- Je suis content de ne pas être le seul à avoir l’impression qu’Angular est un bazar surconçu.
- Pour qu’un GPT-3.5 fine-tuné concurrence GPT-4 dans un cas d’usage comme l’assistance sur Angular, il faudrait probablement assez de données pour que cela ressemble davantage à du pré-entraînement qu’à du fine-tuning.
  Si l’objectif n’est pas d’en faire un produit, l’effort n’en vaut probablement pas vraiment la peine.
  En revanche, beaucoup de produits ou fonctionnalités LLM à forte valeur ont un périmètre plus étroit, et le fine-tuning peut y apporter de grosses améliorations.
  Par exemple, pour la génération de requêtes SQL, une expérience a montré qu’un modèle Llama-2 7B fine-tuné pouvait dépasser GPT-4 : https://www.anyscale.com/blog/fine-tuning-llama-2-a-comprehe...
- Il suffit d’envoyer le fichier avec code interpreter, puis de lui demander dans le prompt de poser les questions une par une pour savoir quoi faire ensuite.
- Je pense que les LLM fonctionnent au mieux comme des moteurs de recherche flous.
  Ils brillent quand il est difficile de formuler la bonne requête pour Google.
  Une question comme : « J’ai entendu parler d’une ancienne étude de Google sur les nouvelles recrues et la GPA, selon laquelle au-delà de 3,0 il n’y avait pas de différence. Peux-tu me donner le lien vers cette étude ? Y a-t-il eu des études de suivi ? » est difficile à trouver sur Google, et risque d’être noyée parmi des liens sur la GPA minimale et l’emploi.
  Bard m’a donné des informations sur Laszlo Bock et son livre, ce qui permet ensuite une recherche plus affinée comme « Laszlo Bock Google GPA ».
  J’ai soumis la même phrase à plusieurs LLM : ChatGPT a répondu qu’il était limité par ses connaissances, Bard l’a trouvée immédiatement, et Hugging Face Chat a été le meilleur en donnant Bock ainsi que Project Oxygen et Project Aristotle.
  Claude n’a pas trouvé l’étude, mais a proposé d’autres candidats ; LLaMa ne l’a pas trouvée non plus, mais a cité une étude Google et quelques noms.
  Je suis d’accord avec l’idée que le fine-tuning pour l’exactitude peut dégrader les résultats.
  L’alignement est aussi, simultanément, un désalignement : puisqu’il déplace la distribution de probabilité, il implique forcément des compromis.
  Malheureusement, la recherche dans ce domaine est peu populaire, et les méthodes nécessaires exigent aussi des discussions approfondies, et controversées, sur les réseaux, les probabilités et les distributions ; il me semble donc qu’elles sont aujourd’hui susceptibles d’être rejetées par les grandes conférences.
  Le tuning sur les préférences humaines n’est en réalité pas un tuning sur la connaissance, mais sur des résultats que les humains apprécient.
  Cela revient à introduire dans le modèle un biais qui pirate l’évaluateur — l’humain —, de sorte que même si l’exactitude factuelle moyenne augmente, le modèle peut produire des informations fausses de manière plus convaincante et rendre les LLM pires.
  Il faut être extrêmement prudent avec le paradoxe de Simpson et le paradoxe de Berkson, qui peuvent ruiner l’évaluation à cause de la façon dont les données sont agrégées ; en pratique, on est en train de faire du tuning à travers la loi de Goodhart.
Si quelqu’un a déjà fine-tuné un modèle aussi gros, je me demande quelle quantité de données il faut en général pour obtenir un effet
J’aimerais savoir si les 100k tokens mentionnés dans la documentation peuvent vraiment avoir un impact important sur le comportement du modèle de base, ou si c’est juste un exemple jouet
- D’après le guide de fine-tuning récemment mis à jour, il faut au minimum 10 exemples pour fine-tuner un modèle, et avec gpt-3.5-turbo on observe généralement une amélioration nette avec seulement 50 à 100 exemples d’entraînement
  Le nombre exact varie beaucoup selon le cas d’usage
  Ils recommandent de commencer avec 50 démos bien conçues pour voir s’il y a un signal d’amélioration
  Même si ce n’est pas suffisant, si une amélioration apparaît, il est probable que le modèle continue de s’améliorer en ajoutant davantage de données ; s’il n’y en a pas, il faut repenser la définition de la tâche ou la structure des données avant d’augmenter le nombre d’exemples
- J’ai beaucoup expérimenté le fine-tuning sur un assistant IA que je développais, et j’ai commencé à voir de bonnes améliorations au-delà de 200 à 300 échantillons
- Il suffit de regarder le fine-tuning d’instructions qui transforme un modèle complété en modèle assistant
  Avec seulement quelques milliers d’exemples, on peut modifier assez fortement le comportement du modèle ainsi que le contenu et la forme de ses sorties
  Des mécanismes comme LoRA sont des méthodes de fine-tuning très efficaces, au prix d’une certaine perte de précision, et le fait de ne modifier que quelques couches supérieures peut déjà transformer le modèle de manière assez importante
- J’ai fait des expériences avec des jeux de données allant de 5K à 100K exemples, et les résultats étaient excellents
  Exemples : https://huggingface.co/datasets/b-mc2/sql-create-context et https://huggingface.co/datasets/GEM/viggo
  En revanche, 8K exemples n’ont pas suffi pour apprendre à résoudre des problèmes de maths de primaire, donc la dépendance à la tâche est très forte
  Références : https://www.anyscale.com/blog/fine-tuning-llama-2-a-comprehe..., https://huggingface.co/datasets/gsm8k
- L’impact est important
  On commence à voir des améliorations dès 1000 tokens
On dirait une trajectoire où ils sortent en bêta gratuite ce qui devait initialement être rendu public, corrigent les bugs, lancent un grand frère plus puissant en abonnement, affaiblissent fortement les deux, puis proposent du fine-tuning pour permettre de ramener le GPT-3.5 affaibli près de son niveau de lancement — mais seulement si on le fine-tune correctement — tout en gardant la version non affaiblie pour l’usage interne de Microsoft, puis en tirent profit
À la limite, Google est plus honnête
Leur position est plutôt qu’ils ont le meilleur produit, mais qu’il a plus de valeur comme outil interne, donc ils ne le publient pas ; après le lancement de GPT, ils ont annoncé Bard pour protéger leur cours de Bourse, mais ce n’était pas terrible et ils ne le lanceront probablement même pas vraiment
Meta, au moins, a publié une version affaiblie en open source
Il y a quelques mois, avec GPT-4, ma productivité était vraiment incroyable ; maintenant, j’ai l’impression d’être redevenu développeur solo
En l’utilisant aujourd’hui, je perds souvent plus de temps à corriger ses erreurs que je n’en gagne, donc il vaut souvent mieux que je fasse simplement les choses moi-même
Je comprends donc pourquoi ils ne voudraient pas le donner à d’autres
Si c’est pour répondre avec un truc manifestement faux du genre « il n’a pas été affaibli », merci de ne pas me faire perdre mon temps
Je me pose des questions sur la confidentialité
OpenAI dit ne pas utiliser les appels API pour entraîner ses modèles, mais j’aimerais savoir si OpenAI ou Microsoft stockent encore le texte, et si oui, pendant combien de temps
Dans l’ensemble, c’est excellent, et j’attends avec impatience le fine-tuning 16k
- Je ne suis pas sûr pour les appels directs à l’API OpenAI, mais l’offre Azure stocke les prompts et les sorties pendant 30 jours pour surveiller les abus
  Il existe un formulaire de demande si l’on souhaite être exempté de cette exigence
  https://learn.microsoft.com/en-us/legal/cognitive-services/o...
- Dans la plupart des cas, c’est 30 jours maximum : https://platform.openai.com/docs/models/default-usage-polici...
  Ils ne font rien de suspect avec les données stockées ; c’est littéralement uniquement pour enquêter, pendant une courte période après coup, sur d’éventuelles violations de confiance et de sécurité
- Le modèle fine-tuné existe-t-il sur les serveurs d’OpenAI ?
  Si oui, je me demande quelle garantie de confidentialité assure qu’OpenAI ne l’utilisera pas plus tard pour étendre GPT-5
C’est assez intéressant
C’est la première fois que les modèles « Chat » d’OpenAI peuvent être fine-tunés
Je me demande si quelqu’un a déjà contourné les détecteurs d’IA actuels avec un modèle fine-tuné
Je sais que c’est possible, mais j’aimerais avoir une idée de la façon de construire le jeu de données
- Les détecteurs d’IA actuels sont de la pure daube
  Ceux qui paient pour les utiliser se font arnaquer, et ceux qui les utilisent pour prendre de vraies décisions commettent de graves erreurs
  C’est vraiment regrettable que certaines écoles utilisent des détecteurs d’IA pour essayer de savoir si des élèves ont rédigé leurs dissertations avec ChatGPT
  Il existe de nombreux cas où des essais clairement écrits par des humains ont été signalés comme générés par IA
  Il suffit de passer 30 minutes à s’amuser à faire écrire des dissertations à ChatGPT pour comprendre son style
  Avec un bon prompt, on peut lui faire écrire dans d’autres styles, mais honnêtement, quelqu’un qui fait ses devoirs avec ChatGPT ne va généralement pas faire l’effort de les rendre moins reconnaissables comme du ChatGPT
- Si l’on essaie vraiment les « détecteurs » d’IA, leur précision est du niveau d’un pile ou face
  Ça ne fonctionne pas, et il est déjà impossible de détecter du texte généré par GPT
- Les détecteurs d’IA sont des produits frauduleux
  Il est impossible de déterminer avec une certitude fiable si un texte a été généré par un humain ou par ChatGPT
- Pourquoi aurait-on même besoin de fine-tuning ?
  Ces détecteurs sont complètement cassés, et une simple incitation à dérouler un raisonnement suffit à obtenir un résultat qui ne « sonne » pas comme ChatGPT
  Ensuite, il a à peu près autant de chances d’être détecté comme IA qu’un texte écrit par un humain
- Ça semble facilement faisable même avec le modèle de base

Ajustement fin de GPT-3.5 Turbo et mises à jour de l’API

Disponibilité de l’ajustement fin de GPT‑3.5 Turbo

Cas d’usage dont les performances s’améliorent

Traitement de la sécurité et tarification

Remplacement des modèles GPT‑3 et changements d’API

À lire aussi

1 commentaires

Avis sur Hacker News