Databricks publie en open source Dolly 2.0, similaire à ChatGPT

xguru · 2023-04-14T10:03:01+09:00

Le premier véritable LLM instruction-tuned ouvert au monde Publication de l’intégralité du code d’entraînement, du jeu de données et des poids du modèle. Autrement dit, n’importe quel particulier ou entreprise peut créer et posséder son propre LLM puissant Affiné à partir du jeu de données databricks-dolly-15k d’instructions rédigées par des humains 150 paires prompt/réponse. Tout le monde peut les modifier/étendre et les utiliser à des fins commerciales (Alpaca, Koala, GPT4All, Vicuna, etc. ne peuvent pas être utilisés à des fins commerciales) Ces données ont été rédigées directement par 50 employés de Databricks Basé sur le modèle de langage EleutherAI pythia 12B à 12 milliards de paramètres

(databricks.com)

35 points par xguru 2023-04-14 | 1 commentaires | Partager sur WhatsApp

Le premier véritable LLM instruction-tuned ouvert au monde
Publication de l’intégralité du code d’entraînement, du jeu de données et des poids du modèle. Autrement dit, n’importe quel particulier ou entreprise peut créer et posséder son propre LLM puissant
Affiné à partir du jeu de données databricks-dolly-15k d’instructions rédigées par des humains
- 150 paires prompt/réponse. Tout le monde peut les modifier/étendre et les utiliser à des fins commerciales
  - (Alpaca, Koala, GPT4All, Vicuna, etc. ne peuvent pas être utilisés à des fins commerciales)
- Ces données ont été rédigées directement par 50 employés de Databricks
Basé sur le modèle de langage EleutherAI pythia 12B à 12 milliards de paramètres

1 commentaires

kuroneko 2023-04-14

C’est assez amusant qu’ils aient ouvert une discussion interne pour créer un jeu de questions destiné à l’entraînement d’un LLM, puis qu’ils l’aient fermée plus tôt que prévu parce qu’il y avait bien plus de participation qu’attendu et qu’ils craignaient que cela ne perturbe le travail des employés.

Quoi qu’il en soit, je tiens vraiment à saluer le fait qu’un grand groupe comme celui-ci ait, grâce à un investissement audacieux, publié en open source complet (CC BY-SA 3.0) un jeu de données de haute qualité.
Si ce type d’entreprise devient peu à peu plus nombreux et que la participation augmente, peut-être verrons-nous un jour apparaître un modèle open source de niveau GPT-4 pouvant être utilisé à des fins commerciales ?

Databricks publie en open source Dolly 2.0, similaire à ChatGPT

À lire aussi

1 commentaires