35 points par xguru 2023-04-14 | 1 commentaires | Partager sur WhatsApp
  • Le premier véritable LLM instruction-tuned ouvert au monde
  • Publication de l’intégralité du code d’entraînement, du jeu de données et des poids du modèle. Autrement dit, n’importe quel particulier ou entreprise peut créer et posséder son propre LLM puissant
  • Affiné à partir du jeu de données databricks-dolly-15k d’instructions rédigées par des humains
    • 15�0 paires prompt/réponse. Tout le monde peut les modifier/étendre et les utiliser à des fins commerciales
      • (Alpaca, Koala, GPT4All, Vicuna, etc. ne peuvent pas être utilisés à des fins commerciales)
    • Ces données ont été rédigées directement par 5�0 employés de Databricks
  • Basé sur le modèle de langage EleutherAI pythia 12B à 12 milliards de paramètres

1 commentaires

 
kuroneko 2023-04-14

C’est assez amusant qu’ils aient ouvert une discussion interne pour créer un jeu de questions destiné à l’entraînement d’un LLM, puis qu’ils l’aient fermée plus tôt que prévu parce qu’il y avait bien plus de participation qu’attendu et qu’ils craignaient que cela ne perturbe le travail des employés.

Quoi qu’il en soit, je tiens vraiment à saluer le fait qu’un grand groupe comme celui-ci ait, grâce à un investissement audacieux, publié en open source complet (CC BY-SA 3.0) un jeu de données de haute qualité.
Si ce type d’entreprise devient peu à peu plus nombreux et que la participation augmente, peut-être verrons-nous un jour apparaître un modèle open source de niveau GPT-4 pouvant être utilisé à des fins commerciales ?