Implémenter pas à pas un LLM similaire à ChatGPT à partir de zéro
(github.com/rasbt)Créer un grand modèle de langage (à partir de zéro)
- Un livre qui permet de découvrir le fonctionnement interne des grands modèles de langage (Large Language Models, LLM)
- Explique comment construire son propre LLM pas à pas, avec un texte clair, des diagrammes et des exemples
- La manière d’entraîner et de développer un petit modèle fonctionnel à des fins pédagogiques reflète l’approche utilisée pour créer de grands modèles de base comme ChatGPT
Table des matières
- Le fichier
Readme.mdest un fichier Markdown, et il est recommandé de le consulter avec un éditeur Markdown ou un aperçu - Les titres de chaque chapitre, ainsi que le code principal et le code auxiliaire, sont résumés dans la table des matières
- Inclut une annexe d’introduction à PyTorch ainsi que des instructions supplémentaires sur l’installation de Python et des packages Python
Avis de GN⁺ :
- Ce livre explique en détail le processus de création de grands modèles de langage à partir de zéro et sera très utile aux ingénieurs logiciel débutants intéressés par le domaine de l’IA.
- Il propose un contenu intéressant pour les lecteurs qui souhaitent comprendre les fondements de technologies innovantes comme ChatGPT.
- Le guide pas à pas, accompagné d’exemples de code concrets, aidera les apprenants à mettre la théorie en pratique.
1 commentaires
Avis Hacker News
Je suis en train de rédiger un guide complémentaire, à différents stades d’avancement. Jusqu’à présent, le guide de tuning est la meilleure ressource.
Ce guide a l’air formidable. Je me demande si l’objectif principal est d’aider à comprendre et à démystifier le sujet, ou d’encourager les gens à créer eux-mêmes de petits modèles adaptés à leurs besoins.
Écrire publiquement un livre technique doit s’accompagner d’un niveau d’anxiété inimaginable, donc tout mon respect à l’auteur.
Je me demande si on peut utiliser les informations de ce livre pour apprendre le reinforcement learning. L’objectif serait d’apprendre à faire atterrir quelque chose comme un module lunaire. Commencer simplement à 100 pieds, pousser dans une direction et essayer jusqu’à ne plus créer de cratère. Ensuite, ajouter des variables, par exemple se déplacer horizontalement tout en ajoutant des propulseurs horizontaux, etc. Je me demande si ce livre peut aider pour ce ML plus « grand public ».
Comme on peut le voir dans le premier exemple de code, ce n’est pas entièrement à partir de zéro.
Je pensais que cette ressource serait gratuite et je suis passé sur Github. Avec tout le respect dû au travail de l’auteur, je me demande quelles ressources gratuites « à partir de zéro » sont disponibles et recommandées dans ce domaine.
L’architecture du modèle elle-même n’est pas si compliquée, surtout quand on utilise torch. L’ensemble du processus est un projet assez simple et réalisable.
Cela serait probablement classé dans « Show HN ».
Merci pour ce travail. Y a-t-il une date prévue pour la finalisation du livre ?
J’en ai acheté un exemplaire ! J’ai hâte de le lire. :) Y a-t-il un moyen pour les lecteurs de donner leur avis pendant l’écriture du livre ?