Construire des LLM de zéro : atelier de code de 3 heures
(magazine.sebastianraschka.com)- Si vous voulez consacrer quelques heures de votre week-end à comprendre les grands modèles de langage (LLM), cette présentation d’un atelier de code de 3 heures a été préparée autour de leur implémentation, de leur entraînement et de leur utilisation
- Voici ci-dessous le sommaire de ce qui est couvert dans la vidéo (la vidéo elle-même contient des marqueurs de chapitres cliquables pour aller directement aux sujets qui vous intéressent)
Sommaire
-
0:00 – Vue d’ensemble de l’atelier
-
2:17 – Partie 1 : Introduction aux LLM
-
9:14 – Ressources de l’atelier
-
10:48 – Partie 2 : Comprendre les données d’entrée d’un LLM
-
23:25 – Une classe de tokenizer simple
-
41:03 – Partie 3 : Coder l’architecture d’un LLM
-
45:01 – GPT-2 et Llama 2
-
1:07:11 – Partie 4 : Pré-entraînement
-
1:29:37 – Partie 5.1 : Chargement de poids pré-entraînés
-
1:45:12 – Partie 5.2 : Poids pré-entraînés via LitGPT
-
1:53:09 – Partie 6.1 : Ajustement fin sur instructions
-
2:08:21 – Partie 6.2 : Ajustement fin sur instructions via LitGPT
-
2:26:45 – Partie 6.3 : Évaluation par benchmark
-
2:36:55 – Partie 6.4 : Évaluation des performances en conversation
-
2:42:40 – Conclusion
-
C’est un peu différent du contenu textuel habituel, mais comme cela avait reçu un très bon accueil il y a quelques mois, cela semblait valoir la peine de recommencer
-
Bon visionnage !
Ressources complémentaires
- Livre Build an LLM from Scratch
- Dépôt GitHub Build an LLM from Scratch
- Dépôt GitHub contenant le code de l’atelier
- Lightning Studio pour cet atelier
- Dépôt GitHub de LitGPT
S’abonner à Ahead of AI
- Un projet lancé par Sebastian Raschka il y a 2 ans
- Ahead of AI est spécialisé dans la recherche en machine learning et en IA, et est lu par des dizaines de milliers de chercheurs et de praticiens qui veulent garder une longueur d’avance dans un domaine en perpétuelle évolution
Résumé de GN⁺
- Cet atelier est très utile pour celles et ceux qui veulent apprendre à implémenter et entraîner un LLM de zéro
- Il traite de modèles comme GPT-2 et Llama 2, et explique comment charger des poids pré-entraînés et effectuer un ajustement fin sur instructions
- Il peut être très intéressant et utile pour les personnes qui s’intéressent au machine learning et à la recherche en IA
- Parmi les autres projets aux fonctionnalités similaires, on peut citer la bibliothèque Transformers de Hugging Face et les modèles GPT d’OpenAI
1 commentaires
Avis sur Hacker News
Remerciements pour le partage, avec l’avis que « revenir aux fondamentaux est toujours une bonne chose »
Question : « Désolé si c’est une question naïve, mais je me demande en quoi cela diffère de celui d’Andrej Karpathy : https://www.youtube.com/watch?v=kCc8FmEb1nY »
Avis disant que « les articles de Sebastian sont bons », tout en attendant avec impatience le livre