J’ai une question sur les modèles GPT : je pensais que le modèle choisissait le mot le plus probable, mais s’il en choisit un parmi les mots « probables », la liste de prédiction des mots suivants ne devient-elle pas beaucoup moins probable ? S’il était calculable d’exécuter la probabilité de « deux mots ensemble », ce serait plus utile, et cela pourrait aussi s’appliquer à 3, 4, n mots. Je me demande s’il existe une approche de ce type.
Modification après avoir regardé la vidéo et lu les commentaires : la recherche par faisceau (beam search) et la température (temperature) sont utilisées pour contrôler ce problème.
Je ne vois pas qui pourrait mieux enseigner le mécanisme d’attention (attention mechanism) à un groupe. On dirait un rêve devenu réalité.
Un remède étonnamment salutaire au contenu du poisson d’avril. J’ai envie de me l’injecter directement.
Sur la chaîne d’Andrej Karpathy, il y a quelques vidéos intéressantes qui expliquent les réseaux de neurones et leur fonctionnement interne à des personnes qui savent programmer. Je recommande si vous avez aimé ceci.
Le token suivant est sélectionné en échantillonnant les logits dans la colonne finale après le unembedding. Mais cela ne revient-il pas simplement à reselectionner le dernier token ? Ou bien la matrice est-elle redimensionnée en N+1 à une étape donnée ?
J’ai hâte de voir la prochaine vidéo. J’ai l’impression que je vais enfin pouvoir intérioriser et comprendre comment tout cela fonctionne.
3B1B est l’un des meilleurs pédagogues STEM sur YouTube.
1 commentaires
Avis Hacker News