1 commentaires

 
GN⁺ 2024-04-02
Avis Hacker News
    • J’ai une question sur les modèles GPT : je pensais que le modèle choisissait le mot le plus probable, mais s’il en choisit un parmi les mots « probables », la liste de prédiction des mots suivants ne devient-elle pas beaucoup moins probable ? S’il était calculable d’exécuter la probabilité de « deux mots ensemble », ce serait plus utile, et cela pourrait aussi s’appliquer à 3, 4, n mots. Je me demande s’il existe une approche de ce type.
    • Modification après avoir regardé la vidéo et lu les commentaires : la recherche par faisceau (beam search) et la température (temperature) sont utilisées pour contrôler ce problème.
    • Je ne vois pas qui pourrait mieux enseigner le mécanisme d’attention (attention mechanism) à un groupe. On dirait un rêve devenu réalité.
    • Un remède étonnamment salutaire au contenu du poisson d’avril. J’ai envie de me l’injecter directement.
    • Sur la chaîne d’Andrej Karpathy, il y a quelques vidéos intéressantes qui expliquent les réseaux de neurones et leur fonctionnement interne à des personnes qui savent programmer. Je recommande si vous avez aimé ceci.
    • Le token suivant est sélectionné en échantillonnant les logits dans la colonne finale après le unembedding. Mais cela ne revient-il pas simplement à reselectionner le dernier token ? Ou bien la matrice est-elle redimensionnée en N+1 à une étape donnée ?
    • J’ai hâte de voir la prochaine vidéo. J’ai l’impression que je vais enfin pouvoir intérioriser et comprendre comment tout cela fonctionne.
    • 3B1B est l’un des meilleurs pédagogues STEM sur YouTube.