47 points par GN⁺ 2023-12-04 | 1 commentaires | Partager sur WhatsApp
  • Guide expliquant visuellement le fonctionnement de grands modèles de langage comme GPT-2, nano-gpt et GPT-3
  • Sommaire : introduction et connaissances préalables, embeddings, normalisation de couche, self-attention, projection, MLP, transformeur, Softmax, sortie

Résumé de l’introduction complète

  • Dans le cas de nano-gpt, il y a 85 000 paramètres
  • L’objectif est de trier par ordre alphabétique une chaîne donnée de six caractères
  • On peut prendre comme exemple le processus qui reçoit la chaîne C B A B B C et la trie en ABBBCC.
  • Chaque caractère de la chaîne est appelé un « token », et le vocabulaire du modèle est composé de différents tokens
  • Chaque token se voit attribuer un indice numérique, qui est ensuite fourni au modèle
  • Chaque nombre est converti en un vecteur de 48 éléments, appelé « embedding »
  • Les embeddings traversent ensuite une série de couches appelée « transformeur »
  • Au final, le modèle prédit la probabilité du token suivant pour la séquence donnée
  • Le token prédit est réinjecté en haut du modèle, et l’ensemble du processus se répète

1 commentaires

 
GN⁺ 2023-12-04
Avis Hacker News
  • Un outil extrêmement utile pour comprendre fondamentalement les LLM

    • Il est considéré comme un excellent outil pour acquérir une compréhension approfondie de la manière dont les LLM fonctionnent réellement.
    • Si l’on ne comprend pas pourquoi le premier tableau contient 48 éléments, il est conseillé de consulter model.py de minGPT.
    • Avis selon lequel il serait bon de le mentionner dans l’article, car ce type de choix structurel peut dérouter les personnes peu familières avec le contexte.
  • Surprise de voir la complexité algorithmique clairement représentée dans un espace 3D

    • Admiration face à la clarté avec laquelle la complexité de l’algorithme est exprimée en 3D.
    • Expression d’un souhait personnel d’avoir suffisamment de connaissances pour bien juger de sa précision.
  • Cette visualisation est vraiment stupéfiante.

    • Cela faisait longtemps qu’on voulait l’explorer en profondeur, et le modèle 3D est étonnant comme outil pédagogique.
  • C’est la méthode de visualisation cherchée depuis des mois

    • Grande satisfaction d’avoir enfin trouvé la méthode de visualisation recherchée depuis longtemps.
    • Remerciements pour le fait que ce type de ressource soit proposé gratuitement.
  • On pourrait presque l’intituler « disséquer la magie en multiplications de matrices et produits scalaires »

    • Encore plus d’étonnement face au fait que les LLM fonctionnent aussi bien.
  • Le modèle 3D est incroyablement efficace sur le plan pédagogique

    • Avis selon lequel le modèle 3D est extrêmement impressionnant comme outil éducatif.
    • Évalué comme une excellente ressource pour un apprentissage approfondi.
  • Encore plus d’étonnement quant à la façon dont les LLM parviennent à si bien fonctionner

    • Évaluation positive de cette analyse, à un niveau fondamental, du principe de fonctionnement des LLM.
    • Expression d’un étonnement encore plus grand devant les bonnes performances des LLM.
  • L’explication de la puissance de la self-attention est souvent absente

    • Contrairement aux réseaux de neurones traditionnels, les couches de self-attention pondèrent de façon adaptative les connexions entre les entrées en fonction du contexte.
    • Cela permet aux transformers d’accomplir en une seule couche des tâches qui exigeraient plusieurs couches dans des réseaux plus classiques.
  • Davantage de contexte sur ce travail a été partagé dans le thread Twitter de l’auteur

    • L’auteur a partagé des informations de fond supplémentaires sur ce travail via un thread Twitter.
  • Pour ceux qui veulent une version basse dimension pour leur propre modèle, la bibliothèque Netron est recommandée

    • Évaluation positive et recommandation de la bibliothèque Netron pour la visualisation d’architectures de modèles.
  • Ce n’est pas juste un simple modèle 3D, c’est un travail approfondi

    • Au départ, cela semblait n’être qu’un simple modèle 3D, mais le contenu approfondi accompagné d’animations suscite l’admiration.
  • Cette visualisation est vraiment stupéfiante.

    • Si on l’avait eue au moment où l’on essayait de comprendre les transformers, cela aurait été bien plus facile.
  • Voilà pourquoi on aime Hacker News

    • Réaction positive au fait que ce type d’excellente ressource soit partagé sur Hacker News.