Recherche intéressante : c’est intéressant de voir une étude publiée si rapidement après la présentation par Anthropic de "Mapping the Mind of a Large Language Model". Beaucoup de gens disent encore que « nous ne savons pas comment fonctionnent les LLM / le deep learning », mais ce type de travaux contredit cette généralisation.
Question sur le choix des exemples : parmi les exemples de GPT-4, certaines formulations liées à des hausses de prix semblent en réalité indiquer des baisses de prix, ce qui rend la compréhension difficile. On peut se demander pourquoi de tels exemples ont été choisis.
Recherche sémantique avancée : j’aime l’exemple du document qui filtre un concept comme la hausse des prix. Cela pourrait être plus rapide et plus précis que d’entraîner un modèle.
Erreur de classification : il y a une erreur qui classe une explication scientifique comme contenu érotique. C’est vérifiable via le lien.
Recherche similaire : cela rappelle l’étude d’Anthropic sur Claude 3 Sonnet.
Interprétation du modèle : je me demande en quoi cette étude constitue une amélioration par rapport à l’application d’outils comme SHAP. L’affirmation « nous ne comprenons actuellement pas l’activité neuronale des modèles de langage » est fausse.
Demande d’explication simple : quelqu’un demande si l’on peut expliquer simplement l’importance de cette recherche.
Outil compagnon pour les modèles open source : publier un autoencodeur qui explique la sortie des réseaux neuronaux pourrait devenir une bonne pratique. Cela pourrait être un outil compagnon utile pour tous les modèles open source sur Hugging Face.
Une IRMf pour les réseaux neuronaux : c’est comparable à une IRMf permettant de voir quelles zones s’activent selon un sujet précis dans le réseau neuronal. On se demande s’il serait possible de connecter un réseau d’évaluation pour mesurer automatiquement les zones activées.
Lien avec les sparse embeddings : cela pourrait avoir un rapport avec les sparse embeddings (comme Splade), et l’on se demande si cela pourrait servir à la recherche hybride.
1 commentaires
Commentaires sur Hacker News
Recherche intéressante : c’est intéressant de voir une étude publiée si rapidement après la présentation par Anthropic de "Mapping the Mind of a Large Language Model". Beaucoup de gens disent encore que « nous ne savons pas comment fonctionnent les LLM / le deep learning », mais ce type de travaux contredit cette généralisation.
Question sur le choix des exemples : parmi les exemples de GPT-4, certaines formulations liées à des hausses de prix semblent en réalité indiquer des baisses de prix, ce qui rend la compréhension difficile. On peut se demander pourquoi de tels exemples ont été choisis.
Recherche sémantique avancée : j’aime l’exemple du document qui filtre un concept comme la hausse des prix. Cela pourrait être plus rapide et plus précis que d’entraîner un modèle.
Erreur de classification : il y a une erreur qui classe une explication scientifique comme contenu érotique. C’est vérifiable via le lien.
Recherche similaire : cela rappelle l’étude d’Anthropic sur Claude 3 Sonnet.
Interprétation du modèle : je me demande en quoi cette étude constitue une amélioration par rapport à l’application d’outils comme SHAP. L’affirmation « nous ne comprenons actuellement pas l’activité neuronale des modèles de langage » est fausse.
Demande d’explication simple : quelqu’un demande si l’on peut expliquer simplement l’importance de cette recherche.
Outil compagnon pour les modèles open source : publier un autoencodeur qui explique la sortie des réseaux neuronaux pourrait devenir une bonne pratique. Cela pourrait être un outil compagnon utile pour tous les modèles open source sur Hugging Face.
Une IRMf pour les réseaux neuronaux : c’est comparable à une IRMf permettant de voir quelles zones s’activent selon un sujet précis dans le réseau neuronal. On se demande s’il serait possible de connecter un réseau d’évaluation pour mesurer automatiquement les zones activées.
Lien avec les sparse embeddings : cela pourrait avoir un rapport avec les sparse embeddings (comme Splade), et l’on se demande si cela pourrait servir à la recherche hybride.